http://blog.nzeo.com/7896liveXE.png

갑자기.. 그것도 아무 생각없이 만들기 시작한 XE 전용 메타 사이트인 liveXE가 어느정도 형태를 갖춰가고 있다.

이런 메타 사이트의 경우 크게 자료를 수집하는 단계와 자료를 분석하는 단계 그리고 자료를 노출하는 3가지 단계가 있다.


일단 수집하는 단계의 경우 처음에 무식하게 crawling하는 방식에서 RSS의 첫글과 마지막글을 비교하여 간격을 조절하게 하였다.

그래서 지금은 매우 안정적이라고 판단이 된다.


자료를 분석하는 단계는 현재도 진행중이다.

한글문서가 대부분인데 제일 필요한게 핵심 키워드 추출 방법이였다.

즉 수집되는 문서들을 분석하여 각 글들마다 어떤 키워드가 핵심인지 분석할 줄 알아야 문서들에 가중치를 부여한다거나 최근 이슈를 분석하여 보여줄 수 있기 때문이다.

대충 공개된 한글형태소 분석기를 개량해서 명확히 입력된 tag와 관리자가 관리하는 키워드를 바탕으로 각 문서들에서 핵심 키워드를 추출하는 방법을 썼다.

한글 형태소 분석을 하게 되면 명사/ 동사등으로 단어들이 나눠지게 되는데 이 중 명사부분만을 또 글의 키워드로 하게 하였다.

아무튼 이런 저런 것들을 바탕으로 현재 liveXE의 이슈를 보면 그럭 저럭 최근 이슈들이 잘 추출되는 것 같다.

물론 한글 형태소 분석을 통해 일반 명사와 고유 명사를 나누고 키워드 입력을 좀더 유연하게 하여 더 적절한 핵심 키워드를 추출해야 하는 품질 향상을 위한 작업이 남아 있다.

뭐 이 작업은 계속해서 신경 써야 하는거라서 언제 개발이 완료된다고 말할 수 있는 것이 아니다.


아무튼 liveXE의 메인 페이지는 최근/ 핵심 이슈를 바탕으로 주기적으로 완성이 된다.

그리고 검색기능과 실시간으로 수집되는 글들을 보여주는 live 기능까지 얼추 골격은 갖추었다.


지금 남은 작업은 필터링이나 사이트/게시글 제한 조치를 할 수 있는 백오피스 기능과 각 기능별 RSS 제공하는 것 정도이다.

물론 품질을 높이는 작업도 필수이긴 하지만.


일단 백오피스와 RSS 기능을 보완한 후에 더 노출해야 할 것과 덜 노출해야 할 것들을 골라서 UI 기획을 거쳐 디자인을 입혀서 정식 오픈해야겠다.



XE 공식사이트에서는 이 liveXE를 공개해달라는데 솔직히 이런 크롤링 즉 풀방식의 서버 프로그램들은 계정호스팅 사용자들은 못 쓰고 단독 서버가 준비되어야 원활히 사용할 수 있어서 고민중이다.

오픈 소스 프로젝트가 주는 직접적인 이익이라 말할 수 있는 QA/개발비용의 감소 및 품질 향상을 위해서라도 오픈 소스화를 하고 싶지만 오픈 소스로 배포하기 위해서는 준비할 게 좀 많기에 지금 당장은 안되겠지만 차후에 안정화 되면 배포할 듯 싶다.



seed url을 입력하거나 등록받는 형식이라면 XE 외의 사이트라도 가능한데 그런 역할을 하는 메타사이트가 국내에도 좋은 곳들이 많아서 앞으로 liveXE는 XE로 만들어진 사이트들만의 것으로 하고 싶다. :)
조회수 :
3253
등록일 :
2008.08.01
11:42:36 (*.13.37.8)
엮인글 :
http://blog.nzeo.com/7896/921/trackback
게시글 주소 :
http://blog.nzeo.com/7896

'1' Trackbacks

제로보드XE에도 ‘메타서비스’가 생겼습니다 - 서명덕기자의 人터넷 세상 ▶모든 블로거들이 유명해지는 그날까지◀

Time :
2008.08.04 19:08
(211.239.127.40)

최근 제로님 블로그(http://blog.nzeo.com/7651)에 ‘라이브XE’ 언급이 있을 때부터 계속 지켜보고 있었습니다. 제로보드가 zbxe 사용자 중 RSS를 공개한 곳을 대상으로 크롤링을 해 만든 메타 정보 웹사이트가 http://live.zeroboard.com 입니다. CMS 툴이 자체적으로 구성한 연결 고리라는 점에서 태터툴즈의 이올린과 ...

'6' 댓글

엉뚱이

2008.08.01
13:07:23
(*.255.245.133)
http://blog.nzeo.com/7907멋지네요. ^^
나중에 XE로 블로그를 개설해 운영하게 되면 이 멋진 메타사이트에 글을 보낼 수 있는 거겠군요. 앞으로 더 멋진 liveXE로 발전하기를 바랄께요~

zero

2008.08.01
18:41:22
(*.13.37.8)
http://blog.nzeo.com/7914헛;; 멋지다고 봐주시니 감사합니다. ㅡ.ㅜ

아띠

2008.08.01
21:51:50
(*.108.220.214)
http://blog.nzeo.com/7920이런.. 코멘트 길게 쎗는데, "댓글등록"을 누룬다는게 그왼쪽밑에 "쓰기"를 눌러서 쓴글이 그만... ㅡ.ㅜ

암튼~ 다시 쓰면....
아.. 머리가 나빠서 그런지 기억이 안나네요.. 내가봐도 정말 잘썼다고 생각했는데.. ㅡㅡ;;

제로보드를 쓰는 한명으로써 정말 바라던 메타사이트입니다. 제로보드유저만을 위한 메타사이트!!
liveXE 화이팅입니다요~ ㅡ.ㅜ

zero

2008.08.06
09:59:59
(*.13.13.67)
http://blog.nzeo.com/8003아고;;; 쓰기 버튼 없애버렸습니다. ㅡ.ㅜ
화이팅요;; 쿨럭; ^^;;

민수

2008.08.02
00:53:39
(*.139.49.38)
http://blog.nzeo.com/7928길게 썼었는데;;방금 버튼을 잘못눌러 날리고 다시 씁니다;; (댓글도 자동저장된다면 좋았을텐데요...)

라이브XE 키워드 추출하신다고 할때마다 생각이 나는건데요. 검색이후 결과물 출력시에도 이 키워드를 사용할 수 있게 해주시면 좋겠습니다.
무슨말인고 하면요. 큐로보라는 검색사이트의 출력물 배열법이기도 한데요. 이게 은근히 편리합니다. 검색결과 중에 중복이 많이 되는 키워드는 결과페이지 상단에 한 셋정도를 나열해주는 겁니다.
예를 들면 동음이의어들의 경우 어떤 뜻을 가진 단어가 이슈가 될경우 다른 단어는 찾기가 매우 힘들어 집니다. 그런데 중복키워드를 나열해줄경우 분류를 따라가면 쉽게 찾을 수 있게 됩니다.

키워드 관련해서 또 활용될만하다 생각되는것은 스팸차단입니다. 라이브XE에서 키워드추출한 정보를 zbXE내에 스팸필터 모듈과 연동하면 스팸글들의 키워드가 잡히면 등록보류(자동화된 키워드추출이니 일반글도 차단될수 있으니까요) 시키는 기능을 할 수 있지 않나 생각해 봅니다. 다음에서 문맥키워드 API를 제공하긴 하던데 품질이 좀 별로더군요.. (최근 핫이슈가 아니면 키워드가 안나요) 라이브XE 키워드기능 정말 기대 만빵입니다!

저작권문제도 명확히 답해주셔서 매우 고마웠습니다.
제로님 최고~! 제로님 짱!!!^^

zero

2008.08.06
10:00:46
(*.13.13.67)
http://blog.nzeo.com/8006댓글 자동저장도 고민해야겠네요. ^^

근데 그 키워드 추출의 품질이 현재 좋지 못합니다. ㅡ.ㅜ

키워드 추출 기능의 품질이 좋아지면 여러모로 쓸 수 있을텐데 제가 그 부분에 대해서는 아는게 별로 없어서 참 어렵네요.
  • 배경, 글자, 이미지, 인용문등에서 더블클릭을 하시면 상세한 컴포넌트 설정이 가능합니다
  • 문단 나누기를 하시려면 ctrl-엔터를 누르시면 됩니다. (글 작성완료후 alt-S를 누르면 저장이 됩니다)
  • 단축키 안내
    • Un Do : Ctrl+Z
    • Re Do : Ctrl+Y
    • Bold : Ctrl+B
    • Underline : Ctrl+U
    • Italic : Ctrl+I
    • Style Remover : Ctrl+D
    • URL : Ctrl+L
옵션 :
:
:
:
: