http://blog.nzeo.com/7896liveXE.png

갑자기.. 그것도 아무 생각없이 만들기 시작한 XE 전용 메타 사이트인 liveXE가 어느정도 형태를 갖춰가고 있다.

이런 메타 사이트의 경우 크게 자료를 수집하는 단계와 자료를 분석하는 단계 그리고 자료를 노출하는 3가지 단계가 있다.


일단 수집하는 단계의 경우 처음에 무식하게 crawling하는 방식에서 RSS의 첫글과 마지막글을 비교하여 간격을 조절하게 하였다.

그래서 지금은 매우 안정적이라고 판단이 된다.


자료를 분석하는 단계는 현재도 진행중이다.

한글문서가 대부분인데 제일 필요한게 핵심 키워드 추출 방법이였다.

즉 수집되는 문서들을 분석하여 각 글들마다 어떤 키워드가 핵심인지 분석할 줄 알아야 문서들에 가중치를 부여한다거나 최근 이슈를 분석하여 보여줄 수 있기 때문이다.

대충 공개된 한글형태소 분석기를 개량해서 명확히 입력된 tag와 관리자가 관리하는 키워드를 바탕으로 각 문서들에서 핵심 키워드를 추출하는 방법을 썼다.

한글 형태소 분석을 하게 되면 명사/ 동사등으로 단어들이 나눠지게 되는데 이 중 명사부분만을 또 글의 키워드로 하게 하였다.

아무튼 이런 저런 것들을 바탕으로 현재 liveXE의 이슈를 보면 그럭 저럭 최근 이슈들이 잘 추출되는 것 같다.

물론 한글 형태소 분석을 통해 일반 명사와 고유 명사를 나누고 키워드 입력을 좀더 유연하게 하여 더 적절한 핵심 키워드를 추출해야 하는 품질 향상을 위한 작업이 남아 있다.

뭐 이 작업은 계속해서 신경 써야 하는거라서 언제 개발이 완료된다고 말할 수 있는 것이 아니다.


아무튼 liveXE의 메인 페이지는 최근/ 핵심 이슈를 바탕으로 주기적으로 완성이 된다.

그리고 검색기능과 실시간으로 수집되는 글들을 보여주는 live 기능까지 얼추 골격은 갖추었다.


지금 남은 작업은 필터링이나 사이트/게시글 제한 조치를 할 수 있는 백오피스 기능과 각 기능별 RSS 제공하는 것 정도이다.

물론 품질을 높이는 작업도 필수이긴 하지만.


일단 백오피스와 RSS 기능을 보완한 후에 더 노출해야 할 것과 덜 노출해야 할 것들을 골라서 UI 기획을 거쳐 디자인을 입혀서 정식 오픈해야겠다.



XE 공식사이트에서는 이 liveXE를 공개해달라는데 솔직히 이런 크롤링 즉 풀방식의 서버 프로그램들은 계정호스팅 사용자들은 못 쓰고 단독 서버가 준비되어야 원활히 사용할 수 있어서 고민중이다.

오픈 소스 프로젝트가 주는 직접적인 이익이라 말할 수 있는 QA/개발비용의 감소 및 품질 향상을 위해서라도 오픈 소스화를 하고 싶지만 오픈 소스로 배포하기 위해서는 준비할 게 좀 많기에 지금 당장은 안되겠지만 차후에 안정화 되면 배포할 듯 싶다.



seed url을 입력하거나 등록받는 형식이라면 XE 외의 사이트라도 가능한데 그런 역할을 하는 메타사이트가 국내에도 좋은 곳들이 많아서 앞으로 liveXE는 XE로 만들어진 사이트들만의 것으로 하고 싶다. :)
이 게시물을..