minhoryang / minhoryang.github.io

Ask Me Anything 무엇이든 물어보세요!
https://minhoryang.github.io/
10 stars 0 forks source link

# TODO: Crawl Crawl Crawler (working title) Design Doc #14

Open minhoryang opened 8 years ago

minhoryang commented 8 years ago

학교에서 하던 일 중에 다른 연구실과 많이 겹치는 부분이 News Crawling 이었다. 많은 연구실이 똑같은 일을 계속 반복했는데, 이 문제를 총대를 매고 해결해 보려다가, 내가 휴학했었지. 요즘엔 Apache Nutch나 Nifi라는게 나왔네. 그런데 Nutch쪽은 Search Engine을 위한 Crawling? 정확히는 Spider를 키우는 느낌이고, (ScoringFilter가 있다?!), Nifi는 Data Pipeline을 관리해주는데, Clustering과 몇개가 부실한 느낌? Nifi에서는 이와 관련된 사항을 조치할 예정이긴 함. https://cwiki.apache.org/confluence/display/NIFI/NiFi+Feature+Proposals … "Clustering Redesign" "Multiple Versions of the Same Extension" 또 문제는 우리가 사실 Nutch와 Nifi 두개를 엮어서 처리하고 싶다는 것. 그러니까 크롤링과, 프로세싱이 한번에 되는 툴이 필요하다는 것. 근데 사실 두개가 진짜 동시에 필요할까?

minhoryang commented 8 years ago

하고싶은것

P0

P2

P3

minhoryang commented 8 years ago

쓰일 기술

Consul Docker Github + Issue (파일기반 이슈가 있나?) one of NoSQL one of MessageQueue Logstash

minhoryang commented 8 years ago
minhoryang commented 8 years ago
minhoryang commented 8 years ago