teampopong / crawlers

Some quick 'n dirty web crawlers.
GNU Affero General Public License v3.0
53 stars 39 forks source link

incremental update? #30

Closed hunkim closed 8 years ago

hunkim commented 8 years ago

만들어주신 툴 잘 사용하고 있습니다. 자료가 엄청나다 보니 툴을 돌리면 시간이 오래 걸리는데 새로운 데이터나 업데이트 된 데이터만 받아오는 기능이 있나요?

그렇게 되면 crontab등에 걸어 놓고 돌릴수 있어서 매우 좋을것 같습니다.

좋은툴 공개 감사합니다.

e9t commented 8 years ago

Online.py 등이 그런 용도입니다만 문서는 없습니다~ 적절히 활용해서 돌리시면 될 것 같네요!

On Fri, Nov 27, 2015 at 6:44 PM Sung Kim notifications@github.com wrote:

만들어주신 툴 잘 사용하고 있습니다. 자료가 엄청나다 보니 툴을 돌리면 시간이 오래 걸리는데 새로운 데이터나 업데이트 된 데이터만 받아오는 기능이 있나요?

그렇게 되면 crontab등에 걸어 놓고 돌릴수 있어서 매우 좋을것 같습니다.

좋은툴 공개 감사합니다.

— Reply to this email directly or view it on GitHub https://github.com/teampopong/crawlers/issues/30.

hunkim commented 8 years ago

감사합니다. python online.py new 이렇게 하면 새로운 것을 받아 오고 python online.py update하면 업데이트 하게 되나요? 로컬에 있는 전체 데이타를 다 업데이트 하나요? 아님 main.py처럼 국회 회기를 입력으로 줄수 있나요? 제가 python을 잘 몰라 질문 많이 드립니다.

hunkim commented 8 years ago

조금더 코드를 읽어 보니 우선 국회 회기는 settings.py:SESSION = 19 에서 읽어오는데 제가 못봤네요.

update같은 경우 ange=(bill_s, bill_e)를 이용하는것 같은데 법안이 처리 완료된것들은 더이상 업데이트 될것이 없으니 계류중인 법안들에 대해서만 업데이트 하면 좋을것 같은데 그런 기능이 혹 있나요?

def update(a): 에는 list CSV 파일을 업데이트 하는 부분은 없는것 같네요.

지금 운영하시는 사이트에서는 crontab같은것으로 돌리시나요? 어떻게 하시는지 궁금합니다.

e9t commented 8 years ago

네 맞습니다. pokr.kr에서도 crontab으로 python online.py update를 정기적으로 돌리고 있습니다. 말씀하신대로 계류중인 법안에 대해서만 업데이트하는 것도 좋은 생각인듯합니다. 다만 저희가 전체를 업데이트하고 있는데는 두 가지 이유가 있는데:

  1. 처리 의안에 비해 계류 의안이 절대 다수입니다.
  2. 간혹 처리 의안 중에도 업데이트 되는 경우가 있습니다.

따라서 계류중인 의안만 따로 업데이트하는 기능도 현재는 구현되어 있지 않습니다. 참고로, 저희가 국회에 대한 지식이 많이 부족할 때 작성한 코드라 여러모로 일반화가 잘 된 코드는 아닙니다. 그럼에도 좋은 피드백 많이 주셔서 감사합니다 :)

혹시 궁금증이 더 남아 있으시면 계속 질문을 해주시고, 의문이 해소되었다면 이슈를 닫아주시면 감사하겠습니다.

hunkim commented 8 years ago

제가 19대를 기준으로 다 받아보니 12시간 정도 걸리던데 poke에서는 crontab 을 어느 주기로 돌리시나요?

돌린 다음 업데이트가 있는 bill번호를 따로 알수 있나요? 아님 다운 받고 diff로 비교한다음 처리해야 할까요?

빠른 답변 감사합니다. On Sat, Nov 28, 2015 at 11:13 AM Lucy Park notifications@github.com wrote:

네 맞습니다. pokr.kr에서도 crontab으로 python online.py update를 정기적으로 돌리고 있습니다. 말씀하신대로 계류중인 법안에 대해서만 업데이트하는 것도 좋은 생각인듯합니다. 다만 저희가 전체를 업데이트하고 있는데는 두 가지 이유가 있는데:

  1. 처리 의안에 비해 계류 의안이 절대 다수입니다.
  2. 간혹 처리 의안 중에도 업데이트 되는 경우가 있습니다.

따라서 계류중인 의안만 따로 업데이트하는 기능도 현재는 구현되어 있지 않습니다. 참고로, 저희가 국회에 대한 지식이 많이 부족할 때 작성한 코드라 여러모로 일반화가 잘 된 코드는 아닙니다. 그럼에도 좋은 피드백 많이 주셔서 감사합니다 :)

혹시 궁금증이 더 남아 있으시면 계속 질문을 해주시고, 의문이 해소되었다면 이슈를 닫아주시면 감사하겠습니다.

— Reply to this email directly or view it on GitHub https://github.com/teampopong/crawlers/issues/30#issuecomment-160243168.

e9t commented 8 years ago

저희는 업데이트는 주중에 새벽마다 한 번씩 하고 있습니다. 업데이트는 말씀하신대로 diff로 비교하시면 될 것 같습니다.

hunkim commented 8 years ago

혹 의안정보 서버에서 last updated head 정보 없나요?

On Sat, Nov 28, 2015 at 11:40 AM Lucy Park notifications@github.com wrote:

저희는 업데이트는 주중에 새벽마다 한 번씩 하고 있습니다. 업데이트는 말씀하신대로 diff로 비교하시는게 좋을 것 같습니다.

— Reply to this email directly or view it on GitHub https://github.com/teampopong/crawlers/issues/30#issuecomment-160243857.

e9t commented 8 years ago

네 의안 별 head는 따로 기록하지 않고 있습니다.