Open e9t opened 10 years ago
크롤러 실행 시에 파라미터로 범위를 받아서 동작하는 것은 어떤가요? 모든 날짜를 요청하면 요청량이 많아질 것 같습니다.
그리고 저장되면 하는 자료는 어떤 부분인가요?
<h4 class="title">2014-10-01 일정</h4>
<dl class="clist">
<dt>
<a href="#" onclick="jsDetail('CMMTT', '0','2005110000002', '2006011000073', '2014090048992');return false;">[위원회] 제329회국회(정기회) 제1차 전체회의</a>
</dt>
<dd>2014-10-01 14:30 <span>법제사법위원회</span></dd>
....
형태의 데이터를 가져올 수 있습니다. 조합하면 해당 회의 이름을 눌러서 나오는 페이지의 링크를 만들 수 있어서 달력에서 눌렀을 때 페이지 이동 시 표시된 내용도 가져올 수 있습니다.
좋은 생각이네요. 저도 대찬성입니다!
아래와 같이 세 단계로 처리하는 것을 제안하고 싶습니다.
get_meeting_list('2014-11-07', '2014-11-09')
)http://www.assembly.go.kr/renew10/anc/schedule/assm/assemact/council/council0101/assmSchCal/assemSchCalInfoAjax.do?currentPage=&movePageNum=&rowPerPage=100&gubun=&agendaid=&committee_id=&board_id=&record_id=&returnPage=&weekday=&today=&calendarMove=&showDt=&meetingday=20141107
URL의 meetingday
를 바꿔가며 일별로 회의 목록을 크롤링/파싱한다.데이터를 meetings_20141107_20141109.csv
라는 이름으로 저장한다. (session
, sitting
변수는 제목에서 추출)
date,time,type,title,session,sitting,committee,url
2014-11-07,14:00,본회의,제329회국회(정기회) 제12차 의사일정,329,12,본회의,http://www.assembly.go.kr/renew10/anc/schedule/assm/assemact/council/council0101/assmSchCal/assemScanCalDetail.do?gubun=ASSEM&agendaid=1100017240,
2014-11-07,10:00,위원회,제329회국회(정기회) 제6차 전체회의,329,6,법제사법위원회,http://www.assembly.go.kr/renew10/anc/schedule/assm/assemact/council/council0101/assmSchCal/assemScanCalDetail.do?gubun=CMMTT&committee_id=2005110000002&board_id=2006011000073&record_id=2014110049452
...
지금 들여다보면서 몇 가지 재밌는 사항을 발견했는데,
요하자면, 포텐셜이 큰, 정말 귀중한 데이터인 것 같습니다 ^^
대한 부분은 구현이 되었습니다. 미래 시점에 대한 부분은 날짜만 미래 시점으로 호출하면 되기 때문에 추가로 구현할 부분은 없어 보이구요.
남은 것이 개별 의사일정에 대한 세부사항 부분인데요. 어떤 방식으로 처리되면 좋을지 궁금합니다. 각 의사일정에 대한 코드로 생성된 파일 이름으로 각각 파일을 만들어서 저장이 되면 될까요?
회의록은 바로바로 업데이트 되지 않아서 (약 1주일 소요되는듯), 회의록이 업데이트되지 않은 지난 회의에 대한 정보가 필요.
http://www.assembly.go.kr/renew10/anc/schedule/assm/assemact/council/council0101/assmSchCal/assemSchCal.do