TensorFlowKR / flowbox

생활코딩 그룹에 그냥 흘려보내기에는 아까운 수 많은 좋은 질문과 답변이 올라 오고 있습니다. TensorFlow를 이용해서 자동으로 이름 한 곳에 담을 수있는( Stackoverflow 같은 )사이트를 만들어 보고자 합니다.
13 stars 1 forks source link

생코 문서 다운 받아 csv 로 만들기 #1

Open hunkim opened 8 years ago

hunkim commented 8 years ago

더 필요한 정보는 query에 넣어주시면 좋을듯.

jihobak commented 8 years ago

@hunkim 실서비스시는 크론주기는 논외로 하고, 1년치 정도 csv로 만들어놓을까요?

hunkim commented 8 years ago

넵. 우선 2015년 한번 다 받아 보면 어떨까요?

jihobak commented 8 years ago

@hunkim 링크주심 페북문서를 다 보았고, 지금 우리 서비스에 맞는 데이터가 어떤게 있을까 조금 구체적으로 보고있습니다. ( 토큰은, 자기 App을 하나 만들어서 거기서 생기는 토큰을 사용하는것 맞지요? ㅎㅎ)

hunkim commented 8 years ago

넵. 제가 일단 어제 드린 쿼리 정도로 한번 시작해 보심도 좋을듯 합니다.

토큰은, 맞습니다. 아니면 GRAPHICS API에서 주는 토큰 사용하셔도 됩니다. (몇시간동안 유효합니다.)

2016-03-30 21:36 GMT+08:00 piper notifications@github.com:

@hunkim https://github.com/hunkim 링크주심 페북문서를 다 보았고, 지금 우리 서비스에 맞는 데이터가 어떤게 있을까 조금 구체적으로 보고있습니다. ( 토큰은, 자기 App을 하나 만들어서 거기서 생기는 토큰을 사용하는것 맞지요? ㅎㅎ)

— You are receiving this because you were mentioned. Reply to this email directly or view it on GitHub https://github.com/TensorFlowKR/flowbox/issues/1#issuecomment-203436757

jihobak commented 8 years ago

@hunkim 조금 늦어졌습니다. 필드값의 정보들이 한 번에 나오는 레퍼런스가 없어서 살피는데 시간이 좀 걸렸습니다. 최대한 내일까지 마무리 짓도록 하겠습니다. 기다려주셔서 감사합니다.

jihobak commented 8 years ago

@hunkim 2015년 24944개의 포스팅그리고 거기에 달린 655354개의 댓글 2개의 csv파일 크롤 완료하였습니다.

hunkim commented 8 years ago

수고 많으셨습니다. 혹시 tag 정보도 받아 올수있으면 추가 하면 좋을것 같습니다. 파일을 gz등으로 올려 주시면 감사하겠습니다. Web 작업 시작합니다.

hunkim commented 8 years ago

지금 있는 것이 'id' 'comments_count' 'message' 'shares' 'created_time' 'status_type' 'from_id' 'from_name' 'type' 'updated_time' 'likes' 인데

이중 caption, desc, full_pic, link, message_tags, story, caption, picture 등이 추가 되면 어떨까요?

image