jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

Personalized Page Rank Experiment #33

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

PPR을 미국 위키에서 돌려보고 있는 중입니다. 일단은 어떻게 구했는지, 그리고 지금의 느낌은 어떤지에 대해서 간략하게 정리 해보았습니다.

스크린샷 2019-03-12 오후 9 05 50

정의는 이 정의를 따라갔고 한번 쭉 계산하는 데에는 오래걸리지만, 3번 정도 계산이면 수렴하는 것을 확인하였습니다. (행렬 계산처럼 한꺼번에 하는게 아니라 라인바이라인으로 계산을 하고 있어서, gpu를 한번 활용해볼까 생각중입니다.)

단계는 다음과 같습니다. alpha와 threshold를 정하면

  1. 위의 정의 대로 계산하고, 정지 조건에 따라서 계산 종료
  2. 얻어진 계산결과에서 threshold 보다 작은 값들은 0으로 바꿈
  3. normalize (sum=1)

밑의 결과는 complex system에 대해서 구한 결과 중 값이 0.001 이상인 것을 선택해서 인쇄한 것입니다. alpha = 0.2 threshold = 0.001

스크린샷 2019-03-12 오후 9 09 39

기존의 complex system이 엄청나게 많이 차지 하는 것을 볼수 있는데 일단은 이 노드를 제외하더라고 매우 로컬에서 노는 것을 볼수 있습니다. 그리고 normalize를 안하면 sum이 0.2340 정도로 매우 낮은 값을 가집니다. 이는 아마도 처음에 유니폼하게 시작했지만 acyclic directed graph의 특성상 sink로 많은 값들이 빠져 나가서 그런걸로 생각됩니다.

그래서 알게 된 점은

  1. citation network 에서는 p를 낮게하는 것이 좋을 것 같다. (그래야 랜덤워커가 시작노드에서 멀어질수 있음)
  2. normalize 할 때 기본 방식 대로 시작 노드를 빼고 정규화해야 한다.

정도 인 것 같습니다.

그래서 앞으로의 방향은 p를 낮게하면서 어떻게 결과가 바뀌는지 한번 알아볼려고 합니다.

jisungyoon commented 5 years ago

이미 lang link은 파싱이 끝난 상태라 그렇게 어려운 작은 아닐듯 합니다.

bluekura commented 5 years ago

아마 몇시간 안에 옮길겁니다 :>

일단 준비작업중.

2019년 3월 27일 (수) 오전 9:43, Jisung Yoon notifications@github.com님이 작성:

문제는 모든 언어에 대한 wikipedia / namespace를 다 찾아야 하는것... -- 2019년 3월 27일 (수) 오전 9:38, Jisung Yoon notifications@github.com님이 작성: … <#m-130842523069641790_> 불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33 (comment) https://github.com/balla2081/Structure-of-Science/issues/33#issuecomment-476912510>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXKrzMjgx_8PErOATYjSt-1ZwGQ2oks5var2EgaJpZM4bsMIq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

lang link를 이용하면 될 것 같긴합니다. 하나하나 찾기는 힘들구

오케이 그렇게 하시고 cross-check을 위해서 우리가 아주 잘 아는 "한국어" 기준으로 잘라보고 얼마나 겹치나 체크를...

이 작업은 우선 서버를 옮긴뒤 하는 것이 좋겠군요

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/33#issuecomment-476913794, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXFakpf5xK17CTxFxvEDnDHHMbUPkks5var7DgaJpZM4bsMIq .

-- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

jisungyoon commented 5 years ago

아마 몇시간 안에 옮길겁니다 :> 일단 준비작업중. 2019년 3월 27일 (수) 오전 9:43, Jisung Yoon notifications@github.com님이 작성: 문제는 모든 언어에 대한 wikipedia / namespace를 다 찾아야 하는것... -- 2019년 3월 27일 (수) 오전 9:38, Jisung Yoon @.***님이 작성: … <#m-130842523069641790_> 불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33 (comment) <#33 (comment)>>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXKrzMjgx_8PErOATYjSt-1ZwGQ2oks5var2EgaJpZM4bsMIq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: @.*** lang link를 이용하면 될 것 같긴합니다. 하나하나 찾기는 힘들구 오케이 그렇게 하시고 cross-check을 위해서 우리가 아주 잘 아는 "한국어" 기준으로 잘라보고 얼마나 겹치나 체크를... 이 작업은 우선 서버를 옮긴뒤 하는 것이 좋겠군요 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33 (comment)>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXFakpf5xK17CTxFxvEDnDHHMbUPkks5var7DgaJpZM4bsMIq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

넵 감사합니다 요즘 인디아나 서버를 쓰면서 눈치안보고 컴퓨팅 자원을 맘대로 쓸 수 있다는게 얼마나 좋은 기회인지 느끼고 있습니다:)

bluekura commented 5 years ago

나중에 직접 한대 만들어보시는것도 큰 경험이 됩니다. 다만 자주 하시진 마세요... -.-

jisungyoon commented 5 years ago

영어 계산이 완료 된 것 같은데, 뭔가 프로세스가 안끝나고 있군요 ㅜㅜ 코드에 문제가 있나 한번 확인해보곘습니다.

jisungyoon commented 5 years ago

작은 위키에 대해서 돌려본 결과 잘 작동하는군요... 큰 위키에 대해서는 애초부터 나눠서 저장하는 방식을 취해야 할 것 같습니다 ㅜㅜㅜㅜ

bluekura commented 5 years ago

예전에 커널 버전 문제로 multiprocessing이 안 끝나던 문제가 있긴 했는데... 코드 커밋 한번 해 주세요.

jisungyoon commented 5 years ago

예전에 커널 버전 문제로 multiprocessing이 안 끝나던 문제가 있긴 했는데... 코드 커밋 한번 해 주세요.

코드는 커밋했습니다. 근데 작은 위키에 대해서는 잘돌아가는. ㅜㅜㅜ

jisungyoon commented 5 years ago

저기서 저장하는 부분을 그냥 멀티프로세싱하는데서 저장해버릴까요? 그게 나을 수도 있을 것 같네요 ㅜㅜ 뻑나도 그 뻑난 프로세스 부분만 다시 돌릴 수 있게

bluekura commented 5 years ago

소스가 어디까지 가다 멈추나요? print('output_queue_closed')
이부분까지 진행이 되나요?

jisungyoon commented 5 years ago

아니요 output queue 가 안닫히는 것 같습니다. 모든 코어가 계산이 끝났다는 문구는 뜹니다.

bluekura commented 5 years ago

그냥 그럼 HDD IO가 느려서 bottleneck 아닌가...? -_-?;;

jisungyoon commented 5 years ago

그냥 그럼 HDD IO가 느려서 bottleneck 아닌가...? -_-?;;

일단은 종료안시키고 기다려보고 있는 중입니다. (기도하면서)

bluekura commented 5 years ago
jhyun@K6061P2:~$ iostat
Linux 4.4.0-143-generic (K6061P2)       04/08/2019      _x86_64_        (40 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          35.34    0.00    3.04    0.11    0.00   61.51

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
loop0             0.00         0.00         0.00          5          0
sda             127.53       872.01      1387.98  857935336 1365582296
sdb              10.27      4027.03       111.92 3962055178  110117187
sdc               8.58      4019.23       111.92 3954381805  110117187
sdd               9.52      4026.51       111.89 3961535418  110086239
sde              18.97      4019.61       111.89 3954750176  110086239
sdf               0.03         0.29       770.88     287289  758442568
md0               0.95       361.86       223.54  356017741  219928476

IO가 없지는 않은데... pickle이 속도가 느린건지...

jisungyoon commented 5 years ago

음 그럴수도 있ㅇ

jhyun@K6061P2:~$ iostat
Linux 4.4.0-143-generic (K6061P2)       04/08/2019      _x86_64_        (40 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          35.34    0.00    3.04    0.11    0.00   61.51

Device:            tps    kB_read/s    kB_wrtn/s    kB_read    kB_wrtn
loop0             0.00         0.00         0.00          5          0
sda             127.53       872.01      1387.98  857935336 1365582296
sdb              10.27      4027.03       111.92 3962055178  110117187
sdc               8.58      4019.23       111.92 3954381805  110117187
sdd               9.52      4026.51       111.89 3961535418  110086239
sde              18.97      4019.61       111.89 3954750176  110086239
sdf               0.03         0.29       770.88     287289  758442568
md0               0.95       361.86       223.54  356017741  219928476

IO가 없지는 않은데... pickle이 속도가 느린건지...

보통 pickle이 느리지는 않는데, 용량 문제일수도 있으니 안끄고 기다려볼까 합니다. 작은 위키는 조금씩 돌려도 괜찮을 것 같은데요? 끄지 않고

bluekura commented 5 years ago

네 그렇게 하시죠... 작은 것 부터 순서대로 돌려보죠 ^^;;

bluekura commented 5 years ago

정상적인 IO라고 하기엔 한계속도보다 많이 아래라서 조금 애매하긴 합니다만...

jisungyoon commented 5 years ago

정상적인 IO라고 하기엔 한계속도보다 많이 아래라서 조금 애매하긴 합니다만... 음.. 근데 지금 먹고 있는 메모리를 보면 뭔가 계산된 결과는 없어지긴한 것 같습니다.

bluekura commented 5 years ago

실제 출력되고 있는 파일이 사이즈가 변동이 있는지 체크해보시겠어요? 조금 기다려야 할 수도 있습니다.

jisungyoon commented 5 years ago

실제 출력되고 있는 파일이 사이즈가 변동이 있는지 체크해보시겠어요? 조금 기다려야 할 수도 있습니다.

출력되고 있는 파일이라면, pkl 파일 말씀하시는 건가요? 영어 파일은 안보입니다. ls -al로 봐도

bluekura commented 5 years ago

그럼 더 이상한데...

jisungyoon commented 5 years ago

실제 출력되고 있는 파일이 사이즈가 변동이 있는지 체크해보시겠어요? 조금 기다려야 할 수도 있습니다.

출력되고 있는 파일이라면, pkl 파일 말씀하시는 건가요?

그럼 더 이상한데...

그럼 종료시키는게 맞지않을까요?

jisungyoon commented 5 years ago

thai와 simple english를 돌려보니 아주 잘 되는 걸 확인했습니다.

bluekura commented 5 years ago

일단 좀 기다려보고, 내일도 변동이 없으면 종료해보죠.

jisungyoon commented 5 years ago

일단 좀 기다려보고, 내일도 변동이 없으면 종료해보죠.

넵 쥬륵 ㅜㅜ

jisungyoon commented 5 years ago

일단 좀 기다려보고, 내일도 변동이 없으면 종료해보죠.

넵 쥬륵 ㅜㅜ

영어는 미동도 하지 않았군요 ㅜㅜ 뭔가 잘못된게 맞는 것 같습니다.

반대로 다른 언어들을 배치로 돌려놓은 것은 잘 계산되고 있습니다. 현재 15개의 언어를 처리했군요

bluekura commented 5 years ago

나머지도 잘 돌아가는게 확실한지 잘 모르겠네요... Queue 쓰지 말고 Process들이 바로 file IO하게 짜서 작은 위키로 비교해보시는게 어떨까요?

jisungyoon commented 5 years ago

나머지도 잘 돌아가는게 확실한지 잘 모르겠네요... Queue 쓰지 말고 Process들이 바로 file IO하게 짜서 작은 위키로 비교해보시는게 어떨까요?

나머지 위키 같은 경우는 아웃풋 결과가 잘 나오는 것을 확인했습니다.

wsjung77 commented 5 years ago

이래서 영어가 싫은...

jisungyoon commented 5 years ago

혹시 몰라서 한국어 결과를 뜯어봤는데, 결과는 정확히 잘 나오고 있습니다.

jisungyoon commented 5 years ago

나머지도 잘 돌아가는게 확실한지 잘 모르겠네요... Queue 쓰지 말고 Process들이 바로 file IO하게 짜서 작은 위키로 비교해보시는게 어떨까요?

영어는 아마 박사님이 제안하신 방법대로 짜야 할 것 같습니다 ㅜㅜ

jisungyoon commented 5 years ago

중국 위키도 무사히 잘 계산이 되었네요.. 영어계산만 조금 이상하게 돌아 갔던 것 같습니다.

jisungyoon commented 5 years ago

영어는 이만 보내주는게 좋지 않을까요? ㅜㅜ @bluekura

bluekura commented 5 years ago

이미 보내신 줄.... 보내주세요

jisungyoon commented 5 years ago

이미 보내신 줄.... 보내주세요

보냈습니다:)

jisungyoon commented 5 years ago

프랑스어 중국어 이탈리아어도 계산된거 보니.. 영어 때 뭔가 문제가 생긴것 같내요

bluekura commented 5 years ago

영어를 한 번 더 그냥 트라이 하시렵니까 아니면 코드를 고치시렵니까... as you want...

wsjung77 commented 5 years ago

영어를 한 번 더 그냥 트라이 하시렵니까 아니면 코드를 고치시렵니까... as you want...

동시에 둘 다 시도 가능하지 않나요?

jisungyoon commented 5 years ago

영어를 한 번 더 그냥 트라이 하시렵니까 아니면 코드를 고치시렵니까... as you want...

동시에 둘 다 시도 가능하지 않나요?

영어를 위한 특별 코드를 작성중입니다. 다른 언어는 지금 잘 처리되고 있습니다

jisungyoon commented 5 years ago

갯수로는 거의 반쯤 처리 한 것 같습니다. 물론 영어가 계산량의 반정도를 차지 하지만요 ㅎㅎ

bluekura commented 5 years ago

Noted. 고생하십니다.

jisungyoon commented 5 years ago

영어만 남았습니다. 따로 짜놓은 코드를 작은 위키로 실험해보고, 영어를 시도해보도록 하죠

bluekura commented 5 years ago

Noted!

2019년 4월 15일 (월) 오후 9:44, Jisung Yoon notifications@github.com님이 작성:

영어만 남았습니다. 따로 짜놓은 코드를 작은 위키로 실험해보고, 영어를 시도해보도록 하죠

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/33#issuecomment-483236142, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXPY_T3BfQga9fiJw8fH54DTK_ej5ks5vhHQfgaJpZM4bsMIq .

-- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

jisungyoon commented 5 years ago

지금 속도로 보았을 때 앞으로 4일 내에 계산이 끝날듯합니다.

jisungyoon commented 5 years ago

생각보다 오래걸리는군요 50% 정도 완료 된 것 같습니다.

wsjung77 commented 5 years ago

생각보다 오래걸리는군요 50% 정도 완료 된 것 같습니다.

주말이면 끝나는 걸로 보면 되겠죠?

jisungyoon commented 5 years ago

생각보다 오래걸리는군요 50% 정도 완료 된 것 같습니다.

주말이면 끝나는 걸로 보면 되겠죠?

70% 정도 완료 되었네요. 그렇게 보시면 될 것 같습니다. 그 이후 빠르게 분석이 완료된다면 http://event.ntu.edu.sg/ccs2019/Pages/Home.aspx ccs에 한번 초록을 내보려고 하는데, 어떠신가요?

wsjung77 commented 5 years ago

생각보다 오래걸리는군요 50% 정도 완료 된 것 같습니다.

주말이면 끝나는 걸로 보면 되겠죠?

70% 정도 완료 되었네요. 그렇게 보시면 될 것 같습니다. 그 이후 빠르게 분석이 완료된다면 http://event.ntu.edu.sg/ccs2019/Pages/Home.aspx ccs에 한번 초록을 내보려고 하는데, 어떠신가요?

why not. 근데 출장비는 다른 이슈라서... 초록 내려는 분들이 얼마나 되는지 연구실에 한 번 알아봐야 하겠네요.

jisungyoon commented 5 years ago

생각보다 오래걸리는군요 50% 정도 완료 된 것 같습니다.

주말이면 끝나는 걸로 보면 되겠죠?

70% 정도 완료 되었네요. 그렇게 보시면 될 것 같습니다. 그 이후 빠르게 분석이 완료된다면 http://event.ntu.edu.sg/ccs2019/Pages/Home.aspx ccs에 한번 초록을 내보려고 하는데, 어떠신가요?

why not. 근데 출장비는 다른 이슈라서... 초록 내려는 분들이 얼마나 되는지 연구실에 한 번 알아봐야 하겠네요.

넵 알겠습니다.

jisungyoon commented 5 years ago

계산은 끝났고, 결과가 잘 나왔는지 확인중입니다. 확인이 끝나면 거리 재는 작업에 들어갈 것 같습니다.