jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

Personalized Page Rank Experiment #33

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

PPR을 미국 위키에서 돌려보고 있는 중입니다. 일단은 어떻게 구했는지, 그리고 지금의 느낌은 어떤지에 대해서 간략하게 정리 해보았습니다.

스크린샷 2019-03-12 오후 9 05 50

정의는 이 정의를 따라갔고 한번 쭉 계산하는 데에는 오래걸리지만, 3번 정도 계산이면 수렴하는 것을 확인하였습니다. (행렬 계산처럼 한꺼번에 하는게 아니라 라인바이라인으로 계산을 하고 있어서, gpu를 한번 활용해볼까 생각중입니다.)

단계는 다음과 같습니다. alpha와 threshold를 정하면

  1. 위의 정의 대로 계산하고, 정지 조건에 따라서 계산 종료
  2. 얻어진 계산결과에서 threshold 보다 작은 값들은 0으로 바꿈
  3. normalize (sum=1)

밑의 결과는 complex system에 대해서 구한 결과 중 값이 0.001 이상인 것을 선택해서 인쇄한 것입니다. alpha = 0.2 threshold = 0.001

스크린샷 2019-03-12 오후 9 09 39

기존의 complex system이 엄청나게 많이 차지 하는 것을 볼수 있는데 일단은 이 노드를 제외하더라고 매우 로컬에서 노는 것을 볼수 있습니다. 그리고 normalize를 안하면 sum이 0.2340 정도로 매우 낮은 값을 가집니다. 이는 아마도 처음에 유니폼하게 시작했지만 acyclic directed graph의 특성상 sink로 많은 값들이 빠져 나가서 그런걸로 생각됩니다.

그래서 알게 된 점은

  1. citation network 에서는 p를 낮게하는 것이 좋을 것 같다. (그래야 랜덤워커가 시작노드에서 멀어질수 있음)
  2. normalize 할 때 기본 방식 대로 시작 노드를 빼고 정규화해야 한다.

정도 인 것 같습니다.

그래서 앞으로의 방향은 p를 낮게하면서 어떻게 결과가 바뀌는지 한번 알아볼려고 합니다.

jisungyoon commented 5 years ago
스크린샷 2019-03-12 오후 9 17 16

이 결과는 동일한 계산 결과에서 시작노드의 값을 0으로 바꾼뒤 normalize 한 값입니다.

bluekura commented 5 years ago

행렬 계산처럼 한꺼번에 하는게 아니라 라인바이라인으로 계산을 하고 있어서, gpu를 한번 활용해볼까 생각중입니다.

달린게 계산용 gpu가 아니라서 numerical precision 문제가 있기는 합니다.

그래서 앞으로의 방향은 p를 낮게하면서 어떻게 결과가 바뀌는지 한번 알아볼려고 합니다.

Sample을 보고 판단하는 것도 좋은데, 어떤 정량적인 지표로 결과가 바뀌는지 볼 수 있으려나요 예를 들어서 PPR 값의 분포를 본다던지... 평균 몇개정도가 cutoff를 넘어간다던지...

jisungyoon commented 5 years ago

행렬 계산처럼 한꺼번에 하는게 아니라 라인바이라인으로 계산을 하고 있어서, gpu를 한번 활용해볼까 생각중입니다.

달린게 계산용 gpu가 아니라서 numerical precision 문제가 있기는 합니다.

그래서 앞으로의 방향은 p를 낮게하면서 어떻게 결과가 바뀌는지 한번 알아볼려고 합니다.

Sample을 보고 판단하는 것도 좋은데, 어떤 정량적인 지표로 결과가 바뀌는지 볼 수 있으려나요 예를 들어서 PPR 값의 분포를 본다던지... 평균 몇개정도가 cutoff를 넘어간다던지...

PPR의 분포라 함은 더 많은 문서를 계산한다음에 계산하는 것을 말하는거죠? 아니면 전체문서로 확장하던지요

bluekura commented 5 years ago

넵 개별 노드마다 보려면 PPR 크기 역순으로 정렬하고, 순위별로 박스플롯같은거 그려보면 되지 않을까 싶기도 합니다. 근데 저거 전체를 돌리려면 시간이 어마무시하게 들겠네요...;

jisungyoon commented 5 years ago

넵 개별 노드마다 보려면 PPR 크기 역순으로 정렬하고, 순위별로 박스플롯같은거 그려보면 되지 않을까 싶기도 합니다. 근데 저거 전체를 돌리려면 시간이 어마무시하게 들겠네요...;

아마 시간을 줄일수 있는 방법이 있을 것 같습니다. 일단 내일 좀 더 고민하고 진행결과 공유하겠습니다. 지금 나온 결과는 어느정도 reasonable 한 것 같은지요?

bluekura commented 5 years ago

지금 나온건 그냥 바로 근처 이웃들 위주인거 같은데... 딱히 틀렸다고 보긴 애매하지만, 좀 더 넓게 볼 수 있으면 좋겠네요. cutoff값도 잘 정해야할듯 합니다.

jisungyoon commented 5 years ago

지금 나온건 그냥 바로 근처 이웃들 위주인거 같은데... 딱히 틀렸다고 보긴 애매하지만, 좀 더 넓게 볼 수 있으면 좋겠네요. cutoff값도 잘 정해야할듯 합니다.

아마 P를 줄이면 훨신 멀리 갈 것으로 보입니다. cutoff 는 계산복잡도와 연관되서 ㅜㅜ O(m * 1/cutoff) 라 저정도면 괜찬치 않을까요?

bluekura commented 5 years ago

일단 cutoff 유지하고 P 바꿔가면서 본 후에 결정하죠 :>

jisungyoon commented 5 years ago

코드를 좀 더 효율적으로 고치던 중에 그 전 코드의 문제점이 발견되서, 수정중입니다. Scipy.sparse 의 csr 메트릭스를 쓰니 보통 한연산당 30초정도 걸리는게 9초정도로 줄었내요! 근데 아마 relaxiation time이 좀 더 오래 걸릴수도 있을 것 같습니다.

bluekura commented 5 years ago

코드를 좀 더 효율적으로 고치던 중에 그 전 코드의 문제점이 발견되서, 수정중입니다. Scipy.sparse 의 csr 메트릭스를 쓰니 보통 한연산당 30초정도 걸리는게 9초정도로 줄었내요! 근데 아마 relaxiation time이 좀 더 오래 걸릴수도 있을 것 같습니다.

9초 3번 1000만개 = 270 000 000s = 75000시간... 64코어 병렬처리 가정하면 1171.875시간... ~ 대충 2개월... -_-;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;

음......... 이거 좀 빡세단 생각이 드는데요?

jisungyoon commented 5 years ago

하지만 모든 문서에 대해서 구할 필요가 없다는게 장점인 것 같습니다 language link가 하나라도 걸린 것에 대해서 진행하면 되서용

bluekura commented 5 years ago

하지만 모든 문서에 대해서 구할 필요가 없다는게 장점인 것 같습니다 language link가 하나라도 걸린 것에 대해서 진행하면 되서용

넵 알겠습니다 ^^

jisungyoon commented 5 years ago

우선은 제대로 정의 대로 구해보았습니다. 코드를 좀 더 손보니 한 이터당 1.5초 정도로 줄 일 수 있었습니다. 우선 계산 하는 과정은 다음과 같습니다. 용어를 정의하자면, threshold는 PowerIteration의 계산중지를 위한 상수 cutoff는 normalization 후 얼마 이상의 값을 취할 건지 (없어도 되나, 아마 차 후 similiaty 계산시 걸리는 시간을 결정할 것입니다) alpha 값은 PPR의 파라미터입니다.

  1. PPR을 구한다. (히스토그램은 이 상태의 히스토그램입니다)
  2. threshold를 넘는 값들만 수합 한 뒤, sum=1 이 되게 normalize
  3. cutofff를 따라서 값을 가지는 노드들의 숫자를 새본다.
jisungyoon commented 5 years ago

아래의 피규어에서 초록색 줄은 threshold, 빨간색 줄은 처음 계산을 시작할때 각 노드별로 배정된 값입니다

스크린샷 2019-03-14 오후 1 33 37

그리고 밑으 피규어는 모든 과정이 거친후 cutoff를 0.01로 설정할때 갯수입니다.

스크린샷 2019-03-14 오후 1 34 23
jisungyoon commented 5 years ago
스크린샷 2019-03-14 오후 1 33 48 스크린샷 2019-03-14 오후 1 34 32
jisungyoon commented 5 years ago
스크린샷 2019-03-14 오후 1 33 53 스크린샷 2019-03-14 오후 1 34 40
jisungyoon commented 5 years ago
스크린샷 2019-03-14 오후 1 34 00 스크린샷 2019-03-14 오후 1 34 49
jisungyoon commented 5 years ago
스크린샷 2019-03-14 오후 1 34 07 스크린샷 2019-03-14 오후 1 35 02
jisungyoon commented 5 years ago
스크린샷 2019-03-14 오후 1 34 12 스크린샷 2019-03-14 오후 1 35 13
jisungyoon commented 5 years ago

우선 finding을 정리하자면

alpha가 높을 경우, 로컬에서만 놀게 되며 근처의 노드들이 높은 값을 가지게 됩니다. 하지만 alpha가 낮을 경우에는, PPR이라기보다는 좀 더 PR에 가까워지게 됩니다.

그래서 적당한 alpha 값을 가지고 진행하는 것이 좋을 것 같습니다.

jisungyoon commented 5 years ago
스크린샷 2019-03-14 오후 2 10 25

x축은 알파 값, y축은 카운트입니다. 위의 라인부터 cutoff가 0.0001, 0.001, 0.01 결과입니다. alpha 값은 위의 리스트와 이 그림을 보면서 토의로 결정하면 될 것 같습니다. 편한시간 알려주세용:)

bluekura commented 5 years ago

한국시간으로 내일 오전 괜찮나요? 거기 시간으로 아홉시나... 열시정도?

jisungyoon commented 5 years ago

한국시간으로 내일 오전 괜찮나요? 거기 시간으로 아홉시나... 열시정도?

넵 가능합니다! 편한시간으로 정해주세요 :)

bluekura commented 5 years ago

그럼 내일 인디애나기준 오후 9시에 뵙죠... (한국시간 오전 10시...)_

jisungyoon commented 5 years ago

그럼 내일 인디애나기준 오후 9시에 뵙죠... (한국시간 오전 10시...)_

넵!

jisungyoon commented 5 years ago

alpha=0.2 cutoff는 없는 걸로 진행 하기로 결정하였습니다! 필요한 supplement_data set은 따로 진행하겠습니다!

jisungyoon commented 5 years ago

오늘 실험하면서 alpha에 대한 고민을 다시 해보았는데, 0.2 일 때의 결과 중 카테고리같은 애들이 올라오면 유사도를 젤때 문제가 생길 것 같아서 다시 오픈 합니다. 보통 구조를 결정하는 (hidde_category, wikiepdia_category)는 랭기지 링크가 무조건 연결 되어 있으며, 이 수치가 높을 경우 지식구조와 연관없이 유사도를 boost하게 됩니다. 즉 지식구조가 아닌 위키 관리 구조의 영향을 많이 받게 됩니다. 이 부분에 대해서 자료를 만들어 공유하고 다시 alpha를 정해야 할 것 같다는 생각이 듭니다.

jisungyoon commented 5 years ago

조금 희소식이 있다면 처음 p를 uniform 한 distribution 에서 target node만 1의 값을 가지는 백터로 실험해보니 계산시간이 비약적으로 줄었고, 결과는 거의 동일함을 확인하였습니다:)

기존의 방법 7.73 s ± 122 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

지금의 방법 1.4 s ± 45.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

jisungyoon commented 5 years ago

오픈을 하지 않고 떠들어 버렸군요 ㅜㅜ @bluekura

bluekura commented 5 years ago

No problem!

hidde_category, wikiepdia_category 이 부분은 과학기술 subnode로 만들어도 같은 문제가 발생하나요?

윤진혁 드림.

jisungyoon commented 5 years ago

어떤 말씀이시죠? 과학, 기술 노드로 네트워크를 만들면 보통 저런 노드들은 다 들어가게 됩니다. 그런데 p를 줄였을 때 저런 노드들이 나오는 것은 충분히 말이됩니다. 충분히 hirechcial structure를 잘 짰다는 반증일 수도.. 하지만 우리가 원하는 것은 주변에 관한 정보이기 때문에, alpha를 좀 높여야 할 것 같습니다. 중요한 건 어떤 기준으로 정했냐가 중요할 것 같습니다. 총 노드의 수 같은 경우에는 목적에 잘 부합하지 않는 것 같구요.

bluekura commented 5 years ago

여쭤본 점은 과학, 기술 노드로 네트워크를 만든 이후에 보신 것인지 궁금했습니다 (답변이 되었습니다)

명확하게 하자면 PPR을 쓰는 장점이 뭔지를 고려를 해 보아야 할 것 같습니다.

  1. Alpha를 아무리 낮춰도 hidde_category, wikiepdia_category 은 나올 가능성이 존재합니다. 물론 등장하는 빈도를 최소화 할 수는 있겠죠.

  2. Alpha를 낮추면 단순히 그냥 자기의 이웃 category만 쓰는 것과 큰 차이가 없어집니다 (물론 개별 category들에 대한 weight가 구해진다는 장점은 있습니다만...) 그럼 결국 "내 부모 (+ 아주 약간의 더 위의 조 상)"들 중 나에게 많은 영향을 준 것 들만 뽑아내는 정도인데, 이게 저 어마무시한 계산 (1.4초라고 해도 상당하죠...) 을 이겨내고 할 만한 장점이 존재하나요?

jisungyoon commented 5 years ago
  1. 당연히 그렇습니다. 하지만 저런 노드가 많아질수록 similiarty의 값의 range가 줄어들어 명확하게 구분이 안되고, 지식구조의 다른점이 측정될 확률이 낮아져서, 알파를 높여야 한다고 말씀드린 겁니다.

  2. 우선은 네트워크가 주어지고, 주변의 영향을 계산하는 알고리즘들은 많은 계산량을 요구합니다. 우리가 이전에 썻던 방법 같은 경우도 결코 그렇게 계산량이 낮지는 않습니다. 그리고 shortest path 정보 같은 경우는 데이터의 pertubation에 너무 취약하고, 정보를 너무 날리는 점이 있습니다.

결국 shortest path를 제외하면 page rank와 비슷한 메져를 쓰게 되고, 그 중 PPR을 선택하게 된 것 같습니다.

jisungyoon commented 5 years ago

0.5 ('Complex_system', 0.5) ('Cybernetics', 0.033200122033171728) ('Systems', 0.032958799221845657) ('Complex_systems_theory', 0.032478224790719504) ('Emergence', 0.032273685227380597) ('Systems_science', 0.030652008055766174) ('Mathematical_modeling', 0.030484411846708501) ('Articles_with_unsourced_statements_from_February_2016', 0.027778061697310893) ('Complex_dynamics', 0.027777777777777776) ('Wikipedia_articles_needing_clarification_from_September_2011', 0.027777777777777776) ('Hidden_categories', 0.018752531615686623) 0.45 ('Complex_system', 0.45000000000000001) ('Cybernetics', 0.033503091060153728) ('Systems', 0.033312654554885766) ('Complex_systems_theory', 0.032669404877431849) ('Emergence', 0.032511673315009884) ('Systems_science', 0.030806198723469715) ('Mathematical_modeling', 0.030494902599453817) ('Articles_with_unsourced_statements_from_February_2016', 0.027500440347677377) ('Complex_dynamics', 0.0275) ('Wikipedia_articles_needing_clarification_from_September_2011', 0.0275) ('Hidden_categories', 0.023421340013656613) 0.4 ('Complex_system', 0.40000000000000002) ('Cybernetics', 0.033125845270662646) ('Systems', 0.033007079855897133) ('Complex_systems_theory', 0.032192380314021649) ('Emergence', 0.032097851644097827) ('Systems_science', 0.030357534450304501) ('Mathematical_modeling', 0.029886152197645843) ('Hidden_categories', 0.028694066052530103) ('Articles_with_unsourced_statements_from_February_2016', 0.026667301568611877) ('Wikipedia_articles_needing_clarification_from_September_2011', 0.026666666672603589) ('Complex_dynamics', 0.026666666666666668) 0.35 ('Complex_system', 0.34999999999999998) ('Hidden_categories', 0.034565913229301276) ('Cybernetics', 0.032028342091131125) ('Systems', 0.031998817500795036) ('Complex_systems_theory', 0.031015262085827354) ('Emergence', 0.030996633939463777) ('Systems_science', 0.029275027828084717) ('Mathematical_modeling', 0.028638102596118143) ('Articles_with_unsourced_statements_from_February_2016', 0.025278657029614866) ('Wikipedia_articles_needing_clarification_from_September_2011', 0.02527777778417277) ('Complex_dynamics', 0.025277777777777774) 0.3 ('Complex_system', 0.29999999999999999) ('Hidden_categories', 0.041033793621193443) ('Systems', 0.030237755344481643) ('Cybernetics', 0.030167070950997806) ('Emergence', 0.029168068050302694) ('Complex_systems_theory', 0.029104133093279312) ('Systems_science', 0.027521683110001142) ('Mathematical_modeling', 0.026729265290544344) ('Tracking_categories', 0.025624942003753117) ('Container_categories', 0.023420277406566589) ('Articles_with_unsourced_statements_from_February_2016', 0.023334493493555947) 0.25 ('Complex_system', 0.25) ('Hidden_categories', 0.048071437211275388) ('Tracking_categories', 0.033462333929462122) ('Container_categories', 0.031057151655835811) ('Systems', 0.027666800160378029) ('Cybernetics', 0.027494935726953933) ('Emergence', 0.026567549354697486) ('Complex_systems_theory', 0.026422894979343064) ('Wikipedia_categories', 0.025929329471709867) ('Systems_science', 0.025054679935344083) ('Mathematical_modeling', 0.024136772636596967) 0.2 ('Complex_system', 0.20000000000000001) ('Hidden_categories', 0.055645270443193597) ('Tracking_categories', 0.042979278847152545) ('Container_categories', 0.040461472278037848) ('Wikipedia_categories', 0.034513886697743169) ('Systems', 0.024220696662953827) ('Cybernetics', 0.023960767001077982) ('Emergence', 0.023145179569658298) ('Complex_systems_theory', 0.022932941413266458) ('Systems_science', 0.021824589233390292) ('Mathematical_modeling', 0.020836199627670495) 0.15 ('Complex_system', 0.14999999999999999) ('Hidden_categories', 0.06366229187902743) ('Tracking_categories', 0.054230593675802977) ('Container_categories', 0.051749970561693774) ('Wikipedia_categories', 0.045229382797082905) ('Contents', 0.027993817696655588) ('Wikipedia_administration', 0.027385701954627133) ('Wikipedia_maintenance', 0.025096687213211663) ('Systems', 0.019824307824265964) ('Cybernetics', 0.019508674517175847) ('Emergence', 0.018844789048645855) 0.1 ('Complex_system', 0.10000000000000001) ('Hidden_categories', 0.072383731640434421) ('Tracking_categories', 0.067561415824082566) ('Container_categories', 0.065201139483239148) ('Wikipedia_categories', 0.058491334791938243) ('Contents', 0.040343511348616842) ('Wikipedia_administration', 0.036740546171752875) ('Wikipedia_maintenance', 0.029952769196578556) ('Unprintworthy_redirects', 0.020053107155961661) ('Redirects_from_plurals', 0.017751651095144916) ('Wikipedia_namespaces', 0.017578241577733297) 0.05 ('Tracking_categories', 0.083386829441010224) ('Hidden_categories', 0.08197006030729248) ('Container_categories', 0.081211360196758522) ('Wikipedia_categories', 0.074973754642566545) ('Contents', 0.056911073310603855) ('Complex_system', 0.050000000000000003) ('Wikipedia_administration', 0.048636141082253267) ('Wikipedia_maintenance', 0.034781934276092094) ('Unprintworthy_redirects', 0.025028989339278856) ('Wikipedia_namespaces', 0.023730505681430682) ('Wikipedia_categorization', 0.023720372607091037) 0.01 ('Tracking_categories', 0.097733875535482476) ('Container_categories', 0.095844970369814819) ('Wikipedia_categories', 0.090796776691601647) ('Hidden_categories', 0.090118738998739081) ('Contents', 0.074561426347661997) ('Wikipedia_administration', 0.060437206356866641) ('Wikipedia_maintenance', 0.038204176366556743) ('Unprintworthy_redirects', 0.030585246100395303) ('Wikipedia_namespaces', 0.029983006256422327) ('Wikipedia_categorization', 0.029979916457842679) ('Namespace', 0.029690987384824678)

각 알파별로 top 11에 대해서 한번 뽑아본 결과입니다.

bluekura commented 5 years ago

top 11을 어떤 것 기준으로 뽑으신건가요? :>

jisungyoon commented 5 years ago

그리고 장점 중 하나는 원래 있는 메져를 씀으로 써, 공격을 덜 받을 수 있다. 정도가 있을 것 같습니다. shortest path info를 쓰는데 많은 사람들이 반감을 가지고 있어서 ㅜㅜ

bluekura commented 5 years ago

그리고 위의 값이 alpha인가요? 그럼 alpha를 낮추면 오히려 이상한게 많이 보이는 느낌이...?

jisungyoon commented 5 years ago

top 11을 어떤 것 기준으로 뽑으신건가요? :>

complex system 입니다. 사실은 이 것을 빼고 top10을 뽑으려 했으나, 짜놓은 코드가 어딨는지 까먹어서 ㅜㅜ

jisungyoon commented 5 years ago

당연히

그리고 위의 값이 alpha인가요? 그럼 alpha를 낮추면 오히려 이상한게 많이 보이는 느낌이...?

당연히 alpha 값을 낮추면 페이지 랭크에 가까워집니다. (alpha e_s) + ((1 - alpha) (p * W_matrix))

jisungyoon commented 5 years ago

알파 값이 낮다 함은 돌아갈 때 렌덤으로 노드를 골라서 다시 워크를 하는 꼴이니..

bluekura commented 5 years ago

아 실수 내가 식을 반대로 읽었다. (1-alpha가 아니라 alpha를 곱하는줄...)

jisungyoon commented 5 years ago

그리고 높은 값의 경우는 바로 옆에 있어서 그럴 수도 있지만, 주변의 structual information이 영향을 준것이니 믿을만 하다고 생각이 듭니다.

bluekura commented 5 years ago

Wikipedia_articles_needing_clarification_from_September_2011 이런게 맘에 걸리긴 하네요... Anyway. 그런 이유라면 alpha값을 높이는 시도에 반대할 이유가 없을 것 같습니다. 다만 지금처럼 complex systems만 보기는 좀 그러니, 여러가지를 가지고 샘플링 해주실 수 있으신지

일단 오늘은 서버 이전을...

jisungyoon commented 5 years ago

Wikipedia_articles_needing_clarification_from_September_2011 이런게 맘에 걸리긴 하네요... Anyway. 그런 이유라면 alpha값을 높이는 시도에 반대할 이유가 없을 것 같습니다. 다만 지금처럼 complex systems만 보기는 좀 그러니, 여러가지를 가지고 샘플링 해주실 수 있으신지

일단 오늘은 서버 이전을...

넵 이전하셔도 상관 없습니다. 지금 든 생각은 wikipedia ~~ 라고 시작하는 노드들을 싹 날려버리면 어떤지..

jisungyoon commented 5 years ago

불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지

jisungyoon commented 5 years ago

그리고 영어 기준으로 저런 리스트를 작성하고 랭기지링크가 걸려있는 모든 노드들을 다른 모든 네트워크에서 다 싹뚝..

bluekura commented 5 years ago

문제는 모든 언어에 대한 wikipedia / namespace를 다 찾아야 하는것... -_-

2019년 3월 27일 (수) 오전 9:38, Jisung Yoon notifications@github.com님이 작성:

불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/33#issuecomment-476912510, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXKrzMjgx_8PErOATYjSt-1ZwGQ2oks5var2EgaJpZM4bsMIq .

-- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

jisungyoon commented 5 years ago

문제는 모든 언어에 대한 wikipedia / namespace를 다 찾아야 하는것... -_- 2019년 3월 27일 (수) 오전 9:38, Jisung Yoon notifications@github.com님이 작성: 불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33 (comment)>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXKrzMjgx_8PErOATYjSt-1ZwGQ2oks5var2EgaJpZM4bsMIq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

lang link를 이용하면 될 것 같긴합니다. 하나하나 찾기는 힘들구

bluekura commented 5 years ago

문제는 모든 언어에 대한 wikipedia / namespace를 다 찾아야 하는것... -_- 2019년 3월 27일 (수) 오전 9:38, Jisung Yoon notifications@github.com님이 작성: 불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33 (comment)>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXKrzMjgx_8PErOATYjSt-1ZwGQ2oks5var2EgaJpZM4bsMIq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

lang link를 이용하면 될 것 같긴합니다. 하나하나 찾기는 힘들구

오케이 그렇게 하시고 cross-check을 위해서 우리가 아주 잘 아는 "한국어" 기준으로 잘라보고 얼마나 겹치나 체크를...

jisungyoon commented 5 years ago

문제는 모든 언어에 대한 wikipedia / namespace를 다 찾아야 하는것... -_- 2019년 3월 27일 (수) 오전 9:38, Jisung Yoon notifications@github.com님이 작성: 불용어 처리 하듯 그렇게 처리하는 것도 나쁘지 않을 것 같네요 namespace~~라 던지 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub <#33 (comment)>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXKrzMjgx_8PErOATYjSt-1ZwGQ2oks5var2EgaJpZM4bsMIq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

lang link를 이용하면 될 것 같긴합니다. 하나하나 찾기는 힘들구

오케이 그렇게 하시고 cross-check을 위해서 우리가 아주 잘 아는 "한국어" 기준으로 잘라보고 얼마나 겹치나 체크를...

이 작업은 우선 서버를 옮긴뒤 하는 것이 좋겠군요