jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

영어 포함 결과 #41

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

우선은 기존의 분석을 하기전에 새로운 시도를 해보았습니다. 평균으로 방향성을 없애지 말고 방향성을 이용하는 방법입니다.

A라는 언어와 다른 언어의 거리를 재면 보통 정규 분표에 가까운 값을 가집니다. 따라서 Z_SCORE을 잴 수 있습니다. [d_a1, d_a2 .... d_an] => [z_a1, z_a2,... z_an] 따라서 이 Z_SCORE로 A 언어와 상대적으로 유사한 언어를 찾을 수 있게 됩니다.
모든 언어에 대해서 계산한 뒤, threshold를 잡아서 자르면 네트워크를 만들 수 있게 됩니다.

jisungyoon commented 5 years ago

check_symmetry

check_symmetry_zscore

jisungyoon commented 5 years ago

위 피규어는 거리의 symmetry를 나타낸 결과입니다. 예상하듯이 상당히 비례하게 나오게 됩니다. 하지만 z_score의 경우는 상당히 랜덤하게 나오게 됩니다.

jisungyoon commented 5 years ago

모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.

jisungyoon commented 5 years ago

아직까지 좋은 결과라고 이야기하기에는 애매한것 같아서, 좀 더 다듬어야 할 것 같습니다. 혹시 의견 있으시면 알려주세요

wsjung77 commented 5 years ago

모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.

색깔은 뭐죠?

jisungyoon commented 5 years ago

모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.

색깔은 뭐죠?

색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..

jisungyoon commented 5 years ago

Infomap도 한번 돌려보긴했는데 이 또한 결과가 해석하기가 힘들어서

wsjung77 commented 5 years ago

모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.

색깔은 뭐죠?

색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..

그러니까... 분석 결과에 기반한 것이네요. 어족 계열로 묶었다거나, 지리적 거리로 묶었다거나 등은 아니고요.

jisungyoon commented 5 years ago

모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.

색깔은 뭐죠?

색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..

그러니까... 분석 결과에 기반한 것이네요. 어족 계열로 묶었다거나, 지리적 거리로 묶었다거나 등은 아니고요.

넵 어족이나 지리적 거리는 시도 해볼 수 있습니다.

jisungyoon commented 5 years ago

With_thiickness 이 그림은 두께를 z-score의 절대값에 비례해서 키워본 결과입니다.

wsjung77 commented 5 years ago

모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.

색깔은 뭐죠?

색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..

그러니까... 분석 결과에 기반한 것이네요. 어족 계열로 묶었다거나, 지리적 거리로 묶었다거나 등은 아니고요.

넵 어족이나 지리적 거리는 시도 해볼 수 있습니다.

-> 시도해 보시면 :)

jisungyoon commented 5 years ago

first_level 첫 번쨰 레벨에 대한 결과입니다.

jisungyoon commented 5 years ago

second_level 두번째 레벨에 대한 결과입니다.

jisungyoon commented 5 years ago

제가 지금 생각하기에 어족에 대한 분석은 이렇게 보여주기가 조금 애매합니다. 첫번째 레벨의 경우는 대다수가 인도-유러피안 어족이고 두번 쨰 레벨 같은 경우에는 너무 많은 어족이 있어서 클러스터링 결과를 보기에 애매합니다.

jisungyoon commented 5 years ago

Screen Shot 2019-06-04 at 5 01 31 PM

Screen Shot 2019-06-04 at 5 01 37 PM 어족에 대한 통계입니다.

jisungyoon commented 5 years ago

어느정도 모이는 것 같긴한데 이것을 어떻게 정량적으로 보이는 지가 문제이군요

bluekura commented 5 years ago

그냥 단순하게 각 언어마다 random하게 이웃을 고를 때 특정 어족을 고를 확률 분포 대비, 현재 이웃의 어족 분포를 가지고 significance를 잴 수 있지 않을지요. 즉 단순히 유럽 어족이 많아서 많이 골라지는지, 아니면 다른 이유인지...

jisungyoon commented 5 years ago

그냥 단순하게 각 언어마다 random하게 이웃을 고를 때 특정 어족을 고를 확률 분포 대비, 현재 이웃의 어족 분포를 가지고 significance를 잴 수 있지 않을지요. 즉 단순히 유럽 어족이 많아서 많이 골라지는지, 아니면 다른 이유인지...

전체에서 랜덤하게 동일한 이웃을 선택하는 걸 널모델로 치고, 지금 데이터를 실측치로 보자는 말씀이시죠?

bluekura commented 5 years ago

그렇습니다. 다만 이렇게 되면 weight information을 어떻게 고려해야 할 지는 고민이 좀 되네요 ^^;

jisungyoon commented 5 years ago

그렇습니다. 다만 이렇게 되면 weight information을 어떻게 고려해야 할 지는 고민이 좀 되네요 ^^;

저 위 네트워크 구성 방식은 어떻게 생각하시는지요? 그냥 멋대로 한 것 같아서 약간 마음이..

bluekura commented 5 years ago

z_score를 쓰는 것은 저는 괜찮은 것 같습니다 (차이를 도드라지게 보이게 한다는 점에서)... 다만 샘플 사이즈가 작아서 노이즈가 어느정도 있을지 모르겠네요, 혹시 몇개 언어 (크기별로) 에 대해서 유사도 점수의 분포를 볼 수 있을까요?

bluekura commented 5 years ago

out에 대한 정보와 in에 대한 정보 두가지가 다 있으면 좋습니다 ^^;

jisungyoon commented 5 years ago

dist_en dist_de dist_ko dist_ar dist_cy

jisungyoon commented 5 years ago

일단은 거리이기 때문에 작을 수록 가깝다 보시면 됩니다.

jisungyoon commented 5 years ago

저 그림에 쓰인 z_score 값은 -1.2 입니다. z_score가 -1.2보다 작은 링크들을 연결했다 보시면 됩니다.

jisungyoon commented 5 years ago

-1.2로 정한 이유는 그전까지는 la언어가 연결 되지 않아서 입니다.

jisungyoon commented 5 years ago

Screen Shot 2019-06-10 at 2 06 21 PM 예상대로 잘 나오지는 않군요... 백본을 뽑아본다음에 하면 되지 않을 까 합니다.

jisungyoon commented 5 years ago

Screen Shot 2019-06-10 at 2 06 21 PM 예상대로 잘 나오지는 않군요... 백본을 뽑아본다음에 하면 되지 않을 까 합니다.

https://www.nature.com/articles/s41467-017-01825-5 여기에 나온 하이퍼볼릭 임배딩을 비쥬얼라이즈에 써본 결과입니다.

jisungyoon commented 5 years ago

Screen Shot 2019-06-10 at 2 30 47 PM z_score 가 0보다 높은 애들을 모아서 백본을 뽑은 뒤 임배딩을 한 결과입니다. 그리 다르지 않네요..

wsjung77 commented 5 years ago

이전 그림과 다르게 그린 건가요?

jisungyoon commented 5 years ago

이전 그림과 다르게 그린 건가요?

위치를 다르게 그린 결과입니다. hyperbolic embedding 으로 노드의 위치를 주면 위치에 의미를 담을 수 있어서 한번 시도 해보았으나 네트워크의 특성떄문에 잘 안되는 것 같습니다.

본디 하이퍼볼릭 임배딩은 unweighed, undirected network에 잘 맞는 방법론인데, weighted, directed network라..

jisungyoon commented 5 years ago

저 방법론은 트워크의 노드를 극 좌표 위로 임배딩 시키는 것입니다. r 이 작을 수록 노드가 중요함을 나타내고, 각의 경우는 유사도를 나타내게 됩니다.

wsjung77 commented 5 years ago

아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?

jisungyoon commented 5 years ago

아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?

제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..

wsjung77 commented 5 years ago

아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?

제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..

네. 그럼 잊어버리면 되겠네요.

jisungyoon commented 5 years ago

아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?

제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..

네. 그럼 잊어버리면 되겠네요.

넵 어제 회의중에 나온 의견이여서 시도해보았습니다.

wsjung77 commented 5 years ago

아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?

제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..

네. 그럼 잊어버리면 되겠네요.

넵 어제 회의중에 나온 의견이여서 시도해보았습니다.

네. 언제나 시도는 여러 가지 해 봐야죠.

jisungyoon commented 5 years ago

Screen Shot 2019-06-10 at 3 10 00 PM mean_distance versus gini-index 별로 연관 없어 보이네요.

bluekura commented 5 years ago

링크 숫자를 최소화시켜야 할 것 같은데... 전체가 GCC에 들어가는 가장 작은 z 값을 라던지, 아니면 다른 백본 방법을 쓰던지 하면 달라지지 않을까요.

jisungyoon commented 5 years ago

링크 숫자를 최소화시켜야 할 것 같은데... 전체가 GCC에 들어가는 가장 작은 z 값을 라던지, 아니면 다른 백본 방법을 쓰던지 하면 달라지지 않을까요.

GCC가 어떤 용어의 줄임말인지요?

bluekura commented 5 years ago

Giant Connected Component...

jisungyoon commented 5 years ago

넵 일단 시도해보겠습니다:)

jisungyoon commented 5 years ago

RCA의 개념을 적용해서 한번 분석을 진행해보았습니다. 기존의 z-score 의 문제점을 확인해서.. 자세한건 다음 미팅때 보여드리겠습니다. aa

jisungyoon commented 5 years ago

Screen Shot 2019-06-17 at 4 51 26 PM 1.04

wsjung77 commented 5 years ago

각 국가별 언어 사용 인구 비율 같은 통계가 있으려나요. 미국은 있을 거 같습니다만...

jisungyoon commented 5 years ago

https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers 이런 통계가 있긴합니다만 자세한건 유료라..

jisungyoon commented 5 years ago

이 이슈는 닫습니다. RCA방법 기반 결과로 대신합니다.