Closed jisungyoon closed 5 years ago
위 피규어는 거리의 symmetry를 나타낸 결과입니다. 예상하듯이 상당히 비례하게 나오게 됩니다. 하지만 z_score의 경우는 상당히 랜덤하게 나오게 됩니다.
모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.
아직까지 좋은 결과라고 이야기하기에는 애매한것 같아서, 좀 더 다듬어야 할 것 같습니다. 혹시 의견 있으시면 알려주세요
모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.
색깔은 뭐죠?
모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.
색깔은 뭐죠?
색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..
Infomap도 한번 돌려보긴했는데 이 또한 결과가 해석하기가 힘들어서
모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.
색깔은 뭐죠?
색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..
그러니까... 분석 결과에 기반한 것이네요. 어족 계열로 묶었다거나, 지리적 거리로 묶었다거나 등은 아니고요.
모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.
색깔은 뭐죠?
색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..
그러니까... 분석 결과에 기반한 것이네요. 어족 계열로 묶었다거나, 지리적 거리로 묶었다거나 등은 아니고요.
넵 어족이나 지리적 거리는 시도 해볼 수 있습니다.
이 그림은 두께를 z-score의 절대값에 비례해서 키워본 결과입니다.
모든 네트워크가 연결될 때까지 threshold 를 조정해 네트워크를 그리면 다음과 같은 결과를 얻을 수 있습니다. Untitled.pdf 노드의 크기는 page_rank입니다.
색깔은 뭐죠?
색은 Modulairty 기반의 커뮤니티 입니다. 다만 값이 매우 낮습니다 당연히..
그러니까... 분석 결과에 기반한 것이네요. 어족 계열로 묶었다거나, 지리적 거리로 묶었다거나 등은 아니고요.
넵 어족이나 지리적 거리는 시도 해볼 수 있습니다.
-> 시도해 보시면 :)
첫 번쨰 레벨에 대한 결과입니다.
두번째 레벨에 대한 결과입니다.
제가 지금 생각하기에 어족에 대한 분석은 이렇게 보여주기가 조금 애매합니다. 첫번째 레벨의 경우는 대다수가 인도-유러피안 어족이고 두번 쨰 레벨 같은 경우에는 너무 많은 어족이 있어서 클러스터링 결과를 보기에 애매합니다.
어족에 대한 통계입니다.
어느정도 모이는 것 같긴한데 이것을 어떻게 정량적으로 보이는 지가 문제이군요
그냥 단순하게 각 언어마다 random하게 이웃을 고를 때 특정 어족을 고를 확률 분포 대비, 현재 이웃의 어족 분포를 가지고 significance를 잴 수 있지 않을지요. 즉 단순히 유럽 어족이 많아서 많이 골라지는지, 아니면 다른 이유인지...
그냥 단순하게 각 언어마다 random하게 이웃을 고를 때 특정 어족을 고를 확률 분포 대비, 현재 이웃의 어족 분포를 가지고 significance를 잴 수 있지 않을지요. 즉 단순히 유럽 어족이 많아서 많이 골라지는지, 아니면 다른 이유인지...
전체에서 랜덤하게 동일한 이웃을 선택하는 걸 널모델로 치고, 지금 데이터를 실측치로 보자는 말씀이시죠?
그렇습니다. 다만 이렇게 되면 weight information을 어떻게 고려해야 할 지는 고민이 좀 되네요 ^^;
그렇습니다. 다만 이렇게 되면 weight information을 어떻게 고려해야 할 지는 고민이 좀 되네요 ^^;
저 위 네트워크 구성 방식은 어떻게 생각하시는지요? 그냥 멋대로 한 것 같아서 약간 마음이..
z_score를 쓰는 것은 저는 괜찮은 것 같습니다 (차이를 도드라지게 보이게 한다는 점에서)... 다만 샘플 사이즈가 작아서 노이즈가 어느정도 있을지 모르겠네요, 혹시 몇개 언어 (크기별로) 에 대해서 유사도 점수의 분포를 볼 수 있을까요?
out에 대한 정보와 in에 대한 정보 두가지가 다 있으면 좋습니다 ^^;
일단은 거리이기 때문에 작을 수록 가깝다 보시면 됩니다.
저 그림에 쓰인 z_score 값은 -1.2 입니다. z_score가 -1.2보다 작은 링크들을 연결했다 보시면 됩니다.
-1.2로 정한 이유는 그전까지는 la언어가 연결 되지 않아서 입니다.
예상대로 잘 나오지는 않군요... 백본을 뽑아본다음에 하면 되지 않을 까 합니다.
예상대로 잘 나오지는 않군요... 백본을 뽑아본다음에 하면 되지 않을 까 합니다.
https://www.nature.com/articles/s41467-017-01825-5 여기에 나온 하이퍼볼릭 임배딩을 비쥬얼라이즈에 써본 결과입니다.
z_score 가 0보다 높은 애들을 모아서 백본을 뽑은 뒤 임배딩을 한 결과입니다. 그리 다르지 않네요..
이전 그림과 다르게 그린 건가요?
이전 그림과 다르게 그린 건가요?
위치를 다르게 그린 결과입니다. hyperbolic embedding 으로 노드의 위치를 주면 위치에 의미를 담을 수 있어서 한번 시도 해보았으나 네트워크의 특성떄문에 잘 안되는 것 같습니다.
본디 하이퍼볼릭 임배딩은 unweighed, undirected network에 잘 맞는 방법론인데, weighted, directed network라..
저 방법론은 트워크의 노드를 극 좌표 위로 임배딩 시키는 것입니다. r 이 작을 수록 노드가 중요함을 나타내고, 각의 경우는 유사도를 나타내게 됩니다.
아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?
아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?
제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..
아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?
제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..
네. 그럼 잊어버리면 되겠네요.
아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?
제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..
네. 그럼 잊어버리면 되겠네요.
넵 어제 회의중에 나온 의견이여서 시도해보았습니다.
아주 적은 몇 개 빼곤 다들 대동소이하다는 걸 확인한 정도인가요?
제 생각에는 잘 안맞는 방법론인 것 같습니다.. weight나 방향성을 뭉게고 거기서 임배딩을 찾는 방법이라..
네. 그럼 잊어버리면 되겠네요.
넵 어제 회의중에 나온 의견이여서 시도해보았습니다.
네. 언제나 시도는 여러 가지 해 봐야죠.
mean_distance versus gini-index 별로 연관 없어 보이네요.
링크 숫자를 최소화시켜야 할 것 같은데... 전체가 GCC에 들어가는 가장 작은 z 값을 라던지, 아니면 다른 백본 방법을 쓰던지 하면 달라지지 않을까요.
링크 숫자를 최소화시켜야 할 것 같은데... 전체가 GCC에 들어가는 가장 작은 z 값을 라던지, 아니면 다른 백본 방법을 쓰던지 하면 달라지지 않을까요.
GCC가 어떤 용어의 줄임말인지요?
Giant Connected Component...
넵 일단 시도해보겠습니다:)
RCA의 개념을 적용해서 한번 분석을 진행해보았습니다. 기존의 z-score 의 문제점을 확인해서.. 자세한건 다음 미팅때 보여드리겠습니다.
1.04
각 국가별 언어 사용 인구 비율 같은 통계가 있으려나요. 미국은 있을 거 같습니다만...
https://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers 이런 통계가 있긴합니다만 자세한건 유료라..
이 이슈는 닫습니다. RCA방법 기반 결과로 대신합니다.
우선은 기존의 분석을 하기전에 새로운 시도를 해보았습니다. 평균으로 방향성을 없애지 말고 방향성을 이용하는 방법입니다.
A라는 언어와 다른 언어의 거리를 재면 보통 정규 분표에 가까운 값을 가집니다. 따라서 Z_SCORE을 잴 수 있습니다. [d_a1, d_a2 .... d_an] => [z_a1, z_a2,... z_an] 따라서 이 Z_SCORE로 A 언어와 상대적으로 유사한 언어를 찾을 수 있게 됩니다.
모든 언어에 대해서 계산한 뒤, threshold를 잡아서 자르면 네트워크를 만들 수 있게 됩니다.