jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

RCA 기반 분석. #42

Closed jisungyoon closed 4 years ago

jisungyoon commented 5 years ago

기존의 z-score 기반 방식의 문제점(정규화의 문제)을 찾아서 새로운 방법으로 분석을 진행해보았습니다. 양측으로 정규화가 필요하다고 생각되어 RCA를 한번 시도해보았는데 생각보다 결과가 괜찮네요.. 어떻게 해석할 건지가 문제긴 하지만 방법은 다음과 같습니다.

  1. similarity = 1 - distance로 국가별 유사도를 계산한다.
  2. RCA 값을 구한다.
  3. RCA 값에 문턱값을 적용해서 네트워크를 구축한다.
jisungyoon commented 5 years ago

aaaa threshold = 1.04 community_detection resolution = 1.0 modularity = 0.42

jisungyoon commented 5 years ago

노드의 색: 커뮤니티 노드의 크기: S&T network의 노드의 수 링크의 굵기: RCA value 링크의 색: 타겟 노드의 노드 색

jisungyoon commented 5 years ago

dendrogram

jisungyoon commented 5 years ago

1/rca 값으로 hirechcial clustering을 해본 겨로가입니다. 거의 비슷하게 나오는것 같군요.

jisungyoon commented 5 years ago

RCA를 사용하게 될 줄은 몰랐네요.. 인호형에게 감사를...

jisungyoon commented 5 years ago

clustermap

jisungyoon commented 5 years ago

Screen Shot 2019-06-18 at 3 16 48 PM 으음..

jisungyoon commented 5 years ago

마음의 눈으로 보면 약간 보이는거 같기도 하네요..

jisungyoon commented 5 years ago

Screen Shot 2019-06-18 at 3 32 09 PM

jisungyoon commented 5 years ago

점의 색은 community detection 했을 때의 클러스터를 나타냅니다. 각 클러스터 안에서의 거리의 평균과 표준편차를 나타낸 그래프입니다. 검은 점은 전체 데이터에 대한 결과입니다.

결과를 해석하자면 주황색 클러스터의 경우는 다 국적 클러스터여서 오히려 전체 데이터에 대한 통계보다 매우 크게 나오며, 다른 클러스터는 어느정도 로컬라이즈 되어 있다고 이야기 할 수 있을 것 같습니다.

jisungyoon commented 5 years ago

연두색 클러스터의 거리가 큰 것은 아마 저 클러스터에 있는 극동아시아를 제외한 거의 모든 아시아를 커버하기 때문에 그런걸로 보여집니다.

jisungyoon commented 5 years ago

distance_by_cluster0 distance_by_cluster1 distance_by_cluster2 distance_by_cluster3 distance_by_cluster4

jisungyoon commented 5 years ago

각 클러스터별 거리 vs rca 그래프입니다.

wsjung77 commented 5 years ago

점의 색은 community detection 했을 때의 클러스터를 나타냅니다. 각 클러스터 안에서의 거리의 평균과 표준편차를 나타낸 그래프입니다. 검은 점은 전체 데이터에 대한 결과입니다.

결과를 해석하자면 주황색 클러스터의 경우는 다 국적 클러스터여서 오히려 전체 데이터에 대한 통계보다 매우 크게 나오며, 다른 클러스터는 어느정도 로컬라이즈 되어 있다고 이야기 할 수 있을 것 같습니다.

영어는 다국적이지만, 다른 언어는 다국적이라 하기 어려울 것도 같은데...

"다국적인 영어 + 영어와 너무 친한 (다국적이지 않은) 언어"로 이루어진 클러스터는 아닐까요? 영어를 제외하면 "영어와 너무 친한 언어"들은 어찌 되나요?

jisungyoon commented 5 years ago

점의 색은 community detection 했을 때의 클러스터를 나타냅니다. 각 클러스터 안에서의 거리의 평균과 표준편차를 나타낸 그래프입니다. 검은 점은 전체 데이터에 대한 결과입니다. 결과를 해석하자면 주황색 클러스터의 경우는 다 국적 클러스터여서 오히려 전체 데이터에 대한 통계보다 매우 크게 나오며, 다른 클러스터는 어느정도 로컬라이즈 되어 있다고 이야기 할 수 있을 것 같습니다.

영어는 다국적이지만, 다른 언어는 다국적이라 하기 어려울 것도 같은데...

"다국적인 영어 + 영어와 너무 친한 (다국적이지 않은) 언어"로 이루어진 클러스터는 아닐까요? 영어를 제외하면 "영어와 너무 친한 언어"들은 어찌 되나요?

아 다국적의 의미는 클러스터가 다국적으로 이루어졌다는 의미였습니다.

아마 영어를 제외하더라도 저 클러스터는 굳건할 것 같습니다. 절대적인 값이 아닌 상대적인 수치라 하나가 빠진다고 그렇게 많은 영향을 줄 것 같지는 않습니다.

jisungyoon commented 5 years ago

rca를 썻을 때 왜 잘 작동하는지에 대한 이유를 찾은 것 같습니다. Screen Shot 2019-06-21 at 12 45 50 PM Screen Shot 2019-06-21 at 12 47 28 PM

jisungyoon commented 5 years ago

기존의 메져가 랭기지링크의 수가 많으면 유사도가 늘어나는 경향이 있었는데, 그걸 잡아주네요.. 랭기지랭크의 사이즈이팩트를 잡는 효과를 주는 역활을 하는 것 같습니다.

wsjung77 commented 5 years ago

기존의 메져가 랭기지링크의 수가 많으면 유사도가 늘어나는 경향이 있었는데, 그걸 잡아주네요.. 랭기지랭크의 사이즈이팩트를 잡는 효과를 주는 역활을 하는 것 같습니다.

논문에 쓸 문장 몇 개 만들었네요. :)

bluekura commented 5 years ago

에... 두 번째 그림 축 이름이 잘못된 거죠? :)

jisungyoon commented 5 years ago

에... 두 번째 그림 축 이름이 잘못된 거죠? :)

수정된 그림으로 보이시지 않나요? 처음에 잘 못 올렸긴 했었는데 X축은 랭기지링크의 수, Y축은 RCA VALUES 입니다.

jisungyoon commented 5 years ago

Screen Shot 2019-06-27 at 5 32 27 PM Community detection 결과로 색을 칠해본 결과입니다.

jisungyoon commented 5 years ago

Screen Shot 2019-06-27 at 5 32 32 PM Hierarchical Clustering 결과대로 색을 칠해본 결과입니다.

jisungyoon commented 5 years ago

물론 Hierarchical Clustering 결과 같은 경우는 방향성을 지울 수 밖에 없어서, 정보가 손실되는 점이 있긴합니다.

bluekura commented 5 years ago

지금 그림도 괜찮긴 한데... Louvain 같은 클러스터링 방법으로 resolution parameter 조절하면서 한번 볼 수 있을까요?

jisungyoon commented 5 years ago

지금 그림도 괜찮긴 한데... Louvain 같은 클러스터링 방법으로 resolution parameter 조절하면서 한번 볼 수 있을까요?

넵. 1로 대략 정했던 이유는 1쯤에서 modularity가 가장 높아서 결정 했던 것 같습니다. 조절을 이야기하시는 이유는, 큰 클러스터들이 쪼개지는 걸 기대하시는 건가요?

bluekura commented 5 years ago

넵...

jisungyoon commented 5 years ago

넵...

넵 알겠습니다:)

jisungyoon commented 5 years ago

resolution을 바꿔가면서 실험을 해봤으나.. 별로 달라지는건 없군요. 결과 공유합니다:)

jisungyoon commented 5 years ago

0.8까지는 결과는 거의 변하지 않다가. 0 7_0 415 0.7에서 살짝 바뀝니다. Modularity = 0.415

jisungyoon commented 5 years ago

0 6_0 405 0.6 =>Modularity = 0.405

jisungyoon commented 5 years ago

sadasd 5_0 367 0.5 Modularity = 0.367

jisungyoon commented 5 years ago

영어가 포함된 클러스터가 부서지길 바랬는데 다른 클러스터들이 부숴지네요.

bluekura commented 5 years ago

저도 그걸 기대하긴 했는데...

jisungyoon commented 5 years ago

저도 그걸 기대하긴 했는데...

넵 영어를 포함한 클러스터가 매우 견고 한 것 같습니다.

jisungyoon commented 5 years ago

우선은 gephi에 있는 알고리즘을 썼었는데 파이썬 코드로도 한번 결과를 뽑아보고 다음 미팅 떄 공유 해보겠습니다.

jisungyoon commented 4 years ago

이 문제는 어느정도 정리된 것 같아 닫습니다.