Closed jisungyoon closed 4 years ago
threshold = 1.04
community_detection resolution = 1.0
modularity = 0.42
노드의 색: 커뮤니티 노드의 크기: S&T network의 노드의 수 링크의 굵기: RCA value 링크의 색: 타겟 노드의 노드 색
1/rca 값으로 hirechcial clustering을 해본 겨로가입니다. 거의 비슷하게 나오는것 같군요.
RCA를 사용하게 될 줄은 몰랐네요.. 인호형에게 감사를...
으음..
마음의 눈으로 보면 약간 보이는거 같기도 하네요..
점의 색은 community detection 했을 때의 클러스터를 나타냅니다. 각 클러스터 안에서의 거리의 평균과 표준편차를 나타낸 그래프입니다. 검은 점은 전체 데이터에 대한 결과입니다.
결과를 해석하자면 주황색 클러스터의 경우는 다 국적 클러스터여서 오히려 전체 데이터에 대한 통계보다 매우 크게 나오며, 다른 클러스터는 어느정도 로컬라이즈 되어 있다고 이야기 할 수 있을 것 같습니다.
연두색 클러스터의 거리가 큰 것은 아마 저 클러스터에 있는 극동아시아를 제외한 거의 모든 아시아를 커버하기 때문에 그런걸로 보여집니다.
각 클러스터별 거리 vs rca 그래프입니다.
점의 색은 community detection 했을 때의 클러스터를 나타냅니다. 각 클러스터 안에서의 거리의 평균과 표준편차를 나타낸 그래프입니다. 검은 점은 전체 데이터에 대한 결과입니다.
결과를 해석하자면 주황색 클러스터의 경우는 다 국적 클러스터여서 오히려 전체 데이터에 대한 통계보다 매우 크게 나오며, 다른 클러스터는 어느정도 로컬라이즈 되어 있다고 이야기 할 수 있을 것 같습니다.
영어는 다국적이지만, 다른 언어는 다국적이라 하기 어려울 것도 같은데...
"다국적인 영어 + 영어와 너무 친한 (다국적이지 않은) 언어"로 이루어진 클러스터는 아닐까요? 영어를 제외하면 "영어와 너무 친한 언어"들은 어찌 되나요?
점의 색은 community detection 했을 때의 클러스터를 나타냅니다. 각 클러스터 안에서의 거리의 평균과 표준편차를 나타낸 그래프입니다. 검은 점은 전체 데이터에 대한 결과입니다. 결과를 해석하자면 주황색 클러스터의 경우는 다 국적 클러스터여서 오히려 전체 데이터에 대한 통계보다 매우 크게 나오며, 다른 클러스터는 어느정도 로컬라이즈 되어 있다고 이야기 할 수 있을 것 같습니다.
영어는 다국적이지만, 다른 언어는 다국적이라 하기 어려울 것도 같은데...
"다국적인 영어 + 영어와 너무 친한 (다국적이지 않은) 언어"로 이루어진 클러스터는 아닐까요? 영어를 제외하면 "영어와 너무 친한 언어"들은 어찌 되나요?
아 다국적의 의미는 클러스터가 다국적으로 이루어졌다는 의미였습니다.
아마 영어를 제외하더라도 저 클러스터는 굳건할 것 같습니다. 절대적인 값이 아닌 상대적인 수치라 하나가 빠진다고 그렇게 많은 영향을 줄 것 같지는 않습니다.
rca를 썻을 때 왜 잘 작동하는지에 대한 이유를 찾은 것 같습니다.
기존의 메져가 랭기지링크의 수가 많으면 유사도가 늘어나는 경향이 있었는데, 그걸 잡아주네요.. 랭기지랭크의 사이즈이팩트를 잡는 효과를 주는 역활을 하는 것 같습니다.
기존의 메져가 랭기지링크의 수가 많으면 유사도가 늘어나는 경향이 있었는데, 그걸 잡아주네요.. 랭기지랭크의 사이즈이팩트를 잡는 효과를 주는 역활을 하는 것 같습니다.
논문에 쓸 문장 몇 개 만들었네요. :)
에... 두 번째 그림 축 이름이 잘못된 거죠? :)
에... 두 번째 그림 축 이름이 잘못된 거죠? :)
수정된 그림으로 보이시지 않나요? 처음에 잘 못 올렸긴 했었는데 X축은 랭기지링크의 수, Y축은 RCA VALUES 입니다.
Community detection 결과로 색을 칠해본 결과입니다.
Hierarchical Clustering 결과대로 색을 칠해본 결과입니다.
물론 Hierarchical Clustering 결과 같은 경우는 방향성을 지울 수 밖에 없어서, 정보가 손실되는 점이 있긴합니다.
지금 그림도 괜찮긴 한데... Louvain 같은 클러스터링 방법으로 resolution parameter 조절하면서 한번 볼 수 있을까요?
지금 그림도 괜찮긴 한데... Louvain 같은 클러스터링 방법으로 resolution parameter 조절하면서 한번 볼 수 있을까요?
넵. 1로 대략 정했던 이유는 1쯤에서 modularity가 가장 높아서 결정 했던 것 같습니다. 조절을 이야기하시는 이유는, 큰 클러스터들이 쪼개지는 걸 기대하시는 건가요?
넵...
넵...
넵 알겠습니다:)
resolution을 바꿔가면서 실험을 해봤으나.. 별로 달라지는건 없군요. 결과 공유합니다:)
0.8까지는 결과는 거의 변하지 않다가.
0.7에서 살짝 바뀝니다. Modularity = 0.415
0.6 =>Modularity = 0.405
sadasd
0.5 Modularity = 0.367
영어가 포함된 클러스터가 부서지길 바랬는데 다른 클러스터들이 부숴지네요.
저도 그걸 기대하긴 했는데...
저도 그걸 기대하긴 했는데...
넵 영어를 포함한 클러스터가 매우 견고 한 것 같습니다.
우선은 gephi에 있는 알고리즘을 썼었는데 파이썬 코드로도 한번 결과를 뽑아보고 다음 미팅 떄 공유 해보겠습니다.
이 문제는 어느정도 정리된 것 같아 닫습니다.
기존의 z-score 기반 방식의 문제점(정규화의 문제)을 찾아서 새로운 방법으로 분석을 진행해보았습니다. 양측으로 정규화가 필요하다고 생각되어 RCA를 한번 시도해보았는데 생각보다 결과가 괜찮네요.. 어떻게 해석할 건지가 문제긴 하지만 방법은 다음과 같습니다.