jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

Result For Abstract #23

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

일단 abstract를 쓰기 위한 중간 결과를 공유합니다. 금일 오후 2시에 미팅으로 관련된 내용들을 정리하였습니다.

  1. 매칭갯수가 1인 것도 평균 낼 떄 포함
  2. 베타는 1로 고정, 방법론을 이야기할 때에는 포함

cluster_map 1

Similarity Matrix를 보았을 떄 크게 5개의 클러스터가 관측되었습니다.

  1. 영어, 중국어, 스페인어, 한국어, 이탈리아가 포함된 클러스터 (이탈리아는 좀 애매하긴 합니다)
  2. 대부분의 유럽 권들이 포함되어 있는 클러스터
  3. 프랑스와 히브리어 (연결강도가 약합니다)
  4. 아랍어와 페르시아어
  5. 타이어 asdfasdfasdf

그 기반으로 distance matrix ( 1 - similiart matrix) Minimum spanning tree를 그린 결과(similiarty의 Maximum spanning tree)이며 클러스터링 결과와 그렇게 다르지 않습니다. 좀 더 정보를 제공하기 위해, A-B라는 링크가 있을 때 A에서의 링크의 중요도 vs B에서의 링크 중요도를 비교해서 상대적으로 더 중요한 쪽에서 아닌 쪽으로 방향성을 주었습니다. 링크 중요도는 Similiarty의 크기로 rank를 매겨서 사용하였습니다. (만약 같다면 두 방향 모두)

mds

이 그림은 distance matrix ( 1 - similiart matrix)를 이차원에 투영시키는 방법론인 MSD(https://en.wikipedia.org/wiki/Multidimensional_scaling) 을 이용해 본 결과이며 이 결과도 그렇게 다르지 않습니다.

중간결과이기 때문에 클러스터의 대략적 의미와 내용을 정리해 초록을 작성중이며, 이후에는 여러가지 factor들을 넣어서 regression을 돌려보려고 합니다.

혹시 figure에 대한 코멘트가 있으시면 달아주시면 감사하겠습니다.

bluekura commented 5 years ago
  1. 마지막 그림 y축에 라벨이 없습니다.
  2. 모든 언어가 2글자 축약어로 되어있는데, 이걸 어덯게 표현하실 생각이신지? 모두 캡션에 쓰기엔 좀 길어보이는데... 처음 기본 stat과 함께 표같은걸 따로 만드는게 좋을 것 같습니다.
  3. MST결과와 Similarity hierarchical clustering 결과가 약간 달라보이는군요. 3번 그림을 보면 MST쪽이 더 잘 맞는 것 같기도 하고...
jisungyoon commented 5 years ago

mds 1

  1. 그림 첨부를 잘못 했었군요

  2. 옆에 작게 약어와 관련된 표를 만들려고 합니다. 다 합쳐서 2페이지라 기본 stat까지 보여주면 글이 너무 작을 것 같습니다.

  3. MST의 변두리 같은 경우에서는 에러가 많은 편이라고 해서, 어떤 그림을 보여줘야 할지 고민 중입니다.

이야기 하고 있는 것이 거의 비슷해서 3그림 중 2개면 넣을려고 합니다. 혹시 내일 시간 괜찬으시면 잠시 미팅 가능할까요?

wsjung77 commented 5 years ago

mds 1

  1. 그림 첨부를 잘못 했었군요
  2. 옆에 작게 약어와 관련된 표를 만들려고 합니다. 다 합쳐서 2페이지라 기본 stat까지 보여주면 글이 너무 작을 것 같습니다.
  3. MST의 변두리 같은 경우에서는 에러가 많은 편이라고 해서, 어떤 그림을 보여줘야 할지 고민 중입니다.

이야기 하고 있는 것이 거의 비슷해서 3그림 중 2개면 넣을려고 합니다. 혹시 내일 시간 괜찬으시면 잠시 미팅 가능할까요?

동그라미를 키우고 글자를 조금 작게 하는 것도 좋겠군요. 색깔이 무엇을 의미하는지도 그림에 적어주고요.

bluekura commented 5 years ago

mds 1

  1. 그림 첨부를 잘못 했었군요
  2. 옆에 작게 약어와 관련된 표를 만들려고 합니다. 다 합쳐서 2페이지라 기본 stat까지 보여주면 글이 너무 작을 것 같습니다.
  3. MST의 변두리 같은 경우에서는 에러가 많은 편이라고 해서, 어떤 그림을 보여줘야 할지 고민 중입니다.

이야기 하고 있는 것이 거의 비슷해서 3그림 중 2개면 넣을려고 합니다. 혹시 내일 시간 괜찬으시면 잠시 미팅 가능할까요?

오늘은 좀 바쁜데... 일단 여기서 정리하죠. 일단 이 그림이 다 좋은데, 전체적으로 팔레트 사용이 비슷한 색이 많아서 인쇄품질이나 프레젠터 품질에 따라서 잘 안보일 확률이 높습니다. 일단 정우성교수님 말씀대로 점 크기를 키우고, 팔레트도 좀 더 구분이 잘 되게 바꾸시는게 좋을 듯 합니다. 사실 눈에 보기에 파스텔톤이 좋아보이지만, 실제로 가독성은 떨어지니 조금 더 원색계통을 쓰시는것도...

개인적으로는 MST를 빼는 것이 어떨까 싶습니다.

jisungyoon commented 5 years ago

넵 점 크기와 팔레트를 수정해서 올려보겠습니다. 제 생각도 MST를 뺴는 게 더 좋아보입니다. 교수님 생각은 어떠신지요?

jisungyoon commented 5 years ago

cluster_map 2 mds 2 가 메인 피규어가 될 것 같구요 mst 4

우선 전체적인 팔래트를 바꾸니 MST 그림이 이상해지긴했는데, 이 피규어는 안쓰기로 했으니 위 두 피규어만 보시면 될 것 같습니다.

bluekura commented 5 years ago

혹시 similarity heatmap에서 language code를 dendrogram 바로 아래로 옮길 수 있나요? 그게 더 깔끔하게 보일 것 같은데...

bluekura commented 5 years ago

아니면 아예 저 클러스터 색 있는 블록 안에다가 language code를 써도 괜찮으려나? 이게 더 나을수도 있겠네요.

jisungyoon commented 5 years ago

color pallate가 어두운 편이라 아마 annotate는 하얀색으로 해야 할 것 같습니다. 아마 메뉴얼하게 좌표찍어서 해야할 것 같은데, 일단 해보겠습니다.

wsjung77 commented 5 years ago

cluster_map 2 mds 2 가 메인 피규어가 될 것 같구요 mst 4

우선 전체적인 팔래트를 바꾸니 MST 그림이 이상해지긴했는데, 이 피규어는 안쓰기로 했으니 위 두 피규어만 보시면 될 것 같습니다.

편의상 이 그림을 위에서부터 1,2,3으로... 부르면,

1 언어표기: "아니면 아예 저 클러스터 색 있는 블록 안에다가 language code를 써도 괜찮으려나? 이게 더 나을수도 있겠네요" 이게 좋을 거 같습니다.

그림 2. 동그라미 크기를 더욱 키우고,

색깔의 의미가 뭔지 다시 한 번 설명해 주시겠어요? 그리고 저 다섯 색깔을 고른 이유가 뭔가요?

jisungyoon commented 5 years ago

클러스터의 숫자는 댄드로그램에서 구한 최적 클러스터의 숫자이며, 각 클러스터마다 색을 부여한 것 입니다. 색은 원색 위주로 골라보라고 하셔서 골라봤는데, 이런 색감에 영 감이 없는지라 ㅜㅜ 혹시 괜찬은 pallatte 가 있으면 적용해보겠습니다.

bluekura commented 5 years ago

https://kuler.adobe.com/create/color-wheel/

모를 때는 남이 한 것 참조.

jisungyoon commented 5 years ago

https://kuler.adobe.com/create/color-wheel/

모를 때는 남이 한 것 참조.

저 색도 저기서 골라온 거긴 한데, 어느 점이 문제가 있는지 알려주시면 참고해서 찾아보겠습니다.

bluekura commented 5 years ago

위에 "탐색"을 누르면 다른사람들이 미리 만들어준 팔레트들이 있습니다. 눌러보면 RGB 코드가 나옵니다. 보시고 고르시면 될듯 합니다.

  1. 한가지 색으로 구성된 코드는 피하고

  2. 너무 파스텔톤은 피하고.

  3. 5개가 명확히 구분되는 팔레트

중에서 고르시면 될 것 같습니다.

bluekura commented 5 years ago

참고로 지금 팔레트가 나쁘다는 뜻은 아닙니다.

bluekura commented 5 years ago

https://www.color-hex.com/color-palette/471

저는 이런걸 선호하긴 하는데...

image

wsjung77 commented 5 years ago

magma plasma inferno

등의 팔레트가 있죠. ggplot 같은 거 쓰면 패키지가 있는데, 그건 안 쓰실 거니.

검색해 보시면 RGB 값이나 구현방법이 나올 겁니다.

bluekura commented 5 years ago

magma plasma inferno

등의 팔레트가 있죠. ggplot 같은 거 쓰면 패키지가 있는데, 그건 안 쓰실 거니.

검색해 보시면 RGB 값이나 구현방법이 나올 겁니다.

혹시나해서... heatmap의 similarity value값에 매핑된 컬러를 바꾸길 원하시는 것인가요?

wsjung77 commented 5 years ago

magma plasma inferno 등의 팔레트가 있죠. ggplot 같은 거 쓰면 패키지가 있는데, 그건 안 쓰실 거니. 검색해 보시면 RGB 값이나 구현방법이 나올 겁니다.

혹시나해서... heatmap의 similarity value값에 매핑된 컬러를 바꾸길 원하시는 것인가요?

그건 아니었는데, 그것도 해볼만 하겠네요.

체계적으로 기억했다가 알려주는 게 아니라, 생각날 때마다 이것저것 알려주는지라... 일반적인 팔레트 이야기를 한 거였습니다. :)

bluekura commented 5 years ago

https://matplotlib.org/tutorials/colors/colormaps.html

http://gnuplot.sourceforge.net/demo/pm3dcolors.html

이 두가지 참조하셔도 좋습니다.

wsjung77 commented 5 years ago

https://matplotlib.org/tutorials/colors/colormaps.html

http://gnuplot.sourceforge.net/demo/pm3dcolors.html

이 두가지 참조하셔도 좋습니다.

연구실에서 gnuplot 등 리눅스를 쓰는 사람이 한 명이지요. :) 간만에... 랩의 덕후 지수를 좀더 높이긴 해야 할 거 같습니다.

jisungyoon commented 5 years ago

cluster_map 3 우선은 이렇게 진행하고 있습니다. 밑에 label은 두는 것이 더 나을 수도 있을 것 같다는 생각이 드는데 어떠신지요?

wsjung77 commented 5 years ago

안에 적었으면 굳이... x,y 축은 다 없애도요.

지금 무슨 프로그램으로 그리고 있는 거죠?

bluekura commented 5 years ago

지극히 개인적으로 너무 정보가 많아도 눈에 보기 힘들어서, 블록 안으로 넣으시면 x,y는 없애는게 좋을 것 같습니다.

jisungyoon commented 5 years ago

seaborn 이라는 라이브러리를 쓰고 있습니다.

jisungyoon commented 5 years ago

https://seaborn.pydata.org/

wsjung77 commented 5 years ago

그림 2의 x, y축 이름은 x_dimension 등보다 더 잘 적을 방법이 없나요?

jisungyoon commented 5 years ago

보통 MDS를 쓸떄는 Coordinate1, 2이렇게 쓰긴합니다. demension reduction 방법론 중 하나라.

bluekura commented 5 years ago

MDS coordinate 1 MDS coordinate 2

이런정도로 할까요?

jisungyoon commented 5 years ago

cluster_map 5 cluster_map_black 개인적으로는 하얀색 글자가 더 나은 것 같습니다.

jisungyoon commented 5 years ago

mds 1

aassdd

bluekura commented 5 years ago
  1. 훨씬 괜찮네요. 구분도 괜찮은 느낌이고.
  2. 저도 글씨는 흰색이 더 나아보입니다.
  3. MDS coordinate 2 글씨가 잘렸네요.
jisungyoon commented 5 years ago

mds 3

우선 MDS는 수정하였구

asd MST에 edge의 중요도에 따라서 width를 조정해보았는데, 이 건 어떠신가요?

wsjung77 commented 5 years ago

mds 3

우선 MDS는 수정하였구

asd MST에 edge의 중요도에 따라서 width를 조정해보았는데, 이 건 어떠신가요?

MST 만들 때 어떤 알고리즘 썼나요? 다른 거 쓰면 모양 바뀌는 건 아닌지요.

jisungyoon commented 5 years ago

MST는 tie가 없으면 유니크 하지 않나요? 수업시간에 다뤘던것 같습니다.

wsjung77 commented 5 years ago

MST는 tie가 없으면 유니크 하지 않나요? 수업시간에 다뤘던것 같습니다.

네. 맞습니다. ja-hu가 참 약하게 붙어있네요. 다른 곳으로 가서 붙어주면 더 좋을텐데요.

jisungyoon commented 5 years ago

MST는 tie가 없으면 유니크 하지 않나요? 수업시간에 다뤘던것 같습니다.

네. 맞습니다. ja-hu가 참 약하게 붙어있네요. 다른 곳으로 가서 붙어주면 더 좋을텐데요.

저 그림에서는 약하게 붙어있게 표현을 하였는데 실제 값은 많이 차이가 없을 수도 잇습니다. 아마 ja이 가지고 있는 링크중에서 3번쨰로 강한 링크인걸로 기억합니다 저 약한 링크가

jisungyoon commented 5 years ago

picture1 그리고 코드들에 대한 테이블을 같이 첨부할 계획입니다.

wsjung77 commented 5 years ago

picture1 그리고 코드들에 대한 테이블을 같이 첨부할 계획입니다.

소팅 기준이 뭔가요? 문서 수?

jisungyoon commented 5 years ago

Monthly view 였던 걸로 기억합니다. 정정합니다 View per hour입니다. 아마 같을 거지만요..

wsjung77 commented 5 years ago

Monthly view 였던 걸로 기억합니다. 정정합니다 View per hour입니다. 아마 같을 거지만요..

이 표는 abstract에선 legend와 비슷한 역할인 거 아닌가요? 그럼 abc 순이거나... 뭐 그런 순서가 보는 사람이 찾기 쉽지 않을까요?

bluekura commented 5 years ago

Monthly view 였던 걸로 기억합니다. 정정합니다 View per hour입니다. 아마 같을 거지만요..

이 표는 abstract에선 legend와 비슷한 역할인 거 아닌가요? 그럼 abc 순이거나... 뭐 그런 순서가 보는 사람이 찾기 쉽지 않을까요?

아니면 아예 클러스터별로 묶는 방식도 괜찮지 않을까요. 좀 더 나가면 배경색을 클러스터와 같은 색으로 만들수도 있지만... 이건 좀 어지러울 것 같고...

wsjung77 commented 5 years ago

Monthly view 였던 걸로 기억합니다. 정정합니다 View per hour입니다. 아마 같을 거지만요..

이 표는 abstract에선 legend와 비슷한 역할인 거 아닌가요? 그럼 abc 순이거나... 뭐 그런 순서가 보는 사람이 찾기 쉽지 않을까요?

아니면 아예 클러스터별로 묶는 방식도 괜찮지 않을까요. 좀 더 나가면 배경색을 클러스터와 같은 색으로 만들수도 있지만... 이건 좀 어지러울 것 같고...

클러스터마다 특징이 명확해서 이름을 붙일 수 있으면 이렇게 표기하는 게 금상첨화일텐데, 이건 어렵겠지요?

bluekura commented 5 years ago

Monthly view 였던 걸로 기억합니다. 정정합니다 View per hour입니다. 아마 같을 거지만요..

이 표는 abstract에선 legend와 비슷한 역할인 거 아닌가요? 그럼 abc 순이거나... 뭐 그런 순서가 보는 사람이 찾기 쉽지 않을까요?

아니면 아예 클러스터별로 묶는 방식도 괜찮지 않을까요. 좀 더 나가면 배경색을 클러스터와 같은 색으로 만들수도 있지만... 이건 좀 어지러울 것 같고...

클러스터마다 특징이 명확해서 이름을 붙일 수 있으면 이렇게 표기하는 게 금상첨화일텐데, 이건 어렵겠지요?

이 결과를 보다보니 확실히 동(남)아시아권 언어가 적어서 그런게 아닌가 하는 생각을 합니다. 태국어(th)만 떨어져 있는 것을 보니... 본격적으로 결과를 말하려면 동남아권 언어가 최소 몇개는 더 필요하겠네요.

더불어서 "인공어" 들이 몇개 있어도 좋을 것 같네요. Simple English나, 에스페란토나, 이도같은...

wsjung77 commented 5 years ago

국가간 지리적 거리와 mst 상의 거리, 혹은 mst의 edge 값과의 상관관계를 볼 수 있나요?

wsjung77 commented 5 years ago

이 결과를 보다보니 확실히 동(남)아시아권 언어가 적어서 그런게 아닌가 하는 생각을 합니다. 태국어(th)만 떨어져 있는 것을 보니... 본격적으로 결과를 말하려면 동남아권 언어가 최소 몇개는 더 필요하겠네요.

더불어서 "인공어" 들이 몇개 있어도 좋을 것 같네요. Simple English나, 에스페란토나, 이도같은...

good idea :)

bluekura commented 5 years ago

이게 연결관계를 다시 자세히 보니 재밌네요 현재 있는 언어를 어족별로 구분하면

  1. 슬라브어 (러시아어, 체코어(슬로박어), 폴란드어)
  2. 우랄어 (헝가리어, 핀란드어)
  3. 로망스어 (스페인, 포르투갈, 프랑스, 이탈리아)
  4. 게르만어 (독일어, 스웨덴어, 네덜란드어)
  5. 아랍어 (페르시아어, 아랍어)

1) 일단 재밌는 점은 우랄어 사이의 관계가 보이고(핀란드어-헝가리어) 2) 가장 큰 클러스터는 인도유럽어족의 게르만-슬라브-로망스 계통이고 3) 중간에 일본같은 이상한 나라가 붙어있긴 하지만 비교적 지역별로 잘 뭉치고 4) 왜 프랑스어와 히브리어가 묶이는지는 정말 모르겠네요 -_-....

wsjung77 commented 5 years ago

이게 연결관계를 다시 자세히 보니 재밌네요 현재 있는 언어를 어족별로 구분하면

  1. 슬라브어 (러시아어, 체코어(슬로박어), 폴란드어)

  2. 우랄어 (헝가리어, 핀란드어)

  3. 로망스어 (스페인, 포르투갈, 프랑스, 이탈리아)

  4. 게르만어 (독일어, 스웨덴어, 네덜란드어)

  5. 아랍어 (페르시아어, 아랍어)

  6. 일단 재밌는 점은 우랄어 사이의 관계가 보이고(핀란드어-헝가리어)

  7. 가장 큰 클러스터는 인도유럽어족의 게르만-슬라브-로망스 계통이고

  8. 중간에 일본같은 이상한 나라가 붙어있긴 하지만 비교적 지역별로 잘 뭉치고

  9. 왜 프랑스어와 히브리어가 묶이는지는 정말 모르겠네요 -_-....

히브리어는 비슷한 어족이 없지 않나요? 그럼 그냥 에러로 분류해도...

어족, 지리적 거리, 문화 등으로 국가 유형 구별이 된 자료를 끌어와서, 여기에 맞춰서 다시 클러스터별 특징을 살펴보면...

bluekura commented 5 years ago
  1. 왜 프랑스어와 히브리어가 묶이는지는 정말 모르겠네요 -_-....

image

유럽에서 프랑스가 유대인이 가장 많은 나라이긴 한데... 유대인 != 히브리어 화자이므로 조금 애매하긴 하네요.

출처: https://www.jewishdatabank.org/content/upload/bjdb/World_Jewish_Population_2017_AJYB_DataBank_Final.pdf

bluekura commented 5 years ago

196 1

이런 예쁜 그림도 있네요 ^^;