jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

유사도와 language links 개수와의 상관관계 #26

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

오늘 생각하던 중에 유사도와 language links 갯수가 상관관계를 가지고 있을 것 같아서 한 번 측정해 보았습니다.

2019-02-14 11 22 41

x 축은 유사도이며 y축은 비교한 set 숫자(이 양은 language links에 비례합니다) 입니다. 어느정도 우상향하는 경향을 볼 수 있습니다. 어족과 관련된 결과가 나온 것이 이 영향인지가 의심되서 일단은 공유합니다. 살짝 size-effect가 있는 것 같기두 하구요

bluekura commented 5 years ago

x축 y축을 뒤집어주세요. (x는 링크 수, y는 유사도) 그게 더 명확히 보일 것 같네요.

jisungyoon commented 5 years ago
2019-02-15 12 38 19

비슷한 링크 수 기준으로 보았을 때 값의 범위가 넓어 보이긴한데 우상향 하는 경향은 살짝 있는 것 같습니다.

bluekura commented 5 years ago

Logx 한번 부탁드립니다.

2019년 2월 15일 (금) 오전 12:39에 balla2081 notifications@github.com님이 작성:

[image: 2019-02-15 12 38 19] https://user-images.githubusercontent.com/10040328/52797836-0bb56b80-30ba-11e9-9376-c78fadacaa35.png

비슷한 링크 수 기준으로 보았을 때 값의 범위가 넓어 보이긴한데 우상향 하는 경향은 살짝 있는 것 같습니다.

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/26#issuecomment-463674041, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXH5VfFF3OOG-0enjSfa5hUOYX-79ks5vNYM6gaJpZM4a7teC .

jisungyoon commented 5 years ago
2019-02-15 12 57 51

흠 ..

bluekura commented 5 years ago

역시나 예상대로....

2019년 2월 15일 (금) 오전 12:58에 balla2081 notifications@github.com님이 작성:

[image: 2019-02-15 12 57 51] https://user-images.githubusercontent.com/10040328/52799263-d1999900-30bc-11e9-9b62-6b392e04983d.png 흠 ..

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/26#issuecomment-463681876, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXBtunTwgSfehdFmdxYR33zCH3R9Gks5vNYe6gaJpZM4a7teC .

jisungyoon commented 5 years ago

size effect에 관한 고민을 좀 해야 할까요?

우선은 지금 저 결과 같은 경우에는 유클리디안 거리를 이용한거라, 앞으로 할 방향 (Jensen–Shannon divergence) 와는 다를 것으로 예상 되지만 어느정도 상관관계가 존재 할 것 같습니다.

bluekura commented 5 years ago

size effect에 관한 고민을 좀 해야 할까요?

우선은 지금 저 결과 같은 경우에는 유클리디안 거리를 이용한거라, 앞으로 할 방향 (Jensen–Shannon divergence) 와는 다를 것으로 예상 되지만 어느정도 상관관계가 존재 할 것 같습니다.

  1. 이게 "진짜" size effect인지는 아직 판단이 힘듭니다. 왜냐하면 링크가 많다는 자체가 두 언어가 연관관계가 많다는 뜻으로도 받아들일 수 있기 때문입니다.

  2. 그래서 이런걸 한번 해 보죠 1) x축의 값을 실제 language link가 아니라 expectation 대비 language link라는 값을 정의하기로 합시다. 2) expectation은 엄청 많은 언어의 글 전체를 pool로 두고 random하게 링크를 계속 만든다는 형태의 모델을 가정할 때, 두 언어의 크기의 곱에 비례할겁니다 (전체중에서 A언어를 뽑을 확률 전체중에서 B언어를 뽑을 확률 ~ A-B 링크를 만들 확률) 3) 그럼 expectation 대비 language link의 수 = k 실제 link의 수 / (A언어의 크기 B언어의 크기) 정도로 정의해볼 수 있겠죠. 여기서 k는 모든 언어에 적용되는 scaling parameter일 테니 무시할 수 있을거고 4) 그럼 결국 x축을 실제 링크의 수 / (A언어의 크기 B언어의 크기)로 rescaling을 한 값을 보면, 조금 더 정보를 얻을 수 있지 않을까 싶습니다.

jisungyoon commented 5 years ago

size effect에 관한 고민을 좀 해야 할까요? 우선은 지금 저 결과 같은 경우에는 유클리디안 거리를 이용한거라, 앞으로 할 방향 (Jensen–Shannon divergence) 와는 다를 것으로 예상 되지만 어느정도 상관관계가 존재 할 것 같습니다.

  1. 이게 "진짜" size effect인지는 아직 판단이 힘듭니다. 왜냐하면 링크가 많다는 자체가 두 언어가 연관관계가 많다는 뜻으로도 받아들일 수 있기 때문입니다.
  2. 그래서 이런걸 한번 해 보죠

    1. x축의 값을 실제 language link가 아니라 expectation 대비 language link라는 값을 정의하기로 합시다.
    2. expectation은 엄청 많은 언어의 글 전체를 pool로 두고 random하게 링크를 계속 만든다는 형태의 모델을 가정할 때, 두 언어의 크기의 곱에 비례할겁니다 (전체중에서 A언어를 뽑을 확률 * 전체중에서 B언어를 뽑을 확률 ~ A-B 링크를 만들 확률)
    3. 그럼 expectation 대비 language link의 수 = k 실제 link의 수 / (A언어의 크기 B언어의 크기) 정도로 정의해볼 수 있겠죠. 여기서 k는 모든 언어에 적용되는 scaling parameter일 테니 무시할 수 있을거고
    4. 그럼 결국 x축을 실제 링크의 수 / (A언어의 크기 * B언어의 크기)로 rescaling을 한 값을 보면, 조금 더 정보를 얻을 수 있지 않을까 싶습니다.

우선 저기 나와 있는 값 같은 경우는 정확히 language link의 숫자가 아닙니다. 정확히 알아보기 위해서는 로그 파일을 뒤져야 합니다. 일단은 값을 다 취합 한 후 제안 주신대로 보려고 합니다.

bluekura commented 5 years ago

우선 저기 나와 있는 값 같은 경우는 정확히 language link의 숫자가 아닙니다. 정확히 알아보기 위해서는 로그 파일을 뒤져야 합니다. 일단은 값을 다 취합 한 후 제안 주신대로 보려고 합니다.

저 숫자에 대해서도 해보시고, language link의 수에 대해서도 해보시는게 좋을 것 같습니다. 고생하십니다

jisungyoon commented 5 years ago

우선 두 가지 숫자에 대해서 나온 결과를 각각 말씀드리겠습니다. 어제 보여드린 피규어의 x 축은 정확히 말하면 '비교 대상 수'입니다. 따라서 링크가 많아지면 그에 맞게 비례해서 커지는 값이기 때문에 로그를 뜯어보기전에 임시로 본 숫자들입니다. 이 숫자들도 제안해주신대로 정규화해서 보았습니다.

2019-02-15 7 59 47

정규화 전

2019-02-15 7 59 53

정규화 후입니다

정규화 후에는 그래도 괜찮아보이는군요

jisungyoon commented 5 years ago

이 두 번째 결과가 정확히 말씀하신 결과입니다.

2019-02-15 8 00 54

정규화 전

2019-02-15 8 00 59

정규 화 후 입니다.

jisungyoon commented 5 years ago

널 모델과 비교해봤을 떄 결과를 보면 사이즈이펙트가 맞아보이기는 하는군요

bluekura commented 5 years ago

두 그림이 너무 같아보이는데... 체크 가능하신지요.

jisungyoon commented 5 years ago

두 그림이 너무 같아보이는데... 체크 가능하신지요.

올릴떄 실수가 있었내요, 그런데 값은 거의 같다 보시면 됩니다. 수정해두겠습니다

bluekura commented 5 years ago

나중에 유사도로 clustering 할 때 저걸 보정해서도 한번 보죠... -_-;

wsjung77 commented 5 years ago

what is r-value?

jisungyoon commented 5 years ago

이 문제도 해결됬네요 RCA를 씀으로써 닫습니다.