언어 - 국가 매칭문제

jisungyoon commented 5 years ago

Links that speak를 자세히 읽어본 결과, 이 논문에서는 언어 - 국가 매칭을 직접 하지 않았더군요. 대신 언어별 스피커의 숫자 데이터를 이용해서 가중평균으로 직접적으로 언어의 GDP를 계산했습니다. 이 논문도 이전의 논문의 방법을 따라가서 이용했더군요.

이 방법이 뭔가 좀 더 맞는 것 같은데, 어떻게 생각하시는지요?

bluekura commented 5 years ago

아니면 그냥 트래픽 (혹은 국가의 수) 기준으로 최대 사이즈 cluster를 대표 cluster로 보고 작업할까요?

jisungyoon commented 5 years ago

아니면 그냥 트래픽 (혹은 국가의 수) 기준으로 최대 사이즈 cluster를 대표 cluster로 보고 작업할까요?

이 방법도 한번 시도해볼까 했습니다. 일단은 문턱값을 한번 올려서 보고 진행해보는건 어떠신지요?

jisungyoon commented 5 years ago

[('hr', 1.0315935618229661), ('he', 1.0896981390861646), ('bn', 1.165172114550188), ('hu', 1.1924853147036123), ('az', 1.2401864573110892), ('da', 1.4216623683456435), ('no', 1.4272961614459523), ('en', 1.433881063456711), ('tl', 1.4426069775624544), ('bg', 1.6550174906795316), ('lt', 1.7084356026353185), ('sk', 1.710810090386992), ('tr', 1.7311830556831644), ('ko', 1.8059711271758359), ('zh', 1.8207892700541657), ('ms', 1.8532622493018533), ('ta', 2.0475679542203147), ('zh_yue', 2.1248058732175634), ('ca', 2.234838073755343), ('sl', 2.385583389965552), ('lv', 2.517361111111111), ('ka', 2.792905682201552), ('et', 2.8786231884057973), ('bs', 2.9610501398751885), ('simple', 2.9798907930255254), ('ml', 3.2034947215143794), ('sh', 3.7293821638244338), ('eu', 3.8141025641025643), ('af', 4.766140389889556), ('hy', 5.008575128626929), ('be', 5.146173218000657), ('ur', 7.1987212422218425), ('gl', 7.247870294036823), ('nn', 9.916142557651991), ('sco', 11.379773555939359), ('cy', 12.766397682598802), ('eo', 14.888046226074394), ('la', 15.058223002073696)]

중국의 언어별 지분입니다.

bluekura commented 5 years ago

5%? 10%?

jisungyoon commented 5 years ago

아니면 그냥 트래픽 (혹은 국가의 수) 기준으로 최대 사이즈 cluster를 대표 cluster로 보고 작업할까요?

figure_largest.zip

우선은 이것 부터 해보았습니다. 가장 큰 클러스터는 빨간색 클러스터이며 다른 점보다 큽니다. 피규어 좌측 하단에 라지스트 클러스터의 포션과 해당 위키의 언어 명이 적혀있습니다. 나름 괜찬은것 같네요

jisungyoon commented 5 years ago

figure_largest_5.zip 5% 제한을 두고 같은 코드를 돌려본 결과입니다:) 좀더 깔끔하긴 하군요

jisungyoon commented 5 years ago

평균 점의 직교좌표계의 L2-norm 결과입니다. 이 값이 1에 가까울수록 평균 점이 대표성을 가지고 1보다 작으면 지구 내부의 점이 찍혔단 소리니 대표성을 잃는거라고 할 수 있겠네요.

Screen Shot 2019-06-11 at 2 37 31 PM

wsjung77 commented 5 years ago

대표성보다는 분산 같은 거라 봐야 하겠네요. 한국어도 거의 한국에서 소비될 거지만, 각지에 흩어진 교포들이 쓰는 거고. 인공어도 마찬가지일 거고요. 그럼 해당 언어 사용자의 수가 적어서, 해외 거주자도 적고 하나의 좁은 국가에 사는 경우라면 1이 거의 가까울 거고요.

jisungyoon commented 5 years ago

대표성보다는 분산 같은 거라 봐야 하겠네요. 한국어도 거의 한국에서 소비될 거지만, 각지에 흩어진 교포들이 쓰는 거고. 인공어도 마찬가지일 거고요. 그럼 해당 언어 사용자의 수가 적어서, 해외 거주자도 적고 하나의 좁은 국가에 사는 경우라면 1이 거의 가까울 거고요.

넵 이전 분산보다는 이 정의가 훨신 나은 것 같습니다.

bluekura commented 5 years ago

갑자기 궁금한게 거리의 기준이 무엇인가요? geodesic distance? euclidean distance?

wsjung77 commented 5 years ago

갑자기 궁금한게 거리의 기준이 무엇인가요? geodesic distance? euclidean distance?

그거 안 그래도 몇 시간 전 랩미팅 때 이야기 나온 거죠. ㅋㅋ

jisungyoon commented 5 years ago

갑자기 궁금한게 거리의 기준이 무엇인가요? geodesic distance? euclidean distance?

점을 찍고 난 후의 포인트들끼리의 거리 말씀하시는건가요?

bluekura commented 5 years ago

갑자기 궁금한게 거리의 기준이 무엇인가요? geodesic distance? euclidean distance?

점을 찍고 난 후의 포인트들끼리의 거리 말씀하시는건가요?

넵 지도상에서 clustering을 하거나, 거리를 잴 때의 기준...

jisungyoon commented 5 years ago

갑자기 궁금한게 거리의 기준이 무엇인가요? geodesic distance? euclidean distance?

점을 찍고 난 후의 포인트들끼리의 거리 말씀하시는건가요?

넵 지도상에서 clustering을 하거나, 거리를 잴 때의 기준...

클러스터링 할 때는 geodesic distance 입니다 정확히는 위도와 경도가 주어지면 거리를 계산 할수 있는. https://en.wikipedia.org/wiki/Haversine_formula

입니다.

jisungyoon commented 5 years ago

5프로로 올린 결과와 1프로 결과 중 뭐가 더 괜찮으신거 같나요?

bluekura commented 5 years ago

둘다 크게 나빠보이진 않아서...

jisungyoon commented 5 years ago

평균 점의 직교좌표계의 L2-norm 결과입니다. 이 값이 1에 가까울수록 평균 점이 대표성을 가지고 1보다 작으면 지구 내부의 점이 찍혔단 소리니 대표성을 잃는거라고 할 수 있겠네요.

잘 생각해보니 위키가 얼마나 로컬라이즈 됬는 지를 나타내느 지표로도 쓰일 수 있겠네요.. 전 세계에서 많이 쓰일 수록 저 지표는 낮아지게 되니

wsjung77 commented 5 years ago

네. 그 지표로 더 의미있겠죠. 분산보다는 다른 용어를 쓰는 게 나을 거 같고요.

jisungyoon commented 5 years ago

Screen Shot 2019-06-12 at 12 16 15 PM

jisungyoon commented 5 years ago

재미있는게 잡히긴 하네요 벵골어 같은 경우는 지니인덱스는 높은데 분산이 낮게 나와서 이유를 찾아보았더니, 영국, 아일랜드에서 트래픽이 잡힌 결과 였습니다.

그리고 왜 그런지 찾아보니 https://en.wikipedia.org/wiki/British_Bangladeshi 이게 어느정도 영향을 주는 것 같네요

jisungyoon commented 5 years ago

https://en.wikipedia.org/wiki/Censorship_of_Wikipedia

터키와 중국어 위키가 차단되어 있군요.. 터기어가 독일에 매칭 되는 것이 이상했긴 했었는데

두 언어의 위키를 빼야 할까요? 대표성을 같지 못하는 위키들이라..

jisungyoon commented 5 years ago

centroids spaitial clustring을 한다음에 가장큰 클러스터 기준으로 센트로이드를 구한 결과 입니다. 분산(?)(이름을 정해야 할 것 같긴합니다) 의 크기는 모두 0.95 이상으로 대표성을 잘 가집니다. 당연히 그런게 주변을 중심으로 결과를 구하니..

jisungyoon commented 5 years ago

centroid_figure.zip 각 언어별 가장 큰 클러스터와 센트로이드를 표시한 결과입니다.

bluekura commented 5 years ago

좋은데 스페인어가 맘에 좀 걸리네요...

bluekura commented 5 years ago

터키/중국은 분석할 때 따로 점 색을 다르게 하든 해서 표시를 좀 해두죠...

jisungyoon commented 5 years ago

터키/중국은 분석할 때 따로 점 색을 다르게 하든 해서 표시를 좀 해두죠...

넵:)

jisungyoon commented 5 years ago

좋은데 스페인어가 맘에 좀 걸리네요...

스페인은 어쩔수 .. 스페인 사람들의 지분이 작아서 ㅜㅜ

bluekura commented 5 years ago

아마 제 기억이 맞으면 멕시코가 너무 세서 멕시코가 메인으로 나오는것으로...

jisungyoon commented 5 years ago

아마 제 기억이 맞으면 멕시코가 너무 세서 멕시코가 메인으로 나오는것으로...

[('ES', 22.31194781900301), ('MX', 19.989660787900903), ('AR', 11.839901025898843), ('CO', 9.14049744223774), ('CL', 5.569384560360461), ('PE', 5.17086413951793), ('US', 4.266803956415189), ('VE', 3.569528015294453), ('EC', 2.9450252263377377), ('DO', 1.8661068765400368), ('GT', 1.4700862968023765), ('BO', 1.390712257015036), ('UY', 1.1542240207280943), ('PA', 1.0035800012058056)]

데이터를 보니 문제가 있네요.. 남미의 클러스터가 너무 세서 남미가 메인으로 나오네요.. 으..

jisungyoon commented 5 years ago

clustering_figure.zip 위의 피규어들을 한번에 모은 그림입니다.

bluekura commented 5 years ago

최대사용국가가 있는 클러스터와 현재 뽑은 대표 클러스터가 다른 경우가 전체 중 몇건이 있나요??

jisungyoon commented 5 years ago

최대사용국가가 있는 클러스터와 현재 뽑은 대표 클러스터가 다른 경우가 전체 중 몇건이 있나요??

총 4건있습니다. Screen Shot 2019-06-14 at 10 17 47 AM

jisungyoon commented 5 years ago

스페인어를 제외하고는 어느정도 말이 되는 것 같습니다. 오히려 가장큰 나라를 뽑는것보다 훨신 더 말이 되는것 같네요.

jisungyoon commented 5 years ago

검은 엑스가 중심점 빨간색 브이표시가 가장큰 나라입니다.

bluekura commented 5 years ago

이 분석에서는

일단 지역색을 특정할 수 없는 언어 (인공어) 도 빼고
라틴어도 지역색을 특정할 수 없으니 빼도록 하는게 어떨까요
스페인어는 조금 애매하지만 일단은 같이 빼도록 하지요... 그럼 일단 4개가 다 빠지겠네요

jisungyoon commented 5 years ago

이 분석에서는

일단 지역색을 특정할 수 없는 언어 (인공어) 도 빼고

라틴어도 지역색을 특정할 수 없으니 빼도록 하는게 어떨까요

스페인어는 조금 애매하지만 일단은 같이 빼도록 하지요... 그럼 일단 4개가 다 빠지겠네요

스페인도 뺴는게 나을까요?

bluekura commented 5 years ago

윤지성선생님은 어찌 생각하세요?

저는 빼는게 안전할 것 같긴 한데, 아니면 스페인어와 거리를 잰 경우는 색같은걸 다르게 표시해서 확인해볼까요?

2019년 6월 14일 (금) 오후 11:29, Jisung Yoon notifications@github.com님이 작성:

이 분석에서는

일단 지역색을 특정할 수 없는 언어 (인공어) 도 빼고

라틴어도 지역색을 특정할 수 없으니 빼도록 하는게 어떨까요

스페인어는 조금 애매하지만 일단은 같이 빼도록 하지요... 그럼 일단 4개가 다 빠지겠네요

스페인도 뺴는게 나을까요?

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/40?email_source=notifications&email_token=AGIOSXELVH652NXWLH4MTELP2OTNXA5CNFSM4HNPMIM2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODXW6U3I#issuecomment-502131309, or mute the thread https://github.com/notifications/unsubscribe-auth/AGIOSXCWQ454TNH2RMT2QDTP2OTNXANCNFSM4HNPMIMQ .

-- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

jisungyoon commented 5 years ago

윤지성선생님은 어찌 생각하세요? 저는 빼는게 안전할 것 같긴 한데, 아니면 스페인어와 거리를 잰 경우는 색같은걸 다르게 표시해서 확인해볼까요? 2019년 6월 14일 (금) 오후 11:29, Jisung Yoon notifications@github.com님이 작성: … 이 분석에서는 1. 일단 지역색을 특정할 수 없는 언어 (인공어) 도 빼고 2. 라틴어도 지역색을 특정할 수 없으니 빼도록 하는게 어떨까요 3. 스페인어는 조금 애매하지만 일단은 같이 빼도록 하지요... 그럼 일단 4개가 다 빠지겠네요 스페인도 뺴는게 나을까요? — You are receiving this because you were assigned. Reply to this email directly, view it on GitHub <#40?email_source=notifications&email_token=AGIOSXELVH652NXWLH4MTELP2OTNXA5CNFSM4HNPMIM2YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODXW6U3I#issuecomment-502131309>, or mute the thread https://github.com/notifications/unsubscribe-auth/AGIOSXCWQ454TNH2RMT2QDTP2OTNXANCNFSM4HNPMIMQ . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

많은 공수가 드는건 아니라서 ㅎㅎ 둘다 한번 해보도록 하겠습니다:)

jisungyoon commented 5 years ago

가장큰 클러스터와 그 다음 큰 클러스트의 차이를 나타낸 결과입니다. [('sco', 1.1130301285741737), ('eo', 3.0245576020223908), ('la', 8.534056468336257), ('simple', 10.049327787987231), ('cy', 11.297330850403483), ('af', 15.195315395448816), ('bn', 25.725195256002323), ('be', 25.927953574948), ('en', 29.677731055353846), ('ur', 34.6748872523834), ('eu', 36.50349650349651), ('nn', 44.360587002096445), ('es', 47.064426787251605),

jisungyoon commented 5 years ago

따라서 지도 관련 분석을 할때에는 simple, eo (인공어) la (지역을 확정 짓기가 힘듬) sco (가장큰 클러스터와 그 다음 클러스터의 차이를 특정 짓기가 힘듬)

이 언어들이 빠지게 될 것 같네요.

jisungyoon commented 5 years ago

모든 위키를 긁어와서 간단하게 분석을 해보는건 어떨까요? 위키의 언어를 사람들이 언어를 사용하는 페턴이라고 생각하고, 로컬라이즈 된 언어와 아닌 언어 (센트로이드의 분산), 언어 사용의 분포(GINI-INDEX) 에서 좀 더 발전시키면 재밋는 결과가 나오지 않을까요? 이건 지금의 주제와 별개의 주제가 될 것 같습니다.

bluekura commented 5 years ago

그것도 평균적인 인터넷 사용 패턴과 연결도 가능하려나요? 예를 들어서 https://www.alexa.com/topsites/countries 이런것처럼 국가별 인터넷 사용 패턴 차이와 연관이라던지...

jisungyoon commented 5 years ago

그것도 평균적인 인터넷 사용 패턴과 연결도 가능하려나요? 예를 들어서 https://www.alexa.com/topsites/countries 이런것처럼 국가별 인터넷 사용 패턴 차이와 연관이라던지...

싸이트의 국적을 특정짓는 작업이 된다면 될 것 같네요.

jisungyoon / Structure-of-Science

언어 - 국가 매칭문제 #40