언어 - 국가 매칭문제

jisungyoon commented 5 years ago

Links that speak를 자세히 읽어본 결과, 이 논문에서는 언어 - 국가 매칭을 직접 하지 않았더군요. 대신 언어별 스피커의 숫자 데이터를 이용해서 가중평균으로 직접적으로 언어의 GDP를 계산했습니다. 이 논문도 이전의 논문의 방법을 따라가서 이용했더군요.

이 방법이 뭔가 좀 더 맞는 것 같은데, 어떻게 생각하시는지요?

jisungyoon commented 5 years ago

장점은 이미 이전 논문의 레퍼를 따라가면되서 편하다 이고 단점은 데이터가 제공되지 않는다 인 것 같습니다.

저 논문에서도 데이터를 사서 이용한 걸로 확인했습니다.

bluekura commented 5 years ago

평균이라는 걸 보니 GDP per capita 얘기인가요?

물리적 거리등을 측정해보려면 1:1 매칭이 필요하긴 합니다. 두가지 데이터를 일단 다 해보고 결정하죠

bluekura commented 5 years ago

우리는 위키의 traffic에 대해 가중평균 하면 되지 않을까요.

평균은 단순 산술평균?

jisungyoon commented 5 years ago

평균이라는 걸 보니 GDP per capita 얘기인가요?

물리적 거리등을 측정해보려면 1:1 매칭이 필요하긴 합니다. 두가지 데이터를 일단 다 해보고 결정하죠

넵 Screen Shot 2019-05-16 at 3 57 33 PM 이런 형식으로요

jisungyoon commented 5 years ago

우리는 위키의 traffic에 대해 가중평균 하면 되지 않을까요.

평균은 단순 산술평균?

넵 그렇게 할 수도 있을 것 같습니다. 사실 뷰와 에딧은 다르지만 트래픽으로 해도 상관은 없겠죠?

bluekura commented 5 years ago

네 뭐 당연히 strongly correlated 일테니 크게 문제되지는 않을겁니다

jisungyoon commented 5 years ago

넵 매칭 이슈는 이 이슈에서 토의하는 걸로 하겠습니다:)

jisungyoon commented 5 years ago

[('ja', 'JP', 96.17825350303978), ('th', 'TH', 93.5018101395991), ('fi', 'FI', 91.62942513307812), ('it', 'IT', 90.69823481406752), ('pl', 'PL', 90.18235843857084), ('hi', 'IN', 89.94381120565099), ('vi', 'VN', 89.56032789106429), ('he', 'IL', 89.08916711323297), ('mr', 'IN', 89.02028749107961), ('sv', 'SE', 87.38870869176891), ('kk', 'KZ', 87.1479948429124), ('no', 'NO', 87.13953550525162), ('id', 'ID', 87.09376391824732), ('cs', 'CZ', 86.80488809556502), ('da', 'DK', 85.8089985836121), ('ko', 'KR', 85.56931859843921), ('el', 'GR', 85.15478113497339), ('uk', 'UA', 83.81987194186232), ('hu', 'HU', 81.53238469881664), ('eu', 'US', 80.14057331863286), ('tl', 'PH', 79.85971943887775), ('ro', 'RO', 79.16588872292756), ('de', 'DE', 77.99286069067905), ('fa', 'IR', 77.73602304019403), ('pt', 'BR', 76.77356656948494), ('lt', 'LT', 76.59454677069091), ('sl', 'SI', 76.52163432565987), ('sk', 'SK', 76.22210866973258), ('ta', 'IN', 75.34628902212116), ('ms', 'MY', 74.9654721232827), ('et', 'EE', 72.81059987294672), ('sr', 'RS', 69.8795975589642), ('ml', 'IN', 68.81042454812946), ('lv', 'LV', 68.36991120790752), ('hy', 'AM', 68.32197920401578), ('nl', 'NL', 68.2414714168974), ('fr', 'FR', 68.2021311395183), ('ca', 'ES', 67.22636815920397), ('ka', 'GE', 64.77103036336486), ('az', 'AZ', 60.25467353020861), ('ru', 'RU', 60.09682622759526), ('hr', 'HR', 52.08872605630999), ('zh', 'TW', 48.173523646703046), ('zh_yue', 'HK', 47.31993299832496), ('tr', 'DE', 45.31054903499697), ('bn', 'BD', 41.39311449159327), ('en', 'US', 40.24422982030473), ('gl', 'ES', 38.44375963020031), ('bg', 'ES', 38.44375963020031), ('sh', 'RS', 36.03460706560923), ('nn', 'NO', 34.06091370558376), ('af', 'ZA', 28.758673862760215), ('bs', 'HR', 26.97980485591105), ('simple', 'US', 26.823793490460158), ('be', 'BY', 26.59105229993699), ('ur', 'PK', 26.582610979774103), ('es', 'ES', 25.630211358029953), ('sco', 'US', 23.736462093862816), ('la', 'CN', 22.95957284515637), ('cy', 'CN', 21.263791374122366), ('eo', 'TW', 21.050750536097212), ('ar', 'SA', 20.874104834031755)]

jisungyoon commented 5 years ago

위키코드, 나라, 전체중 퍼센트를 나타낸 결과입니다.

jisungyoon commented 5 years ago

생각보다 다국적 언어들이 많군요.

jisungyoon commented 5 years ago

일단은 언어별로 1%이상 차지 하는 나라만 남기고 쳐낼 생각입니다.

wsjung77 commented 5 years ago

파이 차트로 그리면... 그냥 작은 토막만 잔뜩 있겠군요...

bluekura commented 5 years ago

('hr', 'HR', 52.08872605630999), 이 선까지는 큰 문제는 없을 것 같은데 그 아래 언어들은 조금 애매하긴 하네요.

이해가 정말 안되는 부분이 Latin (la) 이나 Welsh (cy) 가 중국으로 되어있는 부분이네요... -_-

jisungyoon commented 5 years ago

('hr', 'HR', 52.08872605630999), 이 선까지는 큰 문제는 없을 것 같은데 그 아래 언어들은 조금 애매하긴 하네요.

이해가 정말 안되는 부분이 Latin (la) 이나 Welsh (cy) 가 중국으로 되어있는 부분이네요... -_-

데이터가 2월달(데이터 뜬 달) 한달 동안의 데이터라 그런 것 같습니다. 뭔가 공격 같은걸 한모양인데요... 중국이

jisungyoon commented 5 years ago

('hr', 'HR', 52.08872605630999), 이 선까지는 큰 문제는 없을 것 같은데 그 아래 언어들은 조금 애매하긴 하네요. 이해가 정말 안되는 부분이 Latin (la) 이나 Welsh (cy) 가 중국으로 되어있는 부분이네요... -_-

데이터가 2월달(데이터 뜬 달) 한달 동안의 데이터라 그런 것 같습니다. 뭔가 공격 같은걸 한모양인데요... 중국이

공격이 맞는 것 같습니다..... 이 때만 갑자기 튀어버렷네요...

bluekura commented 5 years ago

다른 달을 가져와야 하려나요. Traffic은 이런 문제가 있군요... 조금 더 긴 기간의 평균으로?

jisungyoon commented 5 years ago

다른 달을 가져와야 하려나요. Traffic은 이런 문제가 있군요... 조금 더 긴 기간의 평균으로?

문제는 달별로 데이터를 제공하고, 크롤링으로는 데이터를 다 긁을 수 없는 구조라서.. ㅜㅜ 다 수작업으로 눌러서 한거라 https://stats.wikimedia.org/v2/#/en.wikipedia.org/reading/page-views-by-country/normal|map|last-month|~total|monthly

여기 가보면 저기 다운받는 버튼의 링크를 얻을 수 있으면 좋을 거 같은데 ㅜㅜ

bluekura commented 5 years ago

https://beomi.github.io/2017/02/27/HowToMakeWebCrawler-With-Selenium/

jisungyoon commented 5 years ago

https://beomi.github.io/2017/02/27/HowToMakeWebCrawler-With-Selenium/

아 저 라이브러리 이름이 생각이 안났습니다. 옛날에 보고 어디 즐겨찾기 해놨긴 했었는데

bluekura commented 5 years ago

크롬 개발자도구로 쿼리문 자체를 가져오는 방법도 있긴 한데, 아마 Selenium쪽이 조금 더 편할거에요 ^^;

jisungyoon commented 5 years ago

('hr', 'HR', 52.08872605630999), 이 선까지는 큰 문제는 없을 것 같은데 그 아래 언어들은 조금 애매하긴 하네요.

이해가 정말 안되는 부분이 Latin (la) 이나 Welsh (cy) 가 중국으로 되어있는 부분이네요... -_-

아니면 나라 1:1매칭이 필요한 분석의 경우 50%보다 큰 언어에 대해서만 분석을 하는 것도 하나의 방법일듯 하네요

bluekura commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

jisungyoon commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

jisungyoon commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

인구를 생각해볼 때 대만사람이 저 모든 접속량을 차지 할 것 같지는 않습니다만. ㅎㅎ 한국의 경우 84M 대만의 접속량은 195M

인구는 한국이 대만의 2배니..

wsjung77 commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

중국에서 대만 VPN을 쓰나요? 그리고 대만의 언어는 중국어가 아니라서... 다른 언어코드를 쓰지 않나요?

bluekura commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

중국에서 대만 VPN을 쓰나요? 그리고 대만의 언어는 중국어가 아니라서... 다른 언어코드를 쓰지 않나요?

둘다 북경어를 쓰긴 합니다만, 대만은 번체 중국 본토는 간체를 씁니다.

bluekura commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

중국에서 대만 VPN을 쓰나요? 그리고 대만의 언어는 중국어가 아니라서... 다른 언어코드를 쓰지 않나요?

둘다 북경어를 쓰긴 합니다만, 대만은 번체 중국 본토는 간체를 씁니다.

그래서 문법이 다르지 않아서 보여지는 폰트만 다르면 되는지라, 북경어 (zh)를 공유할거에요

아래의 위키백과 내 히스토리를 참조하시면 됩니다. https://ko.wikipedia.org/wiki/%EC%A4%91%EA%B5%AD%EC%96%B4_%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC

번체자와 간체자의 자동 변환
최초의 상황
당초, 2개의 중국어 위키백과가 'zh-cn'과 'zh-tw'라는 이름으로 있었다. 일반적으로 번체자를 사용하는 지역(타이완, 중국 홍콩, 중국 마카오 등)의 이용자는 번체자로 편집하는 반면 간체자를 사용하는 지역(중국 대륙, 싱가포르, 말레이시아 등)의 이용자는 간체자로 편집한다. 그래서 많은 문서가 2개씩 존재하게 되었다. 예를 들어 프랑스 문서는 번체자(法國)와 간체자(法国)의 2종류가 있었다. 한층 더 문제가 악화된 것은 의사소통을 취할 수 없었던 것과 다른 체제 때문에 많은 정식 명칭이 중국 대륙, 타이완, 홍콩, 싱가포르의 사이에 매우 차이가 나는 것이었다. 예를 들어 프린터는 중국 대륙에서는 打印机라 쓰며, 타이완에서는 印表機라고 기술하고 있다.

해결책
프로젝트의 니어포킹(near-forking)을 피하기 위해 2005년 1월경 중국어 위키백과는 이용자의 설정에 의해 다른 문자와 정식 명칭을 그 이용자의 지역에 적절한 것으로 자동 변환하는 서버측 메커니즘을 제공하기 시작했다. 이용자는 이하의 4개의 지역의 문자·방언 체계로부터 1개를 설정할 수 있다.

zh-cn(중국 대륙 간체)
zh-hk(홍콩 정체)
zh-mo(마카오 정체)
zh-sg(말레이시아와 싱가포르 간체)[1]
zh-tw(타이완 정체)
변환은 관리자에 의해 편집한 사람 쪽의 문자 변환 테이블을 통해 이루어진다. 특별한 위키 마크업 구문으로 편집자는 문서 안의 특정 절의 경우 변환 테이블을 겹침 처리하는 일이 있다.

게다가 문서명의 변환은 자동적인 리다이렉트(넘겨주기)가 사용되고 있다. 다른 문자와 다른 번역으로 미리 이름 붙여진 글은 통합되어 번체자와 간체자의 양쪽 모두의 항목명으로부터 도착할 수 있다.

wsjung77 commented 5 years ago

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

중국에서 대만 VPN을 쓰나요? 그리고 대만의 언어는 중국어가 아니라서... 다른 언어코드를 쓰지 않나요?

둘다 북경어를 쓰긴 합니다만, 대만은 번체 중국 본토는 간체를 씁니다.

이게 사실 제일 맘에 걸리지만 중국에서 중국어 위키백화 막힌건 익히 알려진 사실이니... ('zh', 'TW', 48.173523646703046),

저도 같은 생각을 하고 있었습니다 ㅜㅜ 타이완 vpn을 많이 쓰는 건지 아니면 타이완의 언어가 중국어라서 그런지 모르겟네요

중국에서 대만 VPN을 쓰나요? 그리고 대만의 언어는 중국어가 아니라서... 다른 언어코드를 쓰지 않나요?

둘다 북경어를 쓰긴 합니다만, 대만은 번체 중국 본토는 간체를 씁니다.

그래서 문법이 다르지 않아서 보여지는 폰트만 다르면 되는지라, 북경어 (zh)를 공유할거에요

아래의 위키백과 내 히스토리를 참조하시면 됩니다. https://ko.wikipedia.org/wiki/%EC%A4%91%EA%B5%AD%EC%96%B4_%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC
번체자와 간체자의 자동 변환
최초의 상황
당초, 2개의 중국어 위키백과가 'zh-cn'과 'zh-tw'라는 이름으로 있었다. 일반적으로 번체자를 사용하는 지역(타이완, 중국 홍콩, 중국 마카오 등)의 이용자는 번체자로 편집하는 반면 간체자를 사용하는 지역(중국 대륙, 싱가포르, 말레이시아 등)의 이용자는 간체자로 편집한다. 그래서 많은 문서가 2개씩 존재하게 되었다. 예를 들어 프랑스 문서는 번체자(法國)와 간체자(法国)의 2종류가 있었다. 한층 더 문제가 악화된 것은 의사소통을 취할 수 없었던 것과 다른 체제 때문에 많은 정식 명칭이 중국 대륙, 타이완, 홍콩, 싱가포르의 사이에 매우 차이가 나는 것이었다. 예를 들어 프린터는 중국 대륙에서는 打印机라 쓰며, 타이완에서는 印表機라고 기술하고 있다.

해결책
프로젝트의 니어포킹(near-forking)을 피하기 위해 2005년 1월경 중국어 위키백과는 이용자의 설정에 의해 다른 문자와 정식 명칭을 그 이용자의 지역에 적절한 것으로 자동 변환하는 서버측 메커니즘을 제공하기 시작했다. 이용자는 이하의 4개의 지역의 문자·방언 체계로부터 1개를 설정할 수 있다.

zh-cn(중국 대륙 간체)
zh-hk(홍콩 정체)
zh-mo(마카오 정체)
zh-sg(말레이시아와 싱가포르 간체)[1]
zh-tw(타이완 정체)
변환은 관리자에 의해 편집한 사람 쪽의 문자 변환 테이블을 통해 이루어진다. 특별한 위키 마크업 구문으로 편집자는 문서 안의 특정 절의 경우 변환 테이블을 겹침 처리하는 일이 있다.

게다가 문서명의 변환은 자동적인 리다이렉트(넘겨주기)가 사용되고 있다. 다른 문자와 다른 번역으로 미리 이름 붙여진 글은 통합되어 번체자와 간체자의 양쪽 모두의 항목명으로부터 도착할 수 있다.

광동어도 문자는 같으니, 이건 정말 문제없이 위키에선 하나로 분류되는 거겠군요.

그나저나 저는 번체가 훨씬 읽기 쉬워서, 대만을 가면 중국보다 더 돌아다니기 편하더군요.

bluekura commented 5 years ago

다만 광동어는 문법 약간 다른 이유로 zh-yue라고 별도의 위키가 존재하는 것 같습니다... :> 윤지성선생님은 학교에서 한자를 안 배운 세대시지요? 저는 배운 세대의 마지막인데...

jisungyoon commented 5 years ago

다만 광동어는 문법 약간 다른 이유로 zh-yue라고 별도의 위키가 존재하는 것 같습니다... :> 윤지성선생님은 학교에서 한자를 안 배운 세대시지요? 저는 배운 세대의 마지막인데...

저도 한자를 배웠긴 합니다. 과목 중에 한자 과목이 있었습니다. 그 이외에도 어렸을 때 한자 자격증을 딴다고 억지로 공부 한 기억이.. ㅎㅎ 그런데 여러모로 도움이 되긴하더라구요. 대만이나 일본 여행할 때 한자어들은 읽을 수 있으니.

wsjung77 commented 5 years ago

다만 광동어는 문법 약간 다른 이유로 zh-yue라고 별도의 위키가 존재하는 것 같습니다... :> 윤지성선생님은 학교에서 한자를 안 배운 세대시지요? 저는 배운 세대의 마지막인데...

어... 문법보다는 발음의 차이가 커서, 써 놓으면 별 차이가 없는데... 뭐, 좀 복잡하군요.

저는 신문도 한자로 보던 세대라...

bluekura commented 5 years ago

다만 광동어는 문법 약간 다른 이유로 zh-yue라고 별도의 위키가 존재하는 것 같습니다... :> 윤지성선생님은 학교에서 한자를 안 배운 세대시지요? 저는 배운 세대의 마지막인데...

저도 한자를 배웠긴 합니다. 과목 중에 한자 과목이 있었습니다. 그 이외에도 어렸을 때 한자 자격증을 딴다고 억지로 공부 한 기억이.. ㅎㅎ 그런데 여러모로 도움이 되긴하더라구요. 대만이나 일본 여행할 때 한자어들은 읽을 수 있으니.

아... 의무과목에서 사라졌다고 과목 자체가 사라진건 아니지요... 하하...-_-;;;

wsjung77 commented 5 years ago

다만 광동어는 문법 약간 다른 이유로 zh-yue라고 별도의 위키가 존재하는 것 같습니다... :> 윤지성선생님은 학교에서 한자를 안 배운 세대시지요? 저는 배운 세대의 마지막인데...

저도 한자를 배웠긴 합니다. 과목 중에 한자 과목이 있었습니다. 그 이외에도 어렸을 때 한자 자격증을 딴다고 억지로 공부 한 기억이.. ㅎㅎ 그런데 여러모로 도움이 되긴하더라구요. 대만이나 일본 여행할 때 한자어들은 읽을 수 있으니.

아... 의무과목에서 사라졌다고 과목 자체가 사라진건 아니지요... 하하...-_-;;;

신문을 한자로 보면 좋습니다. 쓰는 건 몰라도 읽는 건 어지간한 건 다 읽을 수 있습니다. 3학년 때부터 매일 신문 본 덕에, 중고등학교 때 한문 과목 공부는 거의 안 했습니다. -_-

jisungyoon commented 5 years ago

라틴어는 지속적으로 높게 나오네요...

jisungyoon commented 5 years ago

라틴어는 지속적으로 높게 나오네요...

코드에 오류가 있네요 잠시만요..

jisungyoon commented 5 years ago

2018.03.01~2019.02.28 까지의 합산 데이터로 낸 결과입니다. [('ja', ('JP', 96.16815591920333)), ('th', ('TH', 93.58547663156656)), ('fi', ('FI', 91.10619027559143)), ('vi', ('VN', 90.41537151012902)), ('it', ('IT', 89.90510171303295)), ('kk', ('KZ', 89.64129063269843)), ('he', ('IL', 89.57609289458695)), ('pl', ('PL', 89.43667443667444)), ('hi', ('IN', 88.19454400697938)), ('sv', ('SE', 87.67612733878357)), ('ko', ('KR', 87.09437176491144)), ('cs', ('CZ', 86.14388768793569)), ('no', ('NO', 86.07558751843047)), ('el', ('GR', 84.96491796487015)), ('da', ('DK', 84.7161061305169)), ('bg', ('BG', 84.00397853754914)), ('uk', ('UA', 83.78228397635574)), ('mr', ('IN', 83.7635377078711)), ('id', ('ID', 81.5581029572216)), ('hu', ('HU', 81.06676086188625)), ('sk', ('SK', 79.49935784040517)), ('ro', ('RO', 77.63117022140874)), ('de', ('DE', 77.38860783688197)), ('lt', ('LT', 77.15895879085389)), ('sl', ('SI', 77.12839500386661)), ('ms', ('MY', 76.48882297136596)), ('pt', ('BR', 75.49149592361492)), ('et', ('EE', 75.41304347826086)), ('fa', ('IR', 74.88040301492079)), ('ka', ('GE', 74.69998554147188)), ('ta', ('IN', 72.20582975679542)), ('lv', ('LV', 70.64636752136752)), ('hy', ('AM', 70.57505862587938)), ('sr', ('RS', 69.85260325431767)), ('ca', ('ES', 68.92930594914274)), ('nl', ('NL', 67.73678436563596)), ('fr', ('FR', 67.31156887714555)), ('tl', ('PH', 66.51690259019676)), ('ml', ('IN', 66.16915422885572)), ('eu', ('US', 62.70104895104895)), ('ru', ('RU', 58.97570457673371)), ('hr', ('HR', 55.33393603797039)), ('az', ('AZ', 54.87610402355251)), ('zh', ('TW', 50.66441062677328)), ('tr', ('DE', 50.289537948209585)), ('zh_yue', ('HK', 47.0563320626853)), ('en', ('US', 40.816989938711856)), ('gl', ('ES', 40.594943665842266)), ('nn', ('NO', 38.08176100628931)), ('sh', ('RS', 38.012300810735255)), ('bn', ('BD', 37.97975122938965)), ('af', ('ZA', 35.13453413386702)), ('ur', ('PK', 32.26579893817434)), ('simple', ('US', 30.162931178503282)), ('bs', ('HR', 28.612007746933504)), ('sco', ('US', 26.75110343504126)), ('be', ('BY', 26.13599036461185)), ('eo', ('US', 24.84651498736006)), ('es', ('ES', 22.31194781900301)), ('la', ('US', 21.37501993938427)), ('ar', ('SA', 20.675171197164307)), ('cy', ('US', 20.48417132216015))]

jisungyoon commented 5 years ago

나름 안정적인 것 같습니다. 어떠신지요?

jisungyoon commented 5 years ago

Screen Shot 2019-06-06 at 7 27 12 PM 어떤 위키의 고립도를 나타낼때 지니인덱스로 나타낼 수 있을 것 같아서 한번 재보았습니다. 물론 나라가 그 나라 국민을 나타내지는 않지만 나중에 쓸 수 있을 것 같기도 합니다. 좀 더 생각해보겠습니다.

wsjung77 commented 5 years ago

gini index를 어찌 구한 거죠?

jisungyoon commented 5 years ago

gini index를 어찌 구한 거죠?

한 언어의 위키가 있으면 나라별 조회 비율을 구할 수 있습니다. 그 비율들의 지니 인덱스를 측정한 결과입니다.

jisungyoon commented 5 years ago

gini index를 어찌 구한 거죠?

한 언어의 위키가 있으면 나라별 조회 비율을 구할 수 있습니다. 그 비율들의 지니 인덱스를 측정한 결과입니다.

아 없는 나라 같은경우는 0으로 패딩해서 결과를 재야 하는 것 같습니다. 이렇게되면 벡터의 길이가 언어마다 달라져서..

jisungyoon commented 5 years ago

Screen Shot 2019-06-06 at 8 26 30 PM

jisungyoon commented 5 years ago

경향이 많이 달라진 것 같진 않지만, 이게 정확한 결입니다

bluekura commented 5 years ago

이전 결과보단 훨씬 깔끔해 보이네요 오늘 제가 휴가를 내서 조금 보 는게 늦을 수 있습니다 ^^;

jisungyoon commented 5 years ago

이전 결과보단 훨씬 깔끔해 보이네요 오늘 제가 휴가를 내서 조금 보 는게 늦을 수 있습니다 ^^;

넵:) 즐거운 휴가되세요

wsjung77 commented 5 years ago

경향이 많이 달라진 것 같진 않지만, 이게 정확한 결입니다

이건, 위키 이전에 각 언어가 여러 나라에서 얼마나 쓰이는지를 알아야 하지 않나요? 그것과 거의 비슷한 경향이 나올 거 같은데요.

아니면 이런 조사가 애당초 안 되는데, 위키 사용 정도를 갖고 판단할 수 있는 것이려나요? 근데, 익숙한 언어라 해도 모국어가 아니라면 해당 위키의 컨텐츠가 충분하거나, 그 나라에만 있는 위키 페이지여야 접속할 가치가 있겠군요.

jisungyoon commented 5 years ago

경향이 많이 달라진 것 같진 않지만, 이게 정확한 결입니다

이건, 위키 이전에 각 언어가 여러 나라에서 얼마나 쓰이는지를 알아야 하지 않나요? 그것과 거의 비슷한 경향이 나올 거 같은데요.

각 언어 국가별 통계가 있긴합니다만 자세한 데이터는 유료 데이터라 ㅎㅎ

아니면 이런 조사가 애당초 안 되는데, 위키 사용 정도를 갖고 판단할 수 있는 것이려나요? 근데, 익숙한 언어라 해도 모국어가 아니라면 해당 위키의 컨텐츠가 충분하거나, 그 나라에만 있는 위키 페이지여야 접속할 가치가 있겠군요.

넵 외국에서 오는 접국이 꼭 그나라 국민이 아니라, 유학생일 수도 있고 복잡하긴합니다. (이 부분이 영향을 많이 미칠지는 모르겠습니다) 많은 요인이 복잡하게 얽혀있긴 하죠. 저의 경우를 생각해봐도 영어 위키를 한국 위키보다 훨신 많이보니..

wsjung77 commented 5 years ago

네. Gini index가 갖는 의미가 뭔지 조금 더 명확해지면 좋긴 하겠네요.

jisungyoon commented 5 years ago

네. Gini index가 갖는 의미가 뭔지 조금 더 명확해지면 좋긴 하겠네요.

넵 고민해보도록 하겠습니다.

wsjung77 commented 5 years ago

영어 외에 gini가 낮은 언어가 무엇이죠?

jisungyoon / Structure-of-Science

언어 - 국가 매칭문제 #40