jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

새로운 언어 추가 #24

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

이번 결과에 쓰인 데이터는 9월 기준 page view 기준 상위 20개의 나라 데이터 입니다. 이전 이슈한 내용을 반영하자면

  1. 아시아 언어를 더 넣자.
  2. 인공어 (Simple English, 에스페란토나, 이도)

https://stats.wikimedia.org/EN/TablesPageViewsMonthlyCombined.htm 여기에 가보면, 월별 통계 자료를 볼 수 있습니다. 15위까지는 거의 고정적이지만 그 밑에 있는 위키의 경우에는 변동이 심함을 확인할 수 있습니다. 따라서 선정 방법을 2017년 10월 부터 2018년 9월까지의 평균 값을 내서, 그 데이터의 평균으로 랭킹을 다시 산출하는 걸로 바꾸는게 어떤가 합니다.

따라서 새로운 언어목록을 정하는 방법에는 크게 2가지 방법이 있을 것 같습니다.

  1. 새로운 평균 view의 랭킹을 정한 뒤 몇 위까지 볼 껀지는 지도에 위치를 뿌려봐서 결정한다.
  2. 어족이나, 위치들을 미리 고려해서 통계자료를 보지 않고 임의로 정한다.

어느 방법이 좋을까요?

bluekura commented 5 years ago
  1. 어족이나, 위치들을 미리 고려해서 통계자료를 보지 않고 임의로 정한다. 를 하고 최하위 랭킹에 맞추시는건?
jisungyoon commented 5 years ago
  1. 어족이나, 위치들을 미리 고려해서 통계자료를 보지 않고 임의로 정한다. 를 하고 최하위 랭킹에 맞추시는건?

괜찮은 것 같습니다. 개인적으로 50권안 이면 될 것 같다고 생각하는데 어떻게 생각하시는지? 아니면 50위까지 뽑아 논뒤 솎아 내는 작업을 하는 것도 괜찬은 것 같습니다.

jisungyoon commented 5 years ago

어차피 밖에서 볼떄는 같아보일 것 같습니다.

jisungyoon commented 5 years ago

wiki_stat_rev.xlsx 2017.10 ~ 2018.09 평균 view 수로 정리한 엑셀입니다. 50위 권까지는 어떤 지역에서 쓰는지 표시 해놨고 앞으로도 채워 나갈 계획입니다. 다음 미팅 떄 저 엑셀을 보면서 어떤 언어를 넣을지 정하면 될 것 같습니다. 다음 미팅은 언제 잡으면 될까요?

P.S. 생각보다 인공어가 몇 없습니다 (파란색으로 색을 칠해 둔 게 인공어입니다. 그리고 simple english는 인공어로 안 치더군요.

bluekura commented 5 years ago

AF | AS | EU | NA | SA | OC | CL

이건 Africa, Asia, Europe, North America, South America, Oceania 인가요? 마지막의 CL은 무엇인가요?

jisungyoon commented 5 years ago

AF | AS | EU | NA | SA | OC | CL

이건 Africa, Asia, Europe, North America, South America, Oceania 인가요? 마지막의 CL은 무엇인가요?

Constructed Language 입니다. 이도 같은 언어들이 들어 가더라구요

bluekura commented 5 years ago
  1. 아프리카, 오세아니아, 북미/남미의 경우는 사실상 자체 언어가 없다시피 한 곳이라서 저렇게 구분하는게 큰 의미가 없을 것 같습니다.
  2. 차라리 유럽/아시아에서 특정 국가와 매칭이 가능한 언어를 보는게 낫지 않을까요.
bluekura commented 5 years ago
  1. Esperanto 에 인공어 표시가 빠졌네요

  2. https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_family 이 정보를 보시는게 더 나을 수도 있을 것 같습니다. 각 family별로 상위를 뽑는다던지...

덧//Simple English 자체는 https://en.wikipedia.org/wiki/Basic_English 를 보시면 알겠지만, 정확히 말하면 완전 인공어의 범주에는 들어가지 않으나 International auxiliary language에 들어갑니다.

bluekura commented 5 years ago

https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group

https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_macrofamily

bluekura commented 5 years ago

https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group

  1. 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
  2. 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.
jisungyoon commented 5 years ago

https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group

  1. 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
  2. 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.

넵 일단 1번 방법 대로 진행해보겠습니다.

그러면 전체적인 흐름이 살짝 달라지는건가요?

기존의 흐름은 상위 20개의 위키와 상관과계를 살펴보니 language group과 비슷한 것 같다 라는 결론을 도출하는 흐름이였다면, 바뀐 흐름은 기본 가정(language group)을 깔고 들어가게 되는 것 같아서 어느 쪽이 좋은지 고민을 해봐야할 것 같습니다.

bluekura commented 5 years ago

https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group

  1. 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
  2. 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.

넵 일단 1번 방법 대로 진행해보겠습니다.

그러면 전체적인 흐름이 살짝 달라지는건가요?

기존의 흐름은 상위 20개의 위키와 상관과계를 살펴보니 language group과 비슷한 것 같다 라는 결론을 도출하는 흐름이였다면, 바뀐 흐름은 기본 가정(language group)을 깔고 들어가게 되는 것 같아서 어느 쪽이 좋은지 고민을 해봐야할 것 같습니다.

2번을 먼저 해보시겠어요? 지금이 얼마나 대표성이 있는지 일단 체크를 좀...

jisungyoon commented 5 years ago

https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group

  1. 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
  2. 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.

넵 일단 1번 방법 대로 진행해보겠습니다. 그러면 전체적인 흐름이 살짝 달라지는건가요? 기존의 흐름은 상위 20개의 위키와 상관과계를 살펴보니 language group과 비슷한 것 같다 라는 결론을 도출하는 흐름이였다면, 바뀐 흐름은 기본 가정(language group)을 깔고 들어가게 되는 것 같아서 어느 쪽이 좋은지 고민을 해봐야할 것 같습니다.

2번을 먼저 해보시겠어요? 지금이 얼마나 대표성이 있는지 일단 체크를 좀...

넵! 알겠습니다

jisungyoon commented 5 years ago

wiki_stat_rev.xlsx 일단은 Constructed 까지 처리 하였습니다. 그 뒤에 있는 군 중에 추가 하여야 할 곳이 있을까요?

bluekura commented 5 years ago

일단은 article 5만개 이상인 애들만 추려보죠....

Romance Creoles 까지?

jisungyoon commented 5 years ago

wiki_stat_rev.xlsx

아마 아티클 5만 개정도면, 네트워크를 구성하면 아마 3만 정도 스케일이 되지 않을까 합니다.

bluekura commented 5 years ago

이 중에 우리가 이미 처리한 데이터에 따로 표시를 해주시겠어요?

감사합니다.

jisungyoon commented 5 years ago

wiki_stat_rev.xlsx

감사합니다. 스웨덴어는 지금 처리중입니다.

bluekura commented 5 years ago
  1. Germanic / Italic은 상위를 다 커버하는군요
  2. 전체중에서 article 5만개 이상인 것을 하는건 너무 과하겠...죠...?-_-;
jisungyoon commented 5 years ago

무거운 계산이 필요한 아이들 같은 경우는 이미 계산이 끝나서 뒷 계산 부분을 병렬화하면 가능은 합니다

데이터 임포팅과 과학,기술 노드를 정하는게 더 힘들수도 있습니다

jisungyoon commented 5 years ago
  1. Germanic / Italic은 상위를 다 커버하는군요
  2. 전체중에서 article 5만개 이상인 것을 하는건 너무 과하겠...죠...?-_-;

wiki_stat_rev.xlsx 총 88개의 위키가 해당되네요, 하지만 active user가 너무 작아서 한 100명으로 제한을 두어 볼까요?

bluekura commented 5 years ago

넵.

인공어가 너무 사라지지 않나 체크 부탁드립니다

jisungyoon commented 5 years ago

wiki_stat_rev.xlsx 50000개 기준 2개의 인공어가 있었고, 100으로 자르면 1개의 인공어만 남아있습니다. 위키의 분류상 simple english는 인공어에 포함되지 않지만, 인공어라고 하면 총 2개가 남아있게 됩니다.

bluekura commented 5 years ago

아예 group에 1개만 있는 경우를 제외하고, 5만 넘는 경우가 2개 이상이면 두개까지... 는 남기는게 어떨까 싶기도 합니다. (인공어가 한개인게 맘에 걸려서) 아니면 인공어는 그냥 예외적으로 다 포함? 아니면 Volapük (Volapük) 만 포함?

jisungyoon commented 5 years ago

첫 번째 말씀 주신 방법 같은경우에는 데이터 셈플링에 bias가 있는 느낌이라, 인공어를 더 추가하는 방법이 더 좋을 것 같습니다.

일단 다 받아보고 문제가 있는지 확인해보는 방향은 어떤가요??

bluekura commented 5 years ago

오케이 그럼 그냥 인공어 한개 더 추가하는걸로 끝내죠

이대로 fix 하고 시작합시다...

2019년 2월 13일 (수) 오전 11:09, balla2081 notifications@github.com님이 작성:

첫 번째 말씀 주신 방법 같은경우에는 데이터 셈플링에 bias가 있는 느낌이라, 인공어를 더 추가하는 방법이 더 좋을 것 같습니다.

일단 다 받아보고 문제가 있는지 확인해보는 방향은 어떤가요??

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/24#issuecomment-463025509, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXBshJuq7lfzq0u9ohjjhvU0MKnk1ks5vM3PbgaJpZM4af9uq .

-- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

jisungyoon commented 5 years ago

오케이 그럼 그냥 인공어 한개 더 추가하는걸로 끝내죠 이대로 fix 하고 시작합시다... 2019년 2월 13일 (수) 오전 11:09, balla2081 notifications@github.com님이 작성: 첫 번째 말씀 주신 방법 같은경우에는 데이터 셈플링에 bias가 있는 느낌이라, 인공어를 더 추가하는 방법이 더 좋을 것 같습니다. 일단 다 받아보고 문제가 있는지 확인해보는 방향은 어떤가요?? — You are receiving this because you were assigned. Reply to this email directly, view it on GitHub <#24 (comment)>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXBshJuq7lfzq0u9ohjjhvU0MKnk1ks5vM3PbgaJpZM4af9uq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr

넵 우선 시작해보겠습니다. 데이터 받는데 시간이 좀 걸릴 것 같습니다.

jisungyoon commented 5 years ago

확정된 데이터 셋 통계입니다

Language Family Count
Slavic 14
Germanic 11
Italic 9
Turkic 5
Indo-Aryan 4
Sunda-Sulawesi 3
Dravidian 3
Celtic 3
Sintic 2
Semitic 2
Finno-permic 2
Baltic 2
Philippine 2
Constructed 2
Iranian 1
Korean 1
Urgic 1
Mon-khmer 1
Tai 1
Hellenic 1
Armenian 1
Vasconic 1
Japanic 1
Kartvelian 1
Albanian 1
Total 76
jisungyoon commented 5 years ago

데이터 셋은 2018/09/01 덤프 기준으로 받겠습니다.

wsjung77 commented 5 years ago

close?

jisungyoon commented 5 years ago

데이터는 다 받았고, 처리중에 있습니다 닫겠습니다!