Closed jisungyoon closed 5 years ago
- 어족이나, 위치들을 미리 고려해서 통계자료를 보지 않고 임의로 정한다. 를 하고 최하위 랭킹에 맞추시는건?
괜찮은 것 같습니다. 개인적으로 50권안 이면 될 것 같다고 생각하는데 어떻게 생각하시는지? 아니면 50위까지 뽑아 논뒤 솎아 내는 작업을 하는 것도 괜찬은 것 같습니다.
어차피 밖에서 볼떄는 같아보일 것 같습니다.
wiki_stat_rev.xlsx 2017.10 ~ 2018.09 평균 view 수로 정리한 엑셀입니다. 50위 권까지는 어떤 지역에서 쓰는지 표시 해놨고 앞으로도 채워 나갈 계획입니다. 다음 미팅 떄 저 엑셀을 보면서 어떤 언어를 넣을지 정하면 될 것 같습니다. 다음 미팅은 언제 잡으면 될까요?
P.S. 생각보다 인공어가 몇 없습니다 (파란색으로 색을 칠해 둔 게 인공어입니다. 그리고 simple english는 인공어로 안 치더군요.
AF | AS | EU | NA | SA | OC | CL
이건 Africa, Asia, Europe, North America, South America, Oceania 인가요? 마지막의 CL은 무엇인가요?
AF | AS | EU | NA | SA | OC | CL
이건 Africa, Asia, Europe, North America, South America, Oceania 인가요? 마지막의 CL은 무엇인가요?
Constructed Language 입니다. 이도 같은 언어들이 들어 가더라구요
Esperanto 에 인공어 표시가 빠졌네요
https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_family 이 정보를 보시는게 더 나을 수도 있을 것 같습니다. 각 family별로 상위를 뽑는다던지...
덧//Simple English 자체는 https://en.wikipedia.org/wiki/Basic_English 를 보시면 알겠지만, 정확히 말하면 완전 인공어의 범주에는 들어가지 않으나 International auxiliary language에 들어갑니다.
https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group
https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group
- 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
- 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.
넵 일단 1번 방법 대로 진행해보겠습니다.
그러면 전체적인 흐름이 살짝 달라지는건가요?
기존의 흐름은 상위 20개의 위키와 상관과계를 살펴보니 language group과 비슷한 것 같다 라는 결론을 도출하는 흐름이였다면, 바뀐 흐름은 기본 가정(language group)을 깔고 들어가게 되는 것 같아서 어느 쪽이 좋은지 고민을 해봐야할 것 같습니다.
https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group
- 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
- 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.
넵 일단 1번 방법 대로 진행해보겠습니다.
그러면 전체적인 흐름이 살짝 달라지는건가요?
기존의 흐름은 상위 20개의 위키와 상관과계를 살펴보니 language group과 비슷한 것 같다 라는 결론을 도출하는 흐름이였다면, 바뀐 흐름은 기본 가정(language group)을 깔고 들어가게 되는 것 같아서 어느 쪽이 좋은지 고민을 해봐야할 것 같습니다.
2번을 먼저 해보시겠어요? 지금이 얼마나 대표성이 있는지 일단 체크를 좀...
https://meta.wikimedia.org/wiki/List_of_Wikipedias_by_language_group
- 제 개인적인 생각으로는 기준으로, 사용자가 너무 없는 하위 group은 제외하고, 개별 group에 대해서 상위 X개를 뽑는 전략으로 가는게 가장 합리적인 전략인 것 같습니다.
- 위 주소의 리스트를 가지고 이미 처리한 데이터를 확인 가능하신지요.
넵 일단 1번 방법 대로 진행해보겠습니다. 그러면 전체적인 흐름이 살짝 달라지는건가요? 기존의 흐름은 상위 20개의 위키와 상관과계를 살펴보니 language group과 비슷한 것 같다 라는 결론을 도출하는 흐름이였다면, 바뀐 흐름은 기본 가정(language group)을 깔고 들어가게 되는 것 같아서 어느 쪽이 좋은지 고민을 해봐야할 것 같습니다.
2번을 먼저 해보시겠어요? 지금이 얼마나 대표성이 있는지 일단 체크를 좀...
넵! 알겠습니다
wiki_stat_rev.xlsx 일단은 Constructed 까지 처리 하였습니다. 그 뒤에 있는 군 중에 추가 하여야 할 곳이 있을까요?
일단은 article 5만개 이상인 애들만 추려보죠....
Romance Creoles 까지?
아마 아티클 5만 개정도면, 네트워크를 구성하면 아마 3만 정도 스케일이 되지 않을까 합니다.
이 중에 우리가 이미 처리한 데이터에 따로 표시를 해주시겠어요?
감사합니다.
감사합니다. 스웨덴어는 지금 처리중입니다.
무거운 계산이 필요한 아이들 같은 경우는 이미 계산이 끝나서 뒷 계산 부분을 병렬화하면 가능은 합니다
데이터 임포팅과 과학,기술 노드를 정하는게 더 힘들수도 있습니다
- Germanic / Italic은 상위를 다 커버하는군요
- 전체중에서 article 5만개 이상인 것을 하는건 너무 과하겠...죠...?-_-;
wiki_stat_rev.xlsx 총 88개의 위키가 해당되네요, 하지만 active user가 너무 작아서 한 100명으로 제한을 두어 볼까요?
넵.
인공어가 너무 사라지지 않나 체크 부탁드립니다
wiki_stat_rev.xlsx 50000개 기준 2개의 인공어가 있었고, 100으로 자르면 1개의 인공어만 남아있습니다. 위키의 분류상 simple english는 인공어에 포함되지 않지만, 인공어라고 하면 총 2개가 남아있게 됩니다.
아예 group에 1개만 있는 경우를 제외하고, 5만 넘는 경우가 2개 이상이면 두개까지... 는 남기는게 어떨까 싶기도 합니다. (인공어가 한개인게 맘에 걸려서) 아니면 인공어는 그냥 예외적으로 다 포함? 아니면 Volapük (Volapük) 만 포함?
첫 번째 말씀 주신 방법 같은경우에는 데이터 셈플링에 bias가 있는 느낌이라, 인공어를 더 추가하는 방법이 더 좋을 것 같습니다.
일단 다 받아보고 문제가 있는지 확인해보는 방향은 어떤가요??
오케이 그럼 그냥 인공어 한개 더 추가하는걸로 끝내죠
이대로 fix 하고 시작합시다...
2019년 2월 13일 (수) 오전 11:09, balla2081 notifications@github.com님이 작성:
첫 번째 말씀 주신 방법 같은경우에는 데이터 셈플링에 bias가 있는 느낌이라, 인공어를 더 추가하는 방법이 더 좋을 것 같습니다.
일단 다 받아보고 문제가 있는지 확인해보는 방향은 어떤가요??
— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/balla2081/Structure-of-Science/issues/24#issuecomment-463025509, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXBshJuq7lfzq0u9ohjjhvU0MKnk1ks5vM3PbgaJpZM4af9uq .
-- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr
오케이 그럼 그냥 인공어 한개 더 추가하는걸로 끝내죠 이대로 fix 하고 시작합시다... 2019년 2월 13일 (수) 오전 11:09, balla2081 notifications@github.com님이 작성: … 첫 번째 말씀 주신 방법 같은경우에는 데이터 셈플링에 bias가 있는 느낌이라, 인공어를 더 추가하는 방법이 더 좋을 것 같습니다. 일단 다 받아보고 문제가 있는지 확인해보는 방향은 어떤가요?? — You are receiving this because you were assigned. Reply to this email directly, view it on GitHub <#24 (comment)>, or mute the thread https://github.com/notifications/unsubscribe-auth/AZDpXBshJuq7lfzq0u9ohjjhvU0MKnk1ks5vM3PbgaJpZM4af9uq . -- Jinhyuk Yun, Ph. D. Dept. of Scientometric Research, Future Information Research Center Korea Institute of Science and Technology Information TEL: +82 2 3299 6061 MAIL: jinhyuk.yun@kisti.re.kr
넵 우선 시작해보겠습니다. 데이터 받는데 시간이 좀 걸릴 것 같습니다.
확정된 데이터 셋 통계입니다
Language Family | Count |
---|---|
Slavic | 14 |
Germanic | 11 |
Italic | 9 |
Turkic | 5 |
Indo-Aryan | 4 |
Sunda-Sulawesi | 3 |
Dravidian | 3 |
Celtic | 3 |
Sintic | 2 |
Semitic | 2 |
Finno-permic | 2 |
Baltic | 2 |
Philippine | 2 |
Constructed | 2 |
Iranian | 1 |
Korean | 1 |
Urgic | 1 |
Mon-khmer | 1 |
Tai | 1 |
Hellenic | 1 |
Armenian | 1 |
Vasconic | 1 |
Japanic | 1 |
Kartvelian | 1 |
Albanian | 1 |
Total | 76 |
데이터 셋은 2018/09/01 덤프 기준으로 받겠습니다.
close?
데이터는 다 받았고, 처리중에 있습니다 닫겠습니다!
이번 결과에 쓰인 데이터는 9월 기준 page view 기준 상위 20개의 나라 데이터 입니다. 이전 이슈한 내용을 반영하자면
https://stats.wikimedia.org/EN/TablesPageViewsMonthlyCombined.htm 여기에 가보면, 월별 통계 자료를 볼 수 있습니다. 15위까지는 거의 고정적이지만 그 밑에 있는 위키의 경우에는 변동이 심함을 확인할 수 있습니다. 따라서 선정 방법을 2017년 10월 부터 2018년 9월까지의 평균 값을 내서, 그 데이터의 평균으로 랭킹을 다시 산출하는 걸로 바꾸는게 어떤가 합니다.
따라서 새로운 언어목록을 정하는 방법에는 크게 2가지 방법이 있을 것 같습니다.
어느 방법이 좋을까요?