jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

pruning 과정에 대한 고민 #27

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

Pruning 과정에 대해서 고민을 공유합니다. 예제를 좀 찾기 위해 네트워크를 navigation 하던 중 complex system 예제를 찾아보았습니다.

5485772 Complex_system 1197580 Cybernetics 3989590 Technology_by_type 1707002 Technology 6050252 Science_and_technology_en

다음과 같은 유니크한 shortest_path를 확인할 수 있는데, 원래 complex system이란 문서가 refer 하고 있는 분류들은

Complex dynamics Complex systems theory Cybernetics Emergence Systems Systems science Mathematical modeling

다음과 같습니다. shortest_path 정보를 활용한다는 점에서 지나치게 많은 량의 정보가 생략되는 것 같아서 고민을 하고 있습니다.

모든 path들을 고려하면 좋겠지만, 지금의 계산도 매우 복잡한 상황이라 ㅜㅜ 딱히 떠오르는 해결안은 없지만, 계속 고민해야할(공격이 들어올 가능성이 높은) 이슈라 공유합니다.

jisungyoon commented 5 years ago

다른 문서를 봐도 잘 안나오는 것 같다는 생각이 드네요

Informatics->Computer_science_education->Science_education->Science->Science_and_technology_en->

Informatics->Artificial_intelligence->Technology_in_society->Technology->Science_and_technology_en->

jisungyoon commented 5 years ago

복잡계 관련 분류 문제에는 이런 문제도 있는 것 같습니다.

2019-03-01 10 25 02

기술의 subnetwork가 과학의 subnetwork 보다 depth가 작은 편이라 겹치는 문서일경우 보통은 shortest_path는 기술 쪽으로 붙게 됩니다. 이로 인해 복잡계 같은 현상이 일어나는 것이구요

jisungyoon commented 5 years ago

따라서 path가 아닌 각 노드가 refer하고 있는 바로 앞전 노드의 정보만을 이용하는 것은 어떤가 합니다. (네트워크적인 접근이 아닐수도 있다는 고민이 들긴하지만)

그리고 path 로 genealogy code를 생성해서 비교했을 때의 문제점도 슷한 원인에서 나오는 것 같습니다. 매칭되는 노드가 많다는 것은 genealogy code에서 계속 값을 가질 확률이 높을 것이고 자연스레 비례하게되는..

wsjung77 commented 5 years ago

이건 wiki 문서 생산자에 과학 쪽이 더 많아서 그런가요?

기술의 subnetwork가 과학의 subnetwork 보다 depth가 작은 편이라 겹치는 문서일경우 보통은 shortest_path는 기술 쪽으로 붙게 됩니다. 이로 인해 복잡계 같은 현상이 일어나는 것이구요

jisungyoon commented 5 years ago

이건 wiki 문서 생산자에 과학 쪽이 더 많아서 그런가요?

기술의 subnetwork가 과학의 subnetwork 보다 depth가 작은 편이라 겹치는 문서일경우 보통은 shortest_path는 기술 쪽으로 붙게 됩니다. 이로 인해 복잡계 같은 현상이 일어나는 것이구요

생산자보다는 과학 쪽이 좀 더 자세하게 그리고 체계적으로 구분을 해놓아서 그런 것 같습니다.

wsjung77 commented 5 years ago

이건 wiki 문서 생산자에 과학 쪽이 더 많아서 그런가요?

기술의 subnetwork가 과학의 subnetwork 보다 depth가 작은 편이라 겹치는 문서일경우 보통은 shortest_path는 기술 쪽으로 붙게 됩니다. 이로 인해 복잡계 같은 현상이 일어나는 것이구요

생산자보다는 과학 쪽이 좀 더 자세하게 그리고 체계적으로 구분을 해놓아서 그런 것 같습니다.

그러니까 그게 과학하는 사람들이 문서를 더 많이 손 보면서 구분도 더 많이 한 건 아닌지요?

wsjung77 commented 5 years ago

즉... 과학으로의 bias가 있는 건 아닌지...

jisungyoon commented 5 years ago

이건 wiki 문서 생산자에 과학 쪽이 더 많아서 그런가요?

기술의 subnetwork가 과학의 subnetwork 보다 depth가 작은 편이라 겹치는 문서일경우 보통은 shortest_path는 기술 쪽으로 붙게 됩니다. 이로 인해 복잡계 같은 현상이 일어나는 것이구요

생산자보다는 과학 쪽이 좀 더 자세하게 그리고 체계적으로 구분을 해놓아서 그런 것 같습니다.

그러니까 그게 과학하는 사람들이 문서를 더 많이 손 보면서 구분도 더 많이 한 건 아닌지요?

그렇게 볼 수 있을 것 같습니다. 따라서 shortest_path 정보가 아닌 다른 정보로 genalogy code를 만드는 방법을 고민을 하고 있습니다. 일단 수요일 일정은 지금까지 한 것을 바탕으로 진행할 예정이지만, 해결해여야 할 문제 인 것 같습니다.

wsjung77 commented 5 years ago

@bluekura 혹시 분야별 bias의 특징을 본 연구들이 있나요? :)

bluekura commented 5 years ago

@wsjung77 제가 알기로는 아주 자세히 본 연구는 없습니다. 보통 gender bias같은건 많이 연구하는데... https://epjdatascience.springeropen.com/articles/10.1140/epjds20 생각나는 것 중 그나마 가까운 연구가 Anna Samoilenko와 Taha Yasseri의 위 연구정도인데... 이것도 직접적인 연관은 없겠네요...

wsjung77 commented 5 years ago

하기야 위키 기여자의 개인정보가 없으니 무척 어렵기는 하겠네요. 각 대분류마다 얼마나 문서가 많고, 하위 분류 개수가 많은지는 살펴볼 수 있는 정도이려나요?

bluekura commented 5 years ago

기왕 이리된거 분야별 bias도 추후 논문에 어느정도 언급하면 괜찮을 것 같네요... 과학-기술 대분류와 그 한단계 아래정도의 문서 숫자는 알 수 있으려나요? 조금 더 정확히 하려면 하위 문서의 edit number / 총 editor의 수 / 현재 문서의 길이도 괜찮은 정보일 것 같습니다. Pageview도 괜찮은 정보일 듯 하구요...

wsjung77 commented 5 years ago

네. 내용이 많아서 다른 논문으로 분리할 정도는 아닐 거 같지만, 일단 분석한 뒤 결과 보고 이야기 나누면 되겠죠.

bluekura commented 5 years ago

네... 저도 그리 생각합니다. 제대로 분석해보기엔 사용자 정보가 좀 부족하네요...

jisungyoon commented 5 years ago

기왕 이리된거 분야별 bias도 추후 논문에 어느정도 언급하면 괜찮을 것 같네요... 과학-기술 대분류와 그 한단계 아래정도의 문서 숫자는 알 수 있으려나요? 조금 더 정확히 하려면 하위 문서의 edit number / 총 editor의 수 / 현재 문서의 길이도 괜찮은 정보일 것 같습니다. Pageview도 괜찮은 정보일 듯 하구요...

관련 통계량은 정리해 두겠습니다. 우선은 네트워크를 만드는 중이라

jisungyoon commented 5 years ago

우선 한국시간 3/4 아침 10시 블루밍턴시간 3/3 밤 8시에 스카이프 미팅을 진행할 계획입니다.

지금 이슈와 관련된 내용과 앞으로의 방향에 대해서 논의할 계획입니다.

wsjung77 commented 5 years ago

우선 한국시간 3/4 아침 10시 블루밍턴시간 3/3 밤 8시에 스카이프 미팅을 진행할 계획입니다.

지금 이슈와 관련된 내용과 앞으로의 방향에 대해서 논의할 계획입니다.

8시는 식사 모임 중일 거라... 얼마나 미팅을 가지실 건지요? 30분? 1시간?

jisungyoon commented 5 years ago

우선 한국시간 3/4 아침 10시 블루밍턴시간 3/3 밤 8시에 스카이프 미팅을 진행할 계획입니다. 지금 이슈와 관련된 내용과 앞으로의 방향에 대해서 논의할 계획입니다.

8시는 식사 모임 중일 거라... 얼마나 미팅을 가지실 건지요? 30분? 1시간?

보통은 30~40분 정도 가지는 경우가 많습니다.

bluekura commented 5 years ago

보통은 30~40분 정도 가지는 경우가 많습니다.

혹여 정우성교수님도 같이 참석을 원하신다면 시간을 조금 바꾸어도 저는 괜찮습니다. @balla2081 선생님 의견과 시간이 더 중요합니다. :>

jisungyoon commented 5 years ago

보통은 30~40분 정도 가지는 경우가 많습니다.

혹여 정우성교수님도 같이 참석을 원하신다면 시간을 조금 바꾸어도 저는 괜찮습니다. @balla2081 선생님 의견과 시간이 더 중요합니다. :>

어차피 집에서 접속하는거라 저도 상관없습니다! @wsjung77 교수님은 언제가 편하신지요?

jisungyoon commented 5 years ago

어제 회의한 내용은 정리해서 위키에 정리해 두었습니다!

jisungyoon commented 5 years ago

관련 사항에 대해서 많이 고민해본 결과 persnoalized page rank를 이용해 벡터를 만드는것이 좋을 것 같다는 생각이 듭니다. 우선은 네트워크에서 돌려본 뒤 얼마나 resonable 한지를 한번 체킹 해보면 될 것 같습니다.

https://nlp.stanford.edu/projects/pagerank.shtml

jisungyoon commented 5 years ago

이 문제도 해결되었으니 닫도록 하겠습니다.