jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

language title 매칭 이슈 #6

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

한국 위키 -> 미국 위키 미국 위키 -> 한국 위키 를 잇는 데이터를 처리하는 중에 몇 이슈가 있어서 공유드립니다. 어떻게 처리하는 것이 좋을 지 의견주시면 감사하겠습니다.

  1. 한국에서 영어로 잇는 문서를 보면 Ruby_(disambiguation) 와 같이 뒤에 플래그를 가지고 있는 링크들이 있습니다. disambugation 에 관련한 문서를 보면

Naming articles in such a way that each has a unique title. For example, three of the articles dealing with topics ordinarily called "Mercury" are titled Mercury (element), Mercury (planet) and Mercury (mythology).

이렇게 한가지 단어가 여러 의미를 가지고 있을 때 쓴다고 합니다. 이를 하나하나 매칭하게 되면 매우 수작업이 될 것 같아서 어떻게 좋을까요?

  1. 영어에서 한국으로 잇는 문서중 보면 bottleneck -> 병목(공학) 이렇게 연결되어 있는데 병목(공학) 이라는 문서는 없고 병목 이라는 문서는 존재합니다. 이 경우에는 어떻게 처리해야할까요?

의견주시면 감사하겠습니다.

bluekura commented 5 years ago

@wsjung77 갑자기 이 만화가 떠오르네요...

image

이런 기사도 떠오르구요... (하하...) http://www.kookje.co.kr/news2011/asp/newsbody.asp?code=0300&key=20141231.99002153002

wsjung77 commented 5 years ago

@bluekura 지금 저희 회사에선 극히 조심해야 하는 짤입니다. 폭풍 전야...

bluekura commented 5 years ago

@wsjung77 뭔가 사건이 있나보군요... 여기서 말씀하시긴 곤란하실테니 추후에 사석에서 여쭙겠습니다....;;

wsjung77 commented 5 years ago

@bluekura welcome to Indiana

jisungyoon commented 5 years ago

그리고 Wikidata를 쓴다고 해서 양방향의 다의어 문제가 모두 해결 되지 않는 것 같습니다. https://www.wikidata.org/wiki/Q11016

image

이 작업은 필요한 작업인 것 같습니다. 그리고 두쪽의 데이터를 다 쓰는 방법이 나을 수도 잇을 거 같내요.

jisungyoon commented 5 years ago

충분히 논의가 되었고 방향을 정한 이슈이기 때문에 닫도록 하겠습니다. (관련 내용은 method에 첨부하도록 하겠습니다)