jisungyoon / Structure-of-Science

Science of Science, Collective Intelligence
2 stars 0 forks source link

새로운 데이터 dump 문제 관련 #25

Closed jisungyoon closed 5 years ago

jisungyoon commented 5 years ago

새로운 언어 셋을 정했고, 대상 언어를 받는 중에 문제가 생겼습니다. 이전의 데이터 (20개국) 의 경우는 2018-08-01 기준 이였고, 현재 받을 수 있는 가장 최근의 데이터는 2018-09-20이라 데이터의 싱크 문제가 발생하였습니다. 어떻게 처리하면 좋을까요?

bluekura commented 5 years ago

일단 현재 해야할 것들.

  1. 일단은 혹시 어떻게 될 지 모르니 9월 20일 덤프를 미리 받아두세요
  2. 되도록이면 지금 안쓰는 버전이라도 받아두시는걸 추천합니다. 추후에 어찌 될 지 모르니.

그냥 이 사태에 대한 생각..

  1. 예전 덤프를 위키에서 관리문제로 지운다는걸 잊은 제 책임이 큽니다. 먼저 사과드립니다.

  2. 분석에는 당연히 같은 날짜 덤프를 쓰는게 맞기는 한데, 과연 1달 반 정도의 시차가 전체 분석을 "다시" 해야할 필요성이 있냐의 문제네요 일단 저는 다시 하는게 모양이 좋긴 하겠으나, 이걸 다시 하려면 최하 한~두달의 작업을 더 해야하는데... 이 작업이 그정도 가치가 있는지 모르겠습니다.

  3. 제 생각에는 일단은 8/1일 데이터로 한 버전은 유지하되, 나머지는 9월 20일 버전으로 일단 작업을 한 이후 데이터가 너무 "이상"하면 예전 버전을 사용한 파일들을 9월 20일 버전으로 다시 처리해보는게 어떨까요.

  4. 논문을 쓸 때는 method나 데이터 설명 부분에 아주 자세히 쓰는 형태로 처리하는게 어떨까 싶습니다.

@wsjung77 교수님은 어떻게 생각하시는지... 지금 전체를 다시 하기에는 출혈이 너무 큰 느낌이 듭니다 저는.

wsjung77 commented 5 years ago

일단 현재 해야할 것들.

  1. 일단은 혹시 어떻게 될 지 모르니 9월 20일 덤프를 미리 받아두세요
  2. 되도록이면 지금 안쓰는 버전이라도 받아두시는걸 추천합니다. 추후에 어찌 될 지 모르니.

그냥 이 사태에 대한 생각..

  1. 예전 덤프를 위키에서 관리문제로 지운다는걸 잊은 제 책임이 큽니다. 먼저 사과드립니다.
  2. 분석에는 당연히 같은 날짜 덤프를 쓰는게 맞기는 한데, 과연 1달 반 정도의 시차가 전체 분석을 "다시" 해야할 필요성이 있냐의 문제네요 일단 저는 다시 하는게 모양이 좋긴 하겠으나, 이걸 다시 하려면 최하 한~두달의 작업을 더 해야하는데... 이 작업이 그정도 가치가 있는지 모르겠습니다.
  3. 제 생각에는 일단은 8/1일 데이터로 한 버전은 유지하되, 나머지는 9월 20일 버전으로 일단 작업을 한 이후 데이터가 너무 "이상"하면 예전 버전을 사용한 파일들을 9월 20일 버전으로 다시 처리해보는게 어떨까요.
  4. 논문을 쓸 때는 method나 데이터 설명 부분에 아주 자세히 쓰는 형태로 처리하는게 어떨까 싶습니다.

@wsjung77 교수님은 어떻게 생각하시는지... 지금 전체를 다시 하기에는 출혈이 너무 큰 느낌이 듭니다 저는.

동의합니다.

bluekura commented 5 years ago

넵 알겠습니다... @balla2081 선생님 진행해주시길 부탁드립니다.

wsjung77 commented 5 years ago

넵 알겠습니다... @balla2081 선생님 진행해주시길 부탁드립니다.

이 쯤에서...

힘내세요. 라고 해야하는 거죠?

jisungyoon commented 5 years ago

넵 알겠습니다... @balla2081 선생님 진행해주시길 부탁드립니다.

이 쯤에서...

힘내세요. 라고 해야하는 거죠?

다운로드 관련 스크립트는 작성해서 데이터를 받고 있습니다. 다음과 같은 우선 순위로 진행하려고 합니다.

  1. 언제 20180920 덤프도 없어 질지 모르니, 기존의 20개국 데이터를 제외한 나라의 데이터를 우선 다운로드
  2. 그 이후에 받을 수 있으면 다른 나라의 덤프도 받기

아마 1번 과정 같은 경우는 작은 위키도 많아서 빠른 시일내에 받을 수 있을 것 같습니다. (하루정도 예상합니다) 하지만 2번 과정이 오래 걸릴 것으로 예상됩니다.

bluekura commented 5 years ago

넵 알겠습니다... @balla2081 선생님 진행해주시길 부탁드립니다.

이 쯤에서... 힘내세요. 라고 해야하는 거죠?

다운로드 관련 스크립트는 작성해서 데이터를 받고 있습니다. 다음과 같은 우선 순위로 진행하려고 합니다.

  1. 언제 20180920 덤프도 없어 질지 모르니, 기존의 20개국 데이터를 제외한 나라의 데이터를 우선 다운로드
  2. 그 이후에 받을 수 있으면 다른 나라의 덤프도 받기

아마 1번 과정 같은 경우는 작은 위키도 많아서 빠른 시일내에 받을 수 있을 것 같습니다. (하루정도 예상합니다) 하지만 2번 과정이 오래 걸릴 것으로 예상됩니다.

힘내세요... (2)

jisungyoon commented 5 years ago

넵 알겠습니다... @balla2081 선생님 진행해주시길 부탁드립니다.

이 쯤에서... 힘내세요. 라고 해야하는 거죠?

다운로드 관련 스크립트는 작성해서 데이터를 받고 있습니다. 다음과 같은 우선 순위로 진행하려고 합니다.

  1. 언제 20180920 덤프도 없어 질지 모르니, 기존의 20개국 데이터를 제외한 나라의 데이터를 우선 다운로드
  2. 그 이후에 받을 수 있으면 다른 나라의 덤프도 받기

아마 1번 과정 같은 경우는 작은 위키도 많아서 빠른 시일내에 받을 수 있을 것 같습니다. (하루정도 예상합니다) 하지만 2번 과정이 오래 걸릴 것으로 예상됩니다.

힘내세요... (2)

컴퓨터가 열심히 일할테니, 괜찮습니다 :)

jisungyoon commented 5 years ago

새로운 문제가 생겼내요. 대용량 위키 (대부분 10위권의 위키)들은 보관기간이 좀 더 짧은 것 같습니다. 지금 현재 2018-11-01 덤프가 받을 수 있는 가장 늦은 위키입니다.

이 문제를 해결하려고 하면 두 가지의 방법이 있는 것 같습니다.

  1. 20개국의 위키는 2018-08-01 기준 나머지 나라는 2018-09-20으로 진행한다. 그리고 이유를 충분히 쓴다.

  2. 아예 최신의 위키를 받아서 처음부터 진행한다. ( 이 경우 프로젝트가 2달이상 늦어질수도 있을 것 같습니다)

어떻게 하는것이 좋을까요?

@bluekura @wsjung77

bluekura commented 5 years ago

새로운 문제가 생겼내요. 대용량 위키 (대부분 10위권의 위키)들은 보관기간이 좀 더 짧은 것 같습니다. 지금 현재 2018-11-01 덤프가 받을 수 있는 가장 늦은 위키입니다.

이 문제를 해결하려고 하면 두 가지의 방법이 있는 것 같습니다.

  1. 20개국의 위키는 2018-08-01 기준 나머지 나라는 2018-09-20으로 진행한다. 그리고 이유를 충분히 쓴다.
  2. 아예 최신의 위키를 받아서 처음부터 진행한다. ( 이 경우 프로젝트가 2달이상 늦어질수도 있을 것 같습니다)

어떻게 하는것이 좋을까요?

@bluekura @wsjung77

3달 차이는 좀 위험한데.... 이거 참 여기서 선택을 잘 해야겠네요... 저는 일단 1번에 한표 해 봅니다. 리스크가 있겠지만 두달의 시간을 더 쓰는 것 보다는 아직은 합리적으로 보이는군요... (사실 자꾸 2번이 끌리긴 하는데, @balla2081 선생님 고생하시는거 보기도 좀 그렇고...) 더불어서 IC2S2발표도 있으니 그 전에 더 많은 국가가 나오는 것이 더 나을 수도 있을 것 같기도 합니다...

결정이 참 어렵지만... 일단 저는 1번에 한표... @balla2081 선생님 스스로는 어떻게 하고 싶으신지요?

jisungyoon commented 5 years ago

새로운 문제가 생겼내요. 대용량 위키 (대부분 10위권의 위키)들은 보관기간이 좀 더 짧은 것 같습니다. 지금 현재 2018-11-01 덤프가 받을 수 있는 가장 늦은 위키입니다. 이 문제를 해결하려고 하면 두 가지의 방법이 있는 것 같습니다.

  1. 20개국의 위키는 2018-08-01 기준 나머지 나라는 2018-09-20으로 진행한다. 그리고 이유를 충분히 쓴다.
  2. 아예 최신의 위키를 받아서 처음부터 진행한다. ( 이 경우 프로젝트가 2달이상 늦어질수도 있을 것 같습니다)

어떻게 하는것이 좋을까요? @bluekura @wsjung77

3달 차이는 좀 위험한데.... 이거 참 여기서 선택을 잘 해야겠네요... 저는 일단 1번에 한표 해 봅니다. 리스크가 있겠지만 두달의 시간을 더 쓰는 것 보다는 아직은 합리적으로 보이는군요... (사실 자꾸 2번이 끌리긴 하는데, @balla2081 선생님 고생하시는거 보기도 좀 그렇고...) 더불어서 IC2S2발표도 있으니 그 전에 더 많은 국가가 나오는 것이 더 나을 수도 있을 것 같기도 합니다...

결정이 참 어렵지만... 일단 저는 1번에 한표... @balla2081 선생님 스스로는 어떻게 하고 싶으신지요?

저도 1번이 편하긴 하지만, 제가 만약 리뷰어라도 물어볼 것 같아서 흠... 우선 시간이 많이 걸리는 과정 코드를 뜯어보면서 시간을 줄일 수 있을까 보고 있는데, 잘 안되네요 ㅜㅜ

bluekura commented 5 years ago

이건 제 사견이지만 이런 작업에서 노가다를 직접 하는건 대부분 1저자입니다. 그리고 1저자가 할 의사가 없다면 데이터를 다시 만지자고 제가 감히 말할 수 없는 부분인 것 같습니다.

하지만 조금 과감해져도 괜찮을 것 같네요. 다만 다시 시작하기 전에 방법론을 살짝 한번 정리하고, 멈춤 없이 쭉 가보죠.

wsjung77 commented 5 years ago

이건 제 사견이지만 이런 작업에서 노가다를 직접 하는건 대부분 1저자입니다. 그리고 1저자가 할 의사가 없다면 데이터를 다시 만지자고 제가 감히 말할 수 없는 부분인 것 같습니다.

하지만 조금 과감해져도 괜찮을 것 같네요. 다만 다시 시작하기 전에 방법론을 살짝 한번 정리하고, 멈춤 없이 쭉 가보죠.

미리 말씀드리면, 논문의 방향에 관하여 가장 많은 목소리를 내야 하는 사람도 1저자입니다. 특히 데이터 등 세부 내용을 가장 잘 알기 때문에... 다만 다른 사람들이 학계의 흐름이나 다른 연구현황 등을 토대로 방향에 대한 의견을 내는 거지요. 즉 논문은 1저자의 것입니다.

bluekura commented 5 years ago

이건 제 사견이지만 이런 작업에서 노가다를 직접 하는건 대부분 1저자입니다. 그리고 1저자가 할 의사가 없다면 데이터를 다시 만지자고 제가 감히 말할 수 없는 부분인 것 같습니다. 하지만 조금 과감해져도 괜찮을 것 같네요. 다만 다시 시작하기 전에 방법론을 살짝 한번 정리하고, 멈춤 없이 쭉 가보죠.

미리 말씀드리면, 논문의 방향에 관하여 가장 많은 목소리를 내야 하는 사람도 1저자입니다. 특히 데이터 등 세부 내용을 가장 잘 알기 때문에... 다만 다른 사람들이 학계의 흐름이나 다른 연구현황 등을 토대로 방향에 대한 의견을 내는 거지요. 즉 논문은 1저자의 것입니다.

저도 전적으로 동의합니다. 1저자의 의견에 전적으로 따르겠습니다.

jisungyoon commented 5 years ago

이건 제 사견이지만 이런 작업에서 노가다를 직접 하는건 대부분 1저자입니다. 그리고 1저자가 할 의사가 없다면 데이터를 다시 만지자고 제가 감히 말할 수 없는 부분인 것 같습니다. 하지만 조금 과감해져도 괜찮을 것 같네요. 다만 다시 시작하기 전에 방법론을 살짝 한번 정리하고, 멈춤 없이 쭉 가보죠.

미리 말씀드리면, 논문의 방향에 관하여 가장 많은 목소리를 내야 하는 사람도 1저자입니다. 특히 데이터 등 세부 내용을 가장 잘 알기 때문에... 다만 다른 사람들이 학계의 흐름이나 다른 연구현황 등을 토대로 방향에 대한 의견을 내는 거지요. 즉 논문은 1저자의 것입니다.

저도 전적으로 동의합니다. 1저자의 의견에 전적으로 따르겠습니다.

사실 사용할 수 있는 컴퓨팅 자원을 좀 더 사용하면 가능 할 수 있습니다. 이미 분석 코드는 완성된 터라 그렇게 제가 할일이 많지는 않습니다. 혹시 가능한 자원이 있을까요?

bluekura commented 5 years ago

사실 사용할 수 있는 컴퓨팅 자원을 좀 더 사용하면 가능 할 수 있습니다. 이미 분석 코드는 완성된 터라 그렇게 제가 할일이 많지는 않습니다. 혹시 가능한 자원이 있을까요?

음... 지금 제가 남는 자원은 없는데...

bluekura commented 5 years ago

지금 남는거라곤 8코어 + 64기가 메모리짜리 작은 서버 한개 뿐인데... 이건 큰 도움이 안되겠죠...

jisungyoon commented 5 years ago

지금 남는거라곤 8코어 + 64기가 메모리짜리 작은 서버 한개 뿐인데... 이건 큰 도움이 안되겠죠...

쓸 수 있으면 도움이 될 것 같습니다. 그리고 연구실 컴퓨터도 동원하면 어떻게 될 것 같습니다. 어차피 나중에 코맨트가 와서 고치는 것 보다 지금 하는게 좀 더 나을 것 같다는 생각이 드내요. 가장 최근 데이터부터 받기 시작하겠습니다.

bluekura commented 5 years ago

203.250.228.179

  1. 기존의 203.250.228.192 서버 경유해서 접속하시면 됩니다.
  2. id: balla / pw: 윤지성! 비밀번호 바로 바꿔주세요.
  3. 8코어가 아니라 4코언데 HT 있으니 8 thread 쓰셔도 되고, 개별 코어는 4.0GHz라서 기존 서버보다 빠를겁니다.
  4. home은 6TB
  5. sudo 권한 드렸으니 자유롭게 쓰세요. 사실 거의 백지상태 서버라서 마음대로 쓰시고 밀어버리면 됩니다.

윤진혁 드림.

bluekura commented 5 years ago

일단 올해 과제 열리면 작은 서버라도 하나 사서 더 열어드릴 수 있나 찾아보겠습니다.

jisungyoon commented 5 years ago

일단 올해 과제 열리면 작은 서버라도 하나 사서 더 열어드릴 수 있나 찾아보겠습니다.

1-30위 권의 위키는 원래 서버에서 작업하고, 나머지 위키는 새로운 서버에서 작업한 뒤 합치면 될 것 같습니다. 혹시 컴퓨터나 세부 셋팅이 달라서 결과가 달라지거나 하지는 않겠죠?

bluekura commented 5 years ago

python은 괜찮을겁니다. 그리고 어차피 둘다 비슷한 세대 인텔 CPU라 큰 차이도 없을겁니다 :>

bluekura commented 5 years ago

혹시 기존 서버에 SSD하나 증설해드리면 도움될까요? 새 서버에도 256GB ssd가 하나 달려있긴 합니다.

wsjung77 commented 5 years ago

물리학과에 이야기해서, 별로 자원 안 남아있겠지만, 학과와 APCTP 서버도 사용 가능한지 확인하세요.

jisungyoon commented 5 years ago

혹시 기존 서버에 SSD하나 증설해드리면 도움될까요? 새 서버에도 256GB ssd가 하나 달려있긴 합니다.

용량은 그렇게 부족하지 않을 것 같습니다.
그러면 지금 저장 되어 있는 sql 데이터 경우는 어떻게 처리할까요? 모두 드랍하면될까요?

이 참에 깃헙 소스도 관리할 겸 한번 쭉 정리하는 것도 나쁘지 않을 것 같습니다.

bluekura commented 5 years ago

혹시 기존 서버에 SSD하나 증설해드리면 도움될까요? 새 서버에도 256GB ssd가 하나 달려있긴 합니다.

용량은 그렇게 부족하지 않을 것 같습니다. 그러면 지금 저장 되어 있는 sql 데이터 경우는 어떻게 처리할까요? 모두 드랍하면될까요?

이 참에 깃헙 소스도 관리할 겸 한번 쭉 정리하는 것도 나쁘지 않을 것 같습니다.

아예 새로 하실거면 드랍하셔도 될 것 같습니다.

jisungyoon commented 5 years ago

혹시 기존 서버에 SSD하나 증설해드리면 도움될까요? 새 서버에도 256GB ssd가 하나 달려있긴 합니다.

용량은 그렇게 부족하지 않을 것 같습니다. 그러면 지금 저장 되어 있는 sql 데이터 경우는 어떻게 처리할까요? 모두 드랍하면될까요? 이 참에 깃헙 소스도 관리할 겸 한번 쭉 정리하는 것도 나쁘지 않을 것 같습니다.

아예 새로 하실거면 드랍하셔도 될 것 같습니다.

데이터를 받아야 하는 거면 가장 최신의 위키로 진행하겠습니다.

jisungyoon commented 5 years ago

이 이슈는 닫아도 될까요? @bluekura @wsjung77

bluekura commented 5 years ago

Sure :>