worldoss / ocean

7 stars 4 forks source link

분석 데이터 선정 및 수집 #8

Open martinyoo opened 7 years ago

martinyoo commented 7 years ago
martinyoo commented 7 years ago

분석 대상 필드를 토의를 했으면 합니다.

토의 시작을 위하여 @worldoss/hanyang 에서는 분석대상 필드를 본 Issue Thread 내 등록하여 주시기 바랍니다.

rlrlaa123 commented 7 years ago
Github API에서 repository search 요청을 보냈을 때 Response로 받는 정보들중 분석에 필요할 것 같은 필드와 필요하지 않을 필드를 나누어 보았습니다. 확정본이 아니라 함께 공유하고 더 토의해보고자 하는 목적으로 작성했습니다.

Repository Search Link: https://api.github.com/search/repositories?q=stars:>1&per_page=100

Github-API

github_api

포함시킬 필드

포함시킬 필드 후보군

  1. id
  2. full_name: 유저 이름과 저장소 이름 user/repos
  3. owner_id: Owner 테이블의 Foreign Key
  4. html_url: Http 주소
  5. description: 저장소에 대한 설명
  6. fork: 다른 저장소로 부터 Fork 된 저장소면 True, 그렇지 않으면 * False 값이다
  7. url
  8. forks_url: Fork한 유저 정보들을 불러오는 API 주소
  9. teams_url: Organization의 Team 정보들을 불러오는 API 주소
  10. issues_events_url: Issue에 관련된 모든 이벤트 정보들을 불러오는 API 주소
  11. events_url: 저장소에 관련된 모든 이벤트 정보들을 불러오는 API 주소 ex) watchEvent, createdEvent, forkEvent…
  12. assignees_url: Assignees 정보들을 불러오는 API 주소

    Assignees clarify who is working on specific issues and pull requests.

  13. branches_url: Branch 정보들을 불러오는 API 주소
  14. tags_url: Release 태그 정보들을 불러오는 API 주소
  15. contributors_url: 저장소의 Contributor 정보들을 불러오는 API 주소
  16. subscribers_url: 저장소를 Watching 하는 유저 정보들을 불러오는 API 주소
  17. commits_url: 저장소의 Commit 정보들을 불러오는 API 주소
  18. comments_url: 저장소의 댓글 정보들을 볼러오는 API 주소
  19. issue_comment_url: 저장소의 Issue 댓글 정보들을 불러오는 API 주소
  20. merges_url: 저장소들의 merge 정보들을 불러오는 API 주소
  21. issues_url: Issue에 대한 정보들을 불러오는 API 주소
  22. pulls_url: Pull에 대한 정보들을 불러오는 API 주소
  23. milestones_url: Issues 히스토리에 대한 정보들을 불러오는 API 주소
  24. labels_url: Issue Label 정보들을 불러오는 API 주소
  25. releases_url: Release 정보들을 불러오는 API 주소
  26. created_at
  27. updated_at
  28. pushed_at
  29. stargazers_count
  30. watchers_count
  31. language: 가장 많이 사용된 Language를 나타낸다
  32. has_issues: Issue 올리는 것을 허용할지 안할지 ex) True면 허용
  33. has_projects: Project 올리는 것을 허용할지 안할지 ex) True면 허용
  34. has_wiki
  35. has_pages
  36. forks_count
  37. open_issues_count

불포함시킬 필드

분석에 필요하지 않은 필드

  1. private
  2. keys_url: 보안키
  3. hooks_url: 저장소에 걸어놓은 Webhook 리스트 정보들를 불러오는 API주소

    Webhooks allow you to build or set up GitHub Apps which subscribe to certain events on GitHub.com.

  4. blobs_url
  5. Blobs leverage what kind of media type they will receive.
  6. trees_url: 디렉토리 구조
  7. statuses_url: 다른 서비스

    The Status API allows external services to mark commits with a success, failure, error, or pending state, which is then reflected in pull requests involving those commits.

  8. contents_url: 각각의 파일 정보들을 불러오는 API 주소
  9. compare_url: 두 Commit을 비교하는 정보들을 불러오는 API 주소
  10. downloads_url: 다운로드
  11. notifications_url: 현재 유저에 대한 Notification 정보들을 불러오는 API 주소
  12. clone_url: 다운로드
  13. homepage: 관련 홈페이지
  14. size: 전체 업로드 된 프로젝트 파일들의 파일 크기
  15. default_branch
  16. score: 검색 필터 일치도 값

중복되는 필드

  1. name
  2. svn_url: Http 주소
  3. forks: Fork 수
  4. open_issues: Open된 Issue의 수
  5. watchers: Watcher의 수

접근 권한이 필요한 필드

  1. collaborators_url: Push를 할 수 있는 유저들을 불러오는 API 주소
  2. subscription_url: 유저가 subscription 하고 있는 저장소들을 불러오는 API 주소
  3. ssh_url

Git 데이터 필드

  1. git_tags_url
  2. git_refs_url
  3. git_commits_url
  4. git_url

알수 없는 필드

  1. archive_url
  2. mirror_url
  3. deployments_url

    Deployments are a request for a specific ref (branch, SHA, tag) to be deployed. GitHub then dispatches deployment events that external services can listen for and act on. This enables developers and organizations to build loosely-coupled tooling around deployments, without having to worry about implementation details of delivering different types of applications (e.g., web, native).

Github-Archive

git_archive

jongggg commented 7 years ago

데이터베이스 구축 시 우선적으로 모든 변수에 대한 데이터를 저장

• 데이터베이스 구축을 위한 필드 식별 진행중

paulkimds commented 7 years ago

분석 대상 저장소 선정 방안에 대한 논의가 완료되었고, 저장소 수집을 위한 소스 코드를 'Merge'하였기에 본 이슈는 'Close' 합니다. 분석 대상 데이터의 DB 구축 진행을 위해 Issue #20 'Open' 하였습니다.

martinyoo commented 7 years ago

OSS 라이센스를 분석대상에 포함할 것을 검토 요청합니다.

Star를 많이 받은 글로벌 Top 프로젝트에 비해 국내 Top 프로젝트 들은 라이센스 분포 상 어떤 차이가 있는지? 알면 정책적 시사점이 나올 수 있습니다.

기존의 라이센스 통계는 Top 프로젝트 기준이 아니며, 더군다나 국내 커뮤니티의 라이센스 통계는 아직 못 본것 같습니다.

라이선스를 분석해서 어떤 연구가 가능한지는 첨부 논문의 'OSS라이선스 역할' 을 참조해 주십시요. 경제학이 오픈소스 소프트웨어에 대해 알고 있는 것.pdf