boostcampaitech2 / mrc-level2-nlp-04

mrc-level2-nlp-04 created by GitHub Classroom
4 stars 5 forks source link

Code Analysis #10

Open sangmandu opened 2 years ago

sangmandu commented 2 years ago

Purpose

전반적으로 누군가 코드를 수정하고, 제시할 때 전체적인 흐름을 알고있어야 그에 대한 협업과 검토 및 피드백이 가능할 것 같아서 수행합니다. 여러분의 아이디어 구현에 있어서 제가, 그리고 이 글을 읽으신 분이 적극적으로 검토할 수 있는 능력을 얻기를 바랍니다. 어떤 아이디어는 아니므로 직접적인 성능 향상에 도움이 되지는 않지만 서로의 코드를 적극적으로 검토하고 구현에서 도움이 될 수 있도록 해서 간접적인 발전을 위해 작성합니다.

이 분석은 베이스라인 코드를 기준으로 설명할 것이며, 이를 위한 Code Anyalysis(never-merged) Branch를 마련해 두었습니다. github source와 hugging face documnet에 대한 전반적인 이해를 기반으로 작성했으나, 이를 모두 작성하기에는 가독성이 떨어져 최대한 핵심이 녹아들게 요약했습니다. 이에 대한 질문, 그리고 더 나아가 본인이 추가적으로 구현하려는 코드에서의 질문은 언제나 환영입니다. 오탈자나 잘못된 개념 정정도 환영입니다.

Brief

현재 베이스라인 코드분석은 main branch에 업로드 되어 있습니다.Code Anyalysis(never-merged)` Branch는 코드 보관의 목적으로만 사용합니다. 코드 분석의 목차는 Train, Retrieval, Inference의 3가지 Parts를 기준으로 설명합니다. 코드 분석 링크

┌ Train
│  ├─── Main
│  ├─── Argument & Model loading
│  ├─── MRC
│  ├─── Preprocessing
│  ├─── Data Collator
│  ├─── Metric
│  ├─── Train
│  ├─── Postprocessing
│
└ Inference
   ├─── Equal to Train
   ├─── Call Retriever
   ├─── Retriever

Expected

현재 예상되는 코드 분석 기간은 다음과 같습니다.