Feedback - Githubissues

ratsgo / nlpbook

pratical tips for Natural Language Processing

Other

100 stars 28 forks source link

Home 부터 Preprocess 까지의 피드백입니다.

introduction

colab 은 Colab 으로 기술하는 것 같습니다. 관련 코드 이 책에서 colab 으로 부르던데 Colab 으로 수정하는게 좋을 듯 합니다.

introduction > deep learning

이 장에서는 f 라는 함수 구조를 이야기 한 뒤, 곧바로 딥러닝이란 용어를 이용합니다. 그래서 마치 f = deep learning 처럼 읽혀집니다. 2010년대 이후 딥러닝이 각광받는다는 표현 근처에 딥러닝과 딥러닝이 아닌 모델을 구분하는 설명을 간단히 적어주면 좋을 듯 합니다.
이 책의 독자는 ML 모델에 대한 이해가 깊지 않은 분들이라 들었습니다. 이를 고려할 때 그림 2는 독자들이 이해하지 못할 가능성이 있는 그림이라 생각됩니다.

introduction > transfer learning

표현 수정: 간결체
(이전) 다시 말해 자연어 입력을 받아 해당 입력이 어떤 범주에 해당하는지 확률 형태로 ~반환한다는 이야기입니다.~
(제안) 다시 말해 자연어 입력을 받아 해당 입력이 어떤 범주에 해당하는지 확률 형태로 반환합니다.
표현 수정: 간결체
(이전) 그림6은 문서 분류를 수행하는 모델을 ~도식적으로 나타낸 것입니다.~
(제안) 그림6은 문서 분류를 수행하는 모델의 도식입니다.
부사 수정, 표현 수정, 이 부분은 다른 태스크들과 공통으로 문장형식을 맞추셨기에 수정 시 통일하여 수정하면 좋을 듯 합니다.
(이전) ~구체적으로는~ 프리트레인을 마친 마스크 언어모델(그림6에서 노란색 박스 이하 모듈) 위에 작은 모듈을 하나 더 쌓아 문서 전체의 범주를 ~분류하는 방식입니다.~
(제안) 이를 위해 프리트레인을 마친 마스크 언어모델(그림6에서 노란색 박스 이하 모듈) 위에 작은 모듈을 하나 더 쌓아 문서 전체의 범주를 분류합니다.
표현 수정: 간결체
(이전) 그림7은 개체명 인식을 수행하는 ~모델을 나타냈습니다.~
(제안) 그림7은 개체명 인식을 수행하는 모델입니다.
링크 주소 변경. 이전 문서 위치로 링크가 되어 있음 코드
표현 수정: 업데이트 유무를 기술해 주면 더 좋을 듯 합니다.
(이전) 제로샷러닝(zero-shot learning) : 다운스트림 태스크 데이터를 전혀 사용하지 않습니다. 모델이 바로 다운스트림 태스크를 수행합니다.
(제안) 제로샷러닝(zero-shot learning) : 다운스트림 태스크 데이터를 전혀 사용하지 않습니다. 모델이 추가적인 업데이트 없이 바로 다운스트림 태스크를 수행합니다.

introduction > pipeline

오타
(이전) 제일 짧은 0번 인스턴스(3개)에 맞춰 7번, 7번 인스턴스의 길이를 짧게 만들어 주어야 합니다.
(제안) 제일 짧은 0번 인스턴스(3개)에 맞춰 7번, n번 인스턴스의 길이를 짧게 만들어 주어야 합니다.

preprocess > byte pair encoding

문서 타이틀에 ↗️ 글자가 추가되어 있습니다.
목적어 수정
(이전) 데이터에서 가장 많이 등장한 문자열을 병합해 ~문자열을~ 압축하는 기법입니다.
(제안) 데이터에서 가장 많이 등장한 문자열을 병합해 문자열로 이뤄진 데이터를 압축하는 기법입니다.
(혹은) 데이터에서 가장 많이 등장한 문자열을 병합해 데이터를 압축하는 기법입니다.
BPE 의 압축률은 사전 크기, 데이터 길이에 더하여 사전 내 단어의 크기와도 관계가 있습니다. aaabdaaadac 를 Z 로 만들면 길이가 1인 데이터가 만들어지지 않느냐는 질문이 생길 수 있습니다. 또한 처음에 aa 를 병합하는 것이 아니라 aaa 를 병합하면 더 짧아지지 않느냐는 질문, 2번째 병합 시 ab 가 아닌 Za 를 병합하면 어떻게 되느냐 (tie) 의 질문이 나올 것 같습니다. 아래처럼 예시와 설명을 바꾸면 어떨까요?
aaabdaaabacabaa

바이트 페어 인코딩은 데이터에 등장한 글자를 사전으로 구성하며, 연속된 두 글자를 한 글자로 병합합니다. 이 문자열에서는 aa 가 가장 많이 등장하였으므로 이를 Z 로 병합(치환)하면 위의 문자열을 다음과 같이 압축할 수 있습니다.

ZabdZabacabZ

이 문자열은 한번 더 압축 가능합니다. 살펴보니 ab 가 가장 많이 나타났으므로 이를 Y 로 병합(치환)합니다. 다음과 같습니다.

ZYdZYacYZ

BPE 수행 이전에는 원래 데이터를 표현하기 위한 사전은 길이가 1인 3개 글자(a, b, c)로 구성되었습니다. 수행 이후엔 그 크기가 5개(a, b, c, Z, Y)로 늘었습니다. 반면 데이터의 길이는 15개에서 9로 줄었습니다. 길이가 2인 글자를 추가하여 (+2 x 2) 길이를 -6 으로 줄였습니다. 이처럼 BPE는 사전 크기를 지나치게 늘리지 않으면서도 각 데이터를 효율적으로 압축할 수 있도록 합니다.


- `바이트 페어 인코딩` 세부 챕터와 `BPE 어휘 집합 구축` 세부 챕터의 내용이 겹칩니다. `BPE 어휘 집합 구축` 내 각 단계의 디테일을 위의 `Z`, `Y` 가 만들어진 경우로 설명한 듯 합니다. 이 책의 설명 상세 수준을 본다면 `바이트 페어 인코딩` 의 수준을 중심으로 통합하는게 좋을 듯 합니다. 통합한다면 위의 예시에서 `Z`, `Y` 의 빈도수를 중심으로 아래와 같은 예시를 만들어 주는게 어떨까요?
- 워드피스에서 likelihood 개념과 확률의 독립 가정이 나옵니다. 이 부분은 확률을 아시지 않는 분들이라면 이해하기 매우 어려운 표현이라 생각합니다. 확률 표현을 사용하려면 아래처럼 표현을 고치는게 어떨까요?
- (제안) 코퍼스의 라이클리후드(Likelihood)라는 새로운 기준으로 글자쌍을 병합합니다. 단순한 빈도수가 아니라 다음처럼 수식을 통해 얻어진 값이 가장 높은 글자쌍을 선택합니다. `log(#ab/N) - log(#a/N) - log(#b/N)`, `#a` 는 a 의 빈도수, `N` 은 현재 데이터의 글자 길이
- (제안) 독립성 가정 부분 (다시 말해 ~ 병합을 수행합니다) 는 확률 개념을 아시는 분들에게만 도움이 될 부분으로 생각됩니다.
- 다음 문장 뒤에 추가 문장을 넣으면 어떨까요?
- (이전) 워드피스는 어휘 집합(vocab.txt)만 가지고 토큰화를 실시합니다.
- (제안) 워드피스는 어휘 집합(vocab.txt)만 가지고 토큰화를 실시합니다. 그래서 토크나이저 학습 후에도 바이트 패어 인코딩을 이용하는 토크나이저는 `merges.txt` 와 `vocab.txt` 라는 두 개의 파일이 만들어지지만, 워드피스 토크나이저는 `vocab.txt` 파일만 만들어집니다.
- 어미 통일
- (이전) 서브워드가 포함돼 있을 경우 해당 서브워드를 어절에서 ~분리한다~(최장 일치 기준). 
- (제안) 서브워드가 포함돼 있을 경우 해당 서브워드를 어절에서 분리합니다(최장 일치 기준).

preprocessing > vocab tutorial

vocab tutorial -> Tutorial for training tokenizer
환경과 관련된 부분이 이번 소챕터와 tokenization tutorial 소챕터에 모두 등장합니다. Introduction 을 꼭 참고하라고 강조하는 것으로 정리하는게 더 좋을 듯 합니다.
개인적인 추천으로는 코드 4에서의 드라이브 내 폴더 이름에 공백이 없는게 어떨까 싶습니다. 공백이 있으면 혹시 OS 별로 예상치 못한 방향으로 작동할까봐요
어미 통일. 같은 패턴이 "BERT 토크나이저 구축" 부분에도 있습니다.
(이전) 학습 말뭉치는 files라는 인자에 리스트 형태로 ~집어 넣으면 되고요~.
(제안) 학습 말뭉치는 files라는 인자에 리스트 형태로 입력합니다.
어체 수정
(이전) 각각의 역할에 대해서는 이전 장을 ~참고하시면 좋을 것 같습니다~.
(제안) 각각의 역할에 대해서는 이전 장을 참고하세요.
링크 수정: BERT는 워드피스 토크나이저를 사용합니다. 문장에서 워드피스 부분의 링크 주소가 깨졌습니다.

preprocessing > tokenization tutorial

Tokenization tutorial -> Tutorial for tokenizing texts
어미 통일.
(이전) 누군가가 구축해 놓은 결과를 ~사용해도 되고요~, 독자 여러분이 가진 말뭉치로 직접 만든 걸 써도 됩니다.
(제안) 누군가가 구축해 놓은 결과를 사용하거나, 독자 여러분이 가진 말뭉치로 직접 만든 걸 써도 됩니다.
이번 소챕터에서 유독 preprocess > tokenization 소챕터와 다른 말투의 표현들이 자주 등장하여 따로 쓰인 챕터처럼 어투가 느껴집니다. 하나의 어투로 다듬어지면 더 좋을 듯 합니다.
오타
(이전) 코드4와 표1은 GPT 토크나이저의 토큰화 결과를 살짝 맛보기 위해 설명한 것인데요. 실제 모델 입력값은 ~코드3~으로 만듭니다.
(제안) 코드4와 표1은 GPT 토크나이저의 토큰화 결과를 살짝 맛보기 위해 설명한 것인데요. 실제 모델 입력값은 코드4로 만듭니다.
패딩 토큰 설명 추가. 다음 문장 뒤에 추가 문장이 있으면 더 좋을 듯 합니다.
(이전) 패딩 토큰이 자리한 곳(=0)을 구분해 알려주는 장치입니다.
(제안) 패딩 토큰이 자리한 곳(=0)을 구분해 알려주는 장치입니다. 패딩 토큰은 문장들의 길이를 맞추기 위한 더미 단어 역할을 합니다. 이후 모델들은 패딩 토큰을 무시하며 과업을 수행합니다.

Language model 챕터의 리뷰입니다

language model > pretrained LM
- language model 소개 장 과 이 장에서 몇 단어에 대한 공백 및 영어 표현의 capital 이 혼용되고 있습니다. 언어모델 (Language Model) 이라는 표현과 미리 학습된 언어 모델 (pretrained language model) 의 공백과 영어 첫 글자의 대소문자 유무를 통일하면 좋을 듯 합니다. 이후 내용들에서도 병렬 표기 시 고유 명사가 아니면 소문자를 이용하는 듯하니 이 방향으로 통일하면 어떨까요
- 표현 수정. chaning 은 임의의 정의일 뿐 명제가 아닙니다.
- (이전) 결합확률과 조건부 확률 사이에는 밀접한 관련이 있습니다. 예컨대 𝑃(𝑤1,𝑤2,𝑤3)=𝑃(𝑤1)×𝑃(𝑤2|𝑤1)×𝑃(𝑤3|𝑤1,𝑤2) ~입니다.~
- (제안) 결합확률과 조건부 확률 사이에는 밀접한 관련이 있습니다. 예컨대 𝑃(𝑤1,𝑤2,𝑤3)=𝑃(𝑤1)×𝑃(𝑤2|𝑤1)×𝑃(𝑤3|𝑤1,𝑤2) 로 정의할 수 있습니다.
- 표현 수정. 위와 같은 맥락입니다.
- (이전) 그런데 이미 우리는 수식3의 ~좌변과 우변이 동치임을 확인했습니다.~
- (제안) 그런데 이미 우리는 수식3의 좌변을 우변으로 정의했습니다.
- 오타 수정. (마스크 언어모델 부분)
- (이전) ~BER~가 마스크 언어모델로 프리트레인되는 대표적인 모델입니다. 그림3은 마스크 언어모델을 도식적으로 그린 그림입니다.
- (제안) BERT가 마스크 언어모델로 프리트레인되는 대표적인 모델입니다. 그림3은 마스크 언어모델을 도식적으로 그린 그림입니다.
- 스킵-그램과 언어모델의 관계성 추가 기술: 다음의 문장을 추가하면 더 좋을 거 같아요
- (이전) 2012년 구글에서 발표한 단어 수준 임베딩 기법인 Word2Vec이 스킵-그램 모델 방식으로 학습합니다.
- (제안) 2012년 구글에서 발표한 단어 수준 임베딩 기법인 Word2Vec이 스킵-그램 모델 방식으로 학습합니다. 이 기술은 단어 임베딩의 하나이지만, 넓은 의미로 문맥을 이용하여 단어를 예측하는 언어모델에 포함됩니다.
- 어미 수정
- (이전) 큰 언어모델에 학습 대상 언어의 풍부한 맥락이 내재화되어 있다는 점은 의심할 여지가 ~없는 것 같습니다.~
- (제안) 큰 언어모델에 학습 대상 언어의 풍부한 맥락이 내재화되어 있다는 점은 의심할 여지가 없습니다.
- 어미 수정
- (이전) ~또다른~ 이유는 트랜스퍼 러닝(Transfer Learning)을 꼽을 수 ~있을 것 같습니다.~
- (제안) 또 다른 이유는 트랜스퍼 러닝(Transfer Learning)을 꼽을 수 있습니다.
language model > Transformers
- Transformers 는 패키지 이름, Transformer 는 모델이름이니 이 소챕터의 제목은 Transformer 여야 하지 않을까요?
- 표현 수정. 이 책에서 형태소 분석에 대한 이야기를 한 적이 없으니 다음처럼 수정하는게 어떨까요?
- (이전) 그림2에서는 ... ~형태소 분석을 실시한~ 결과를 나타내고 있습니다.
- (제안) 토크나이징 결과를 나타내고 있습니다.
- 표현 수정.
- (이전) 다만 마스크(mask)를 적용한 멀티헤드 어텐션이 ~인코더 쪽과 다른 점이고~, ~인코더 쪽에서 넘어온 정보와 디코더 입력에 멀티헤드 어텐션을 수행~하는 모듈이 추가됐습니다.
- (제안) 다만 마스크(mask)를 적용한 멀티헤드 어텐션이 인코더와 다르고, 인코더 결과와 디코더 입력을 함께 이용하여 멀티헤드 어텐션을 수행하는 모듈이 추가됐습니다.
- 표현 추가. CNN 이 처음 나왔으므로, conv. filter 가 구성요소라는 걸 표현하는 문장을 넣으면 좋을 듯 합니다.
- (이전) CNN은 시퀀스의 지역적인 특징을 잡아내는 ~데 유리한~ 모델입니다.
- (제안) CNN은 컨볼류션 필터라는 특수한 필터를 이용하여 시퀀스의 지역적인 특징을 잡아내는 모델입니다. 컨볼루션 필터는 데이터의 인접한 일부분만을 확인하는 필터입니다.
- 어미 수정
- (이전) 특정 단어 정보를 과도하게 반영해 전체 정보를 왜곡하는 경우가 ~자주 생긴다는 것입니다.~
- (제안) 특정 단어 정보를 과도하게 반영해 전체 정보를 왜곡하는 경우가 생깁니다.
- 어미 수정, 문장 순서 변경 (RNN과 비교 부분)
- (이전) 기계 번역시 소스 언어의 문장을 인코딩할 때 RNN을 ~사용했다고 칩시다.~ 이 경우 인코더가 디코더로 넘기는 정보는 ... ~RNN은 입력 정보를 순차적으로 처리하기 때문입니다.~
- (제안) RNN은 입력 정보를 순차적으로 처리합니다. 그렇기에 기계 번역시 소스 언어의 문장을 인코딩할 때 RNN을 사용한다면 인코더가 디코더로 넘기는 정보는
- 표현 수정
- (이전) 한편 어텐션과 셀프 어텐션이 다른 지점이 있다면 기존 어텐션은 RNN 구조를 보정하기 위해 제안된 아키텍처라면, 셀프 어텐션은 RNN을 제거하고 아예 어텐션으로만 인코더 디코더 구조를 만들었다는 점입니다.
- (제안) 어텐션은 인코더와 디코더 사이의 단어 간 정보를 연결하기 위해 사용됩니다. (예: attention(카페, cafe)), 셀프 어텐션은 인코더나 디코더 각각의 입력 문장 내 단어 간 정보를 연결하기 위해 사용됩니다. (예: self-attention(어제, 카페))
language model > Transformers > self attention
- 표현 수정. 피동 제거
- (이전) 수식3은 수식1의 입력 벡터 시퀀스 가운데 첫번째 입력 벡터( 𝐗1 )로 쿼리를 ~만들어보는~ 예시입니다.
- (제안) 수식3은 수식1의 입력 벡터 시퀀스 가운데 첫번째 입력 벡터( 𝐗1 )로 쿼리를 만드는 예시입니다.
- 표현 수정: 토큰 시퀀스가 인덱스 시퀀스로 변한다는 부분이 있습니다. 토크나이저와 트랜스포머의 역할을 명확히 분리하여 기술하는게 좋을 듯 합니다. 이 내용을 처음 보시는 분들이라면 용어가 혼용되면 내용이 햇갈릴 듯 합니다. 그리고 모델의 입력, 출력 관계를 강조해주는 것도 도움이 될 듯 합니다.
- (이전) ~어쨌든 소스 언어의~ 토큰 시퀀스가 어제, 카페, 갔었어라면 ~추가~ ~인코더 입력층의 직접적인 입력값은 이들 토큰들에 대응하는 인덱스 시퀀스가 되며 인코더 입력은 그림3과 같은 방식으로 만들어집니다.~ ... (중략) ... 트랜스포머 모델은 이같은 방식으로 소스 언어의 ~토큰 시퀀스~를 이에 대응하는 벡터 시퀀스로 변환해 인코더 입력을 만듭니다. 디코더 입력 역시 만드는 방식이 동일합니다.
- (제안) 번역기의 입력 언어의 토큰 시퀀스가 어제, 카페, 갔었어라면 토크나이저에 의하여 변환된 인덱스 시퀀스가 입력 임베딩과 위치 정보 과정을 거쳐 인코더 입력층에 입력됩니다. ... (중략) ... 트랜스포머 모델은 이같은 방식으로 입력 언어 토큰의 인덱스 시퀀스를 이에 대응하는 벡터 시퀀스로 변환해 인코더 입력을 만듭니다. 디코더 입력 역시 만드는 방식이 동일합니다.
- 표현 통일.
- embedding, query, key, value 네가지 모두 이 행렬은 태스크(예컨대 기계번역)를 가장 잘 수행하는 방향으로 학습 과정 중 업데이트됩니다. 라는 문장이 붙어 있습니다. 수식 8 이후에 한 번에 몰아서 네 종류의 행렬이 모두 학습 과정 중 업데이트 된다고 정리하여 표현하는게 어떨까요?
- 단어 수정. 다이내믹스는 이 장에서 정의되지 않은 표현입니다. 문맥적 관계성 (이것도 모호하지만) 등의 표현으로 바꾸는게 어떨까요? 이후에도 다이내믹스라는 표현이 계속 나오는데, 더 명료한 단어로 변경하는게 좋을 듯 합니다.
- (이전) 수식10 우변에 있는 벡터의 첫번째 요소값은 첫번째 쿼리 벡터와 첫번째 키 벡터 사이의 ~다이내믹스가~ 녹아든 결과입니다.
- (제안) 수식10 우변에 있는 벡터의 첫번째 요소값은 첫번째 쿼리 벡터와 첫번째 키 벡터 사이의 문맥적 관계성이 녹아든 결과입니다.
- transpose 설명 위치 변경
- 여기에서 전치란 원래 행렬의 행(row)과 열(column)을 교환해 주는 걸 뜻합니다. 문장이 transpose 단어가 두번째로 등장할 때 나타나는데, 이를 transpose 가 처음 사용되는 문장 뒤로 이동하는게 어떨까요
- 그림 6, 7 의 multiplication 이라는 부분이 처음 보시는 분들은 무엇의 곱인지 한참 고민하실 듯 합니다. score * value 라고 표현해주는게 어떨까요? 그리고 addition 역시 self-attention result 라고 표현해주는게 어떨까요? 이 장에서는 self-attention 만 다루기에 해당 결과가 additional value 라는 내용을 암시할 필요는 없을 듯 합니다.
- 수정이 어려울 것 같기는 하지만, 설명을 위해 수치를 단순화 한 것은 좋지만 수식 17의 결과가 [0, 0.8, 0.2] 가 아닌 [0, 0.9, 0.1] 로 바뀌다보니 단순화된 수치들을 따라다니며 확인하기가 어려웠습니다. 가능하다면 계산 결과와 가장 가까운 숫자로 바꾸는 것이 더 좋을 듯 합니다.
- "셀프 어텐션 내부 동작" 이라는 챕터의 내용이 방대하여 흐름을 끊어주는게 좋을 듯 합니다. 1) 입력값을 query, key, value 로 만들기, 2) self-attention 확률값 계산하기, 3) 첫 번째 단어의 self-attention 출력값 계산하기, 4) 두 번째 단어의 self-attention 출력값 계산하기 5) 코드로 살펴보기 로 정리하면 좋을 듯 합니다. 세번째 단어에 대한 self-attention 부분은 아래에 코드도 있고, 위의 내용들과 다수 중복되니, 없어도 괜찮을 듯 합니다.
- 코드 부분의 소수점 출력 부분은 set precision 을 이용하면 더 깔끔하게 표현될 듯 합니다.
- 표현 수정: source 와 target 간의 attention 은 self-attention 이 아니라 attention 으로 표현하는게 정확합니다.
- (이전) 그 다음은 ~두번째 셀프 어텐션을~ 보겠습니다.
- (제안) 그 다음은 디코더와 인코더 사이의 어텐션을 살펴봅니다.
- 그리고 이 쳅터가 self-attention 이기 때문에 이 부분이 필요한 부분인지는 고민이 됩니다. self-attention 과 챕터를 분리하는게 어떨까요? 아니면 디코더에서의 self-attention 과 인코더 - 디코더에서의 attention 으로 챕터를 분리하는게 어떨까요?
- 불필요한 영어 표현 수정
- 이 장에서 "소스 언어", "타겟 언어" 라는 표현이 있습니다. 문장생성 관련된 ML 지식이 많이 없으신 분들은 한 번 외워야 하는 개념이니 "번역의 입력 언어(source)와 출력 언어(target)" 정도로 수정하고, 각각을 "입력 언어", "출력 언어 (혹은 번역 언어)"로 풀어서 설명해주는게 어떨까요? 이 장은 이미 내용이 많이 복잡하여 가능한 단어도 풀어 써주는게 반드시 필요할 듯 합니다.
language model > Transformers > technics
- feed forward 부분의 상세도는 다른 장들과 맞지 않아 보입니다. self-attention 은 Transformer 의 핵심적인 부분이기에 그나마 간단한 예시로라도 살펴보는 게 의미있지만, feed forward 부분을 굳이 디테일하게 예시 코드와 함께 볼 필요가 있을까 싶습니다. 이 레이어의 역할은 두 번의 벡터 차원 변환을 통하여 Transformer block output 을 정제한다 정도의 추상적인 표현으로 바꿔도 어떨까 싶습니다. 독자 입장에서는 책에 수식이 나오면 모두 알아야 할 것 같은 압박감이 들 수 있을 것 같아요. 거기에 활성함수와 같은 설명되지 않은 개념들이 계속 등장하니까요. 상세도의 수준은 이 장의 드롭아웃이나 옵티마이저의 수준에 맞추는게 어떨까요?
- layer norm 의 부분에서 initialized value 가 N(0, 1) 이어서 변화가 없어 보이는데, 다른 값으로 custom initialize 하여 차이를 보여주면 더 좋을 거 같아요
기타
- 음 제가 세부 챕터 내용들을 이번에 첨 보는데, Language Model > Transformer > self attention, technics 의 양이 전체 책의 2/7 정도가 될거 같은데, 이거 괜찮은건가요? 내용이 디테일한 건 좋지만, 챕터 구성을 할 때 transformer 내 소소챕터가 아니라 appendix chapter 로 빼는게 독자들이 앞에서 뒤로 쭉 읽을 때 방해가 안될거 같단 생각이 드네요
- 그리고 이 장을 제외한 다른 장들과 깊이 측면에서 불균형이 있어 보입니다. 설명이 어려운게 아니라 내용 자체가 다른 부분들보다 월등히 어려워서 ㅠㅜ
language model > bert & gpt
- 그림 1 의 GPT 예시에서 "많더라" 부분에 mask 를 취하면 이해가 되 잘 될거 같아요
- reference 수정
- (이전) 이와 관련해 자세한 내용은 3-2-1장 Self Attention을 ~추가~ 참고하시기 바랍니다.
- (제안) 이와 관련해 자세한 내용은 3-2-1장 Self Attention의 데코더에서 수행하는 셀프 어텐션을 참고하시기 바랍니다.
- 그림 13, 14 의 각 모델들을 간단히 설명해주는 것도 좋을 듯 합니다. "그림 13 은 모든 레이어를 거치지 않고 앞단의 몇 개의 레이어만 거쳤을 경우에도 정보가 충분하면 거기까지만 한다" 같이요
- 새로운 구조의 언어모델의 표현이 모호합니다. 새로운 학습 방법이라는 표현이 좀 더 좋지 않을까요?
- (이전) 트랜스포머 아키텍처에서 벗어나 새로운 구조의 언어모델도 고안되고 있습니다. 그림15는 GAN 방식을 차용한 언어모델, 일렉트라(electra)를 도식적으로 나타낸 그림입니다.
- (제안) BERT와 같은 masked language model 이 아닌 다른 학습 방법을 이용하는 모델도 있습니다. 그림 15의 일렉트라(Electra)는 GAN 방식을 차용하여 트랜스포머 인코더로부터 출력된 각 단어들이 실제 단어와 일치하는지를 판단하는 generator-discriminator 방식으로 학습합니다.
language model > embedding tutorial
- 어미 수정
- (이전) 마지막 블록 CLS 벡터는 문장 전체(이 영화 재미없네요)의 의미가 벡터 하나로 응집된 ~것이라고 할 수 있겠습니다.~
- (제안) 마지막 블록 CLS 벡터는 문장 전체(이 영화 재미없네요)의 의미가 벡터 하나로 응집되었다 해석할 수 있습니다.
- 어미 수정
- (이전) 이 챕터에서는 프리트레인을 마친 BERT 모델에 문장을 입력해서 이를 벡터로 변환하는 실습을 ~해보도록 하겠습니다.~
- (제안) 이 챕터에서는 프리트레인을 마친 BERT 모델에 문장을 입력해서 이를 벡터로 변환하는 실습 합니다.
- 여기서도 환경 관련 부분은 중복이니 제거하는게 좋을 듯 합니다.
표현 수정: 태운다는 표현은 업계 관용표현이니 정식 표현을 쓰는게 좋을 듯 합니다.
- (이전) BERT에 태우기
- (제안) BERT로 임베딩 벡터 구하기

그 외

document classification > overview

SEP token 의 역할도 "문장이 종결되었음을 표현하는 스페셜 토큰입니다"처럼 한 줄로 이야기해주면 좋을 듯 합니다.
표현 수정
(이전) 딥러닝 모델의 학습과 관련해서는 1장 Deep NLP 챕터를 참고하시면 좋을 것 같습니다.
(제안) 딥러닝 모델의 학습과 관련해서는 1장 Deep NLP 챕터를 참고하세요
단어 설명 수정. epoch 에 대한 설명을 한 적이 없었습니다. 여기서 간단히 설명해주는게 좋을 듯 합니다.
(이전) epochs : 학습 에폭 수. 3이라면 학습 데이터를 3회 반복 학습합니다.
(제안) epochs : 학습 데이터 반복 횟수. 3이라면 배치로 나뉘어진 학습 데이터를 전체를 3회 반복하며 학습합니다.
작은 부분이지만 팁 부분에서 ‘이어진 문서인지 여부 맞추기’도 있습니다. 에서 문서가 아니라 문장이라 표현하는게 좋지 않을까요? (next sentence prediction) 으로 정식 pre-train task 이름도 적어주면 더 좋을 듯 합니다.
로짓의 개념이 이 장에서 처음 나왔습니다. 간단한 설명을 해주는게 좋을 듯 합니다. 예를 들어 log(p/(1-p)) 의 수식으로 기술되며, 어떤 의미이다. 정도의 내용으로도 충분할 듯 합니다.

named entity recognition

아래 내용은 표현 방식을 바꾸는 게 어떨까요? 출력 = [P(PER|token), ... ] 이런식으로 prob. column vector 로 보여주면 눈에 더 잘 들어올 듯 합니다. 혹은 설명만으로 충분하니 없어도 될 것 같습니다.
현재 토큰이 인명(PER)일 확률, 현재 토큰이 지명(LOC)일 확률, 현재 토큰이 기관명(ORG)일 확률, 현재 토큰이 날짜(DAT)일 확률, 현재 토큰이 시간(TIM)일 확률, 현재 토큰이 기간(DUR)일 확률, 현재 토큰이 통화(MNY)일 확률, 현재 토큰이 비율(PNT)일 확률, 현재 토큰이 기타 수량표현(NOH)일 확률, 현재 토큰이 기타(NOH)일 확률, 현재 토큰이 어떤 개체명도 아닐 확률
그림 3이 sequential 이라는 느낌이 잘 들지 않습니다. x1 -> x11, y1 -> y11 으로 seqiential 이란 힌트를 주는게 더 좋지 않을까요?
document classification 부터 이 장까지 training 단계에서 tokens, labels 의 정보를 보여줄 때 padding 값을 모두 보여주고 있습니다. 종이책은 특히나 지면이 작은 만큼 [PAD] ... [PAD] 로 중략을 하는게 공통적으로 필요해 보입니다.
오타
(이전) 코드10으3 실행하면
(제안) 코드10을 실행하면
inference 4 에서 if "PER" in label: label = "인명" 과 같은 코드 부분이 있는데, if label[2:] == "PER" 이 더 좋은 표현 방식 아닐까요? 어자피 python string slicing 에서는 길이가 2보다 짧은 str 에 대해서는 empty str 이 return 되니 오류도 나지 않습니다.

document classification 부터 sentence generation 부분에서는 리뷰 입장에서 불편한 점과 독자 입장에서 공통적으로 불편한 점이 다음과 같을 거 같아요.

위 챕터들은 공통된 내용들이 많습니다. 온라인 튜토리얼이라면 한 번에 쓱 읽어내려오라는 의미로 중복 기술을 하는게 좋겠지만, 종이책 버전에서는 공통된 부분은 제거하고 차이가 있는 부분 위주로 기술하는게 좋을 듯 합니다. 앞 장에서 해당 내용을 잘 습득하신 분이라면 오히려 내용을 건너뛰려고 하실 것 같은데, 그러다 새로운 부분을 놓칠 수도 있다고 생각됩니다.
저도 customization 부분 보다는 overview / training 부분을 위주로 리뷰하였습니다.
비슷한 내용이 계속 있어서 이 내용을 반드시 읽어야 하는지 고민이 됩니다.. 두번은 다시 읽는데 5개 챕터가 모두 비슷하면 결정하기가 애매합니다. 예를 들어 argument 설명 등은 앞에서와 동일한 것들이 많이 나오는데, 이를 매번 읽는데 피로감이 듭니다. 특별히 다른 argument 가 아니라면 설명이 없는게 오히려 가독에 더 빠를 것 같아요. 이는 환경 설정, 말뭉치 내려받기, 토크나이저 준비하기에서 해당합니다.
Sampler 부분도 한 번 설명한 뒤에는 "이런 샘플러 쓴다" 정도여도 충분해 보입니다.
예상 독자가 ML 의 경험이 적지만, 개발 경험은 있으신 분을 대상으로 할 때, 코드와 관련된 설명이 긴 듯 합니다. document classification chapter 를 거치셨다면 다른 챕터의 내용들도 대략 잘 보이실 거 같아요. 설명없이 코드만 적어도 좋을 듯 합니다. 예를 들어 sentence generation 장에서는 6-7장 합쳐서 아래처럼 코드만 적어도 충분할 듯 합니다.
(참고) argument name 이 길지 않는 경우는 model = GPT2LMHeadModel.from_pretrained(args.pretrained_model_name) 처럼 한 줄에 적어줘도 좋을 듯 합니다. 아는 내용이라면 장황하지 않는 수준에서 여러 줄 보다 한줄이 더 가독성이 좋을 듯 합니다.
```
from transformers import GPT2LMHeadModel
from ratsnlp.nlpbook.generation import GenerationTask
```

model = GPT2LMHeadModel.from_pretrained(args.pretrained_model_name) task = GenerationTask(model, args) trainer = nlpbook.get_trainer(args) trainer.fit( task, train_dataloader=train_dataloader, val_dataloaders=val_dataloader, )

ratsgo / nlpbook

Feedback #10

Home 부터 Preprocess 까지의 피드백입니다.

Language model 챕터의 리뷰입니다

그 외