2023/12/08 ~ 2024/01/04

danbi5228 commented 11 months ago

~12/14~ ~12/28 목요일 pm9:30~ 01/04 목요일 pm10:00
1: 16.2 intro
2: 16.2.1
3: 16.2.2

danbi5228 commented 11 months ago

assign roles -s 1208 -c 1 2 3

njs03332 commented 11 months ago

	0	1	2
member	주선미	한단비	김유리
chapter	1	2	3

givitallugot commented 11 months ago

16.2 감성분석

IMDb 리뷰 데이터셋은 영화 리뷰 50,000개로 구성, 그리고 각 리뷰가 부정적(0)인지, 긍정적인지(1)를 나타내는 간단한 이진 타깃이 포함됨
리뷰 내용은 이미 전처리 되어있음, X_train은 리뷰들의 리스트
각 리뷰는 넘파이 정수 배열로 표현, 각 정수는 하나의 단어를 의미
전처리에서 구두점을 모두 제거하고 단어는 소문자로 변환한 다음 공백으로 나누어 빈도에 따라 인덱스를 붙임
정수 0,1,2는 조금 특별함, 각각 패딩 토큰, SOS(start-of-sequence) 토근, 알 수 없는 단어를 의미
리뷰 내용을 보려면 다음과 같이 디코딩

실전 프로젝트에서는 직접 전처리를 해야함

Tokenizer클래스를 사용할 수 있지만, 이번에는 char_level=False로 설정
공백을 단어 경계로 구분
그 외에도 인코딩 방식은 다양함 (이전에 본 적이 없더라도 문맥으로 단어 의미를 추출하는 비지도 학습 방법도 존재)

이번에는 텐서플로 연산만 사용해서, 전처리를 모델 자체에 포함시킨 방법

1. 먼저 텐서플로 데이터셋을 사용해서 원본 IMDb 리뷰를 텍스트로 적재
그리고 전처리 함수를 만듦
각 리뷰에서 처음 300 글자만 남김, 훈련 속도를 높임 (처음 한두 문장에서 리뷰가 긍정적인지 아닌지 판단할 수 있기 때문에 성능에 크게 영향을 미치지 않음)
그 다음 정규식을 사용해서
태그를 공백으로 바꾸고, 문자와 작은 따옴표가 아닌 다른 모든 문자를 공백으로 바꿈
그리고 패딩 토큰 ""로 모든 리뷰를 패딩
1. 다음으로 어휘 사전을 구축, 전체 훈련 세트를 한 번 순회하면서 preprocess() 함수를 적용하고 Counter로 단어의 등장 횟수를 셈
가장 많이 등장하는 단어는 다음 세 개
1. 모든 단어를 모델이 알아야 할 필요는 없음, 어휘 사전 중 가장 많이 등장하는 단어 10,000개만 남기고 삭제
1. 이제 각 단어를 ID (어휘 사전의 인덱스)로 바꾸는 전처리 단계를 추가, OOV(out of vocabulary) 버킷을 사용하는 룩업 테이블을 만듦
단어에 대한 ID를 확인해보면 다음과 같음
1. 이제 훈련 세트를 만들기 위해서 리뷰를 배치로 묶고 preprocess() 함수를 사용해 짧은 시퀀스로 바꿈
그리고 encode_words() 함수로 앞에서 만든 table 활용하여 단어를 인코딩
1. 다음으로 모델을 만들어서 훈련
첫 번째 층은 단어 ID들을 임베딩으로 변환하는 Embedding 층
나머지 부분은 간단함, GRU 층 두 개로 구성되고 두 번째 층은 마지막 타임 스텝의 출력만 반환
출력층은 시그모이드 활성화 함수를 사용하여 영화에 대한 긍정적인 감정을 표현하고 있는지 추정 확률을 출력
그리고 모델을 컴파일한 후 몇 번의 에포크 동안 훈련

danbi5228 commented 11 months ago

16.2.1 마스킹

원래 데이터 그대로 모델이 패딩 토큰을 무시해서 학습하도록 Embedding 층을 만들 때 mask_zero=True로 설정
- ID가 0인 패딩 토큰을 무시하도록 설정
```
K = keras.backend
inputs = keras.layers.Input(shape=[None])
```

임베딩 층이 입력과 크기가 같은 마스크 텐서(ID 0인 위치만 False, 나머지 True) 를 만들고

모델에 의해 이어지는 모든 층에 타임 스텝 차원이 유지되는 한 자동으로 전파됨

mask = keras.layers.Lambda(lambda inputs: K.not_equal(inputs, 0))(inputs) z = keras.layers.Embedding(vocab_size + num_oov_buckets, embed_size)(inputs)

GRU 층이 위의 마스크 텐서를 받음

z = keras.layers.GRU(128, return_sequences=True)(z, mask=mask)

시퀀스를 반환하지 않고 마지막 타임 스텝의 출력만 반환해서, Dense 층에는 마스크 텐서가 전달되지 않음

z = keras.layers.GRU(128)(z, mask=mask)

outputs = keras.layers.Dense(1, activation="sigmoid")(z) model = keras.Model(inputs=[inputs], outputs=[outputs]) # 이후 몇 번의 에포크를 훈련하면 리뷰 긍부정 판단을 꽤 잘함


- 주의) LSTM과 GRU층은 엔비디아의 cuDNN 라이브러리에 기반한 최적화된 GPU 구현을 가지고 있는데 마스킹을 지원하진 않음.
마스킹을 사용하면 이 층들이 훨씬 느린 기본 구현을 사용하고, 최적화된 구현을 사용하려면 매개변수들을 기본값으로 지정해줘야 함
- 마스킹을 지원하는 모든 층은 supports_masking 속성 값이 True 임
- 마스킹을 지원하는 사용자 정의 층을 구현하려면 call 메서드에 mask 매개변수를 추가해야 함
- TensorBoard() 콜백을 사용하면 텐서보드에 학습된 임베딩을 시각화할 수 있음
- 특정 목표에 맞는 단어 임베딩 학습을 하기보다는 사전 훈련된 임베딩을 재사용하는 방향으로 검토하는 것을 권장

njs03332 commented 11 months ago

16.2.2 사전훈련된 임베딩 재사용하기

텐서플로 허브는 사전훈련된 모델 컴포넌트를 모델에 추가하기 쉽게 만들어줌 (=모듈)
nnlm-en-dim50 문장 임베딩 모듈 버전 1을 감성 분석 모델에 사용

import tensorflow_hub as hub

model = keras.Sequential([
    hub.KerasLayer("https://tfhub.dev/google/tf2-preview/nnlm-en-dim50/1", dtype=tf.string, input_shape=[], output_shape=[50],
    keras.layers.Dense(128, activation="relu"),
    keras.layers.Dense(1, activation="sigmoid")
])
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

모듈 이름은 문장 인코더 (문자열을 입력으로 받아 하나의 벡터로 인코딩)
- 내부적으로 문자열을 파싱 (공백으로 단어 나눔) -> 대규모 코퍼스 (구글 뉴스 7B 코퍼스)에서 사전훈련된 임베딩 행렬을 사용해 각 단어를 임베딩 -> 모든 단어 밈베딩의 평균을 계산
두 개의 Dense 층을 추가해 감성분석모델을 만듦
hub.KerasLayer 층은 기본적으로 훈련되지 않으나, trainable=True로 설정하면 작업에 맞게 미세조정 가능

IMDb 리뷰데이터셋 다운로드

datasets, info = tfds.load("imdb_reviews", as_supervised=True, with_info=True)
train_size = info.splits["train"].num_examples
batch_size = 32
trian_set = datasets["train"].batch(batch_size).prefetch(1)
history = model.fit(train_set, epochs=5)

TF 허브 모듈 URL 마지막 부분에서 필요한 버전 지정 -> 새 버전의 모듈이 릴리스되더라도 모델에 영향 x
url을 웹 브라우저에 입력하면 모듈에 관한 문서를 볼 수 있음
TFHUB_CACHE_DIR 환경변수에 원하는 디렉토리를 지정하면, 파일을 고정 디렉터리에 다운로드할 수 있음

njs03332 / ml_study