danbi5228 commented 11 months ago

11/15 수요일 pm10:30 1: 16.1.1 2: 16.1.2 3: 16.1.3

danbi5228 commented 11 months ago

assign roles -s 1115 -c 1 2 3

njs03332 commented 11 months ago

	0	1	2
member	김유리	한단비	주선미
chapter	1	2	3

givitallugot commented 11 months ago

16.1.3 순차 데이터를 윈도 여러 개로 자르기

보통 훈련 세트는 백만 개 이상의 글자로 이루어진 시퀀스
window() 메서드를 이용해서 이 긴 시퀀스를 작은 많은 텍스트 윈도로 변환
데이터셋의 각 샘플은 전체 텍스트에서 매우 짧은 부분 문자열

RNN은 이 부분 문자열 길이만큼 역전파를 위해 펼쳐짐, 이를 TBPTT (Truncated Backpropagation Through Time)라고 부름

n_steps = 100
window_length = n_steps + 1 # target = 1 글자 앞의 input
dataset = dataset.window(window_length, shift=1, drop_remainder=True)

첫 번째 윈도는 0-100번째 글자 포함, 두 번째 윈도는 1-101번째 글자 포함하는 식
window()는 리스트(전체)의 리스트(부분)와 비슷한, 중첩 데이터셋 형태
그러나 모델은 데이터셋이 아니라 텐서를 기대하기 때문에 훈련에 중첩 데이터셋을 바로 사용할 수는 없음
flat_map()을 호출해서 플랫 데이터셋으로 변경 필요
그리고 윈도마다 batch(window_length)를 호출해서, 윈도를 배치로 만들고
윈도마다 입력(처음 100개 글자)과 타겟(마지막 글자)를 분리

njs03332 commented 11 months ago

16. RNN과 어텐션을 사용한 자연어 처리

자연어 문제에 순환 신경망이 많이 사용됨
- 문자 단위 RNN - 문장에서 다음 글자를 예측하도록 훈련
- 상태가 없는 RNN
- 상태가 있는 RNN - 훈련 반복 사이에 은닉 상태를 유지하고 중지된 곳에서 이어서 상태를 반영 -> 더 긴 패턴 학습
- 단어 단위 RNN
- 어텐션 메커니즘 - 각 타임 스텝에서 모델이 집중해야 할 입력 부분을 선택하도록 학습
- 트랜스포머 - RNN을 모두 제거하고 어텐션만 사용해 매우 좋은 성능을 냄

16.1 Char-RNN을 사용해 셰익스피어 문체 생성하기

2015년 안드레이 카르파트히의 블로그 글에서 소개된 Char-RNN - RNN을 훈련하여 문장에서 다음 글자를 예측
- 셰익스피어 작품 훈련 - 단어, 문법, 적절한 구두점 등을 학습함

16.1.1 훈련 데이터셋 만들기

# 셰익스피어 작품 모두 다운로드
shakespeare_url = "https://homl.info/shakespeare"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()

모든 글자를 정수로 인코딩
- 케라스의 Tokenizer 클래스 사용
- 먼저 이 클래스의 객체를 텍스트에 훈련해야 함 - 텍스트에서 사용되는 모든 글자를 찾아 각기 다른 글자 ID에 매핑
- ID는 1부터 시작해 고유한 글자 개수까지 만들어짐 (마스킹에 사용하기 때문에 0부터 시작하지 않음)

tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)  # 글자 수준 인코딩
tokenizer.fit_on_texts(shakespeare_text)

>>> tokenizer.texts_to_sequences(["First"])
>>> tokenizer.sequences_to_texts([[20,6,9,8,3]])
>>> max_id = len(tokenizer.word_index)   # 고유 글자 개수
>>> dataset_size = tokenizer.document_count   # 전체 글자 개수

# 전체 텍스트를 인코딩
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1

danbi5228 commented 11 months ago

16.1.2 순차 데이터셋을 나누는 방법

훈련 / 검증 / 테스트 세트가 중복되지 않도록 만드는 것이 매우 중요함
- 세트 사이에 문장이 걸치지 않고 완전히 분리될 수 있도록 세트 사이에 간격을 두는 것도 좋음
- RNN이 과거 (훈련 세트)에서 학습하는 패턴이 미래에도 등장한다고 가정(= 시계열 데이터가 변하지 않는다고 가정)
- 금융시장 등에서 이 가정은 타당하지 않음 ㅎ
- 시계열 데이터로 학습된 모델이? 안정적인지 확인하려면 시간에 따라 검증 세트에 대한 모델의 오차를 그려볼 수 있음
- 첫 부분에서 성능이 더 좋다면 충분히 안정되지 않은 것이므로 더 짧은 시간 간격으로 모델을 훈련하는 것이 좋음

셰익스피어 데이터셋은 텍스트 처음 90%를 훈련세트로 사용하고 나머지를 검증, 테스트용으로 사용

train_size = dataset_size * 900 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size]) # 한 번에 한 글자씩 반환하는 객체

njs03332 / ml_study

2023/11/10 ~ 2023/11/15 #76

16.1.3 순차 데이터를 윈도 여러 개로 자르기

16. RNN과 어텐션을 사용한 자연어 처리

16.1 Char-RNN을 사용해 셰익스피어 문체 생성하기

16.1.1 훈련 데이터셋 만들기

16.1.2 순차 데이터셋을 나누는 방법