njs03332 / ml_study

3 stars 0 forks source link

2023/11/10 ~ 2023/11/15 #76

Open danbi5228 opened 11 months ago

danbi5228 commented 11 months ago
danbi5228 commented 11 months ago

assign roles -s 1115 -c 1 2 3

njs03332 commented 11 months ago
0 1 2
member 김유리 한단비 주선미
chapter 1 2 3
givitallugot commented 11 months ago

16.1.3 순차 데이터를 윈도 여러 개로 자르기

njs03332 commented 11 months ago

16. RNN과 어텐션을 사용한 자연어 처리

16.1 Char-RNN을 사용해 셰익스피어 문체 생성하기

16.1.1 훈련 데이터셋 만들기

# 셰익스피어 작품 모두 다운로드
shakespeare_url = "https://homl.info/shakespeare"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)  # 글자 수준 인코딩
tokenizer.fit_on_texts(shakespeare_text)

>>> tokenizer.texts_to_sequences(["First"])
>>> tokenizer.sequences_to_texts([[20,6,9,8,3]])
>>> max_id = len(tokenizer.word_index)   # 고유 글자 개수
>>> dataset_size = tokenizer.document_count   # 전체 글자 개수

# 전체 텍스트를 인코딩
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1
danbi5228 commented 11 months ago

16.1.2 순차 데이터셋을 나누는 방법