yukihito-jokyu / transformers_scratch

0 stars 0 forks source link

単語idの作成 #7

Closed yukihito-jokyu closed 1 month ago

yukihito-jokyu commented 2 months ago

翻訳モデルを作成する際、それぞれのトークンに対してidを付与する必要がある。 トークンidの作成方法を記述する。

yukihito-jokyu commented 2 months ago

翻訳タスクに用いるデータセット

ここからデータをダウンロードし、翻訳タスクに用いる日本語と英語のデータセットをダウンロードする。 学習には、tok/kyoto-train.jp(入力)とtok/kyoto-train.en(出力)を用いる。その為、単語idはこのデータセットに使われる単語を基に付与をしていく。

yukihito-jokyu commented 2 months ago

単語とそれに対するidはjson形式で保存する

yukihito-jokyu commented 2 months ago

特殊トークンについて

yukihito-jokyu commented 1 month ago

単語idの作成コードが完了したので閉じる