Closed yukihito-jokyu closed 1 month ago
翻訳モデルを作成する際、それぞれのトークンに対してidを付与する必要がある。 トークンidの作成方法を記述する。
翻訳タスクに用いるデータセット
ここからデータをダウンロードし、翻訳タスクに用いる日本語と英語のデータセットをダウンロードする。 学習には、tok/kyoto-train.jp(入力)とtok/kyoto-train.en(出力)を用いる。その為、単語idはこのデータセットに使われる単語を基に付与をしていく。
単語とそれに対するidはjson形式で保存する
単語idの作成コードが完了したので閉じる
翻訳モデルを作成する際、それぞれのトークンに対してidを付与する必要がある。 トークンidの作成方法を記述する。