ghmagazine / llm-book

「大規模言語モデル入門」(技術評論社, 2023)のGitHubリポジトリ
https://gihyo.jp/book/2023/978-4-297-13633-8
Apache License 2.0
268 stars 41 forks source link

MARC-ja のリンクが切れている #11

Open ryokan0123 opened 11 months ago

ryokan0123 commented 11 months ago

2023/7/28 現在、MARC-ja のデータセットの配布元のリンクが切れてしまっています。 https://s3.amazonaws.com/amazon-reviews-pds/tsv/amazon_reviews_multilingual_JP_v1_00.tsv.gz MARC-ja を使用するノートブックで、データセット読み込みの箇所でエラーが出る状態です。

問い合わせのメールを送り、復旧待機中です。

hayatoshibahara commented 10 months ago

2023/8/25 現在もリンクが切れていて、第5章のコードを実行できないです。ご対応いただけると助かります。

ryokan0123 commented 10 months ago

お問合せありがとうございます。 こちらは Amazon 社がオリジナルのデータセットの配布を中止をしたとの知らせを受けています。 一方で、データが利用が継続できるように働きかけもなされているそうですので、MARC-ja の状況に関しては今後の続報をお待ちください。

また感情分析タスクに関しては、代わりとなる WRIME データセットの実装を用意しております。 本書のデータセットの読み込み箇所を、適宜以下のような表記に置き換えると、感情分析の学習や分析を行うことができます。

from datasets import load_dataset

train_dataset = load_dataset("llm-book/wrime-sentiment", split="train")
valid_dataset = load_dataset("llm-book/wrime-sentiment", split="validation")

以下のノートブックもよろしければご参考にしてください。

節/項 Colab Link
第 5 章 大規模言語モデルのファインチューニング 5.2 感情分析モデルの実装 Open in Colab Link (WRIME)
5.3 感情分析モデルのエラー分析 Open in Colab Link (WRIME)

お手数をおかけしますが、どうぞよろしくお願いいたします。