mmorise / rohan4600

モーラバランス型日本語コーパス
Creative Commons Zero v1.0 Universal
54 stars 3 forks source link

ROHAN:モーラバランス型日本語コーパス

はじめに

論文公開にあたり正式名称をROHAN4600からROHANとし,通称「ROHANコーパス」にすることといたしました.ROHAN4600は現在公開の4600文で,将来的に拡張される可能性も勘案した改定となります.もしご利用頂き論文等で引用する場合は,以下の論文を引用してください.
Japanese:
[1] 森勢将雅:ROHAN:テキスト音声合成に向けたモーラバランス型日本語コーパス,日本音響学会誌, vol. 79, no. 1, pp. 9-17, Jan. 2023.
English:
[1] M. Morise: ROHAN: A mora-balanced Japanese text corpus for text-to-speech synthesis, The journal of the acoustical society of Japan, vol. 79, no. 1, pp. 9-17, Jan. 2023 (in Japanese).

ROHANとは

コーパス文の課題生成システムが提示した条件を満たす文章を人間が作成することで,常用漢字と読みを全て含み,出現頻度の低いモーラもカバーした4600文章からなる日本語のテキストコーパスです.4600文は,後述する22のサブセットから構成されており,サブセット単位で全モーラを最低2回含みます.なお,ここでの全モーラとは,Sinsyの日本語でサポートするモーラと定義します.朗読者向けに,テキストの横書き(HTML, Word, PDF)と縦書き(Word, PDF)を用意しています._hが横書きで,_vが縦書きです.テキストは同じなので,読みやすいものを選んでください.

朗読する場合の注意点

サブセットの構成

1サブセットの目安

全サブセットと平均モーラ数・拡張エントロピーのデータ

4600文全てで計算すると,平均モーラ数が27.86,拡張エントロピーが22.83 bitです.

補足情報

ROHANを朗読した音声データベース

GUEST1000の協力者様

ライセンスはパブリックドメインです.

CC0