VOICEVOX / voicevox_core

無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア
https://voicevox.hiroshiba.jp/
MIT License
844 stars 114 forks source link

音声合成前に英単語をカタカナに変換するオプションの追加(英単語のサポート) #739

Open WariHima opened 6 months ago

WariHima commented 6 months ago

内容

英単語のカタカナ変換オプション 英単語をカタカナに変換し読み上げ可能にする

Pros 良くなる点

英単語を日本人発音で読み上げることができるようになる

Cons 悪くなる点

特にない

実現方法

英単語カタカナ変換辞典を使い英単語をカタカナに変換する 辞典は以下のpythonライブラリに組み込んである物を使用する

英単語カタカナ変換ライブラリ(python) https://github.com/zomysan/alkana.py 辞典がdata.pyに直に書いてある

VOICEVOXのバージョン

N/A

OSの種類/ディストリ/バージョン

その他

ほかの外国語も日本語読みの辞書があれば日本人の発音でしゃべらせることができると思う ひらがなに変換できるハングルなどが辞書を作りやすいと思われる

Hiroshiba commented 6 months ago

@WariHima 外国語の日本語辞書は面白そうだなと思いつつ、なかなか手がつけられていない現状があります! 容量がどれぐらいなのか、どうやって使える形にするかあたりをまとめたり決めたりすれば意外とすぐに進めそうな気がします。

辞典は以下のpythonライブラリに組み込んである物を使用する

こちらのデータはGPLv2なので難しそうです・・・!

WariHima commented 6 months ago

一応作ってみたものがこちら↓ https://github.com/WariHima/KanaYomi-dict

作成方法

カタカナ語のみをデフォルトの辞書から抽出し対応する英単語と置き換えて作成できる。 (カタカナ語のアクセントを引き継ぐため) デフォルトの辞書にカタカナ語として登録されていない辞書はmecabでの形態素解析に最低限必要な情報だけ入れる。 モーラ数とダミーのアクセントを付ければ動くことは確認している。

ライセンスの緩い辞書が見つかったら修正BSDライセンスの辞書を作成するつもりです。

WariHima commented 6 months ago

結構調べましたがライセンスの緩いカタカナ英語変換辞書があまり見つかりませんでした。(唯一見つけたのが有料だった) 色々調べているうちに古い日本語入力用のユーザー辞書がopenjtalkで使えるように変換できること発見したのでとりあえず登録語句の強化はし続けます。

WariHima commented 6 months ago

リポジトリの整理が代替終わりました。 https://github.com/WariHima/KanaYomi-dict/wiki/%E5%8F%8E%E9%8C%B2%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E8%BE%9E%E6%9B%B8%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6 ユーザーが辞書を手動でダウンロードして使う形式を想定しています。