mmorise / rohan4600

モーラバランス型日本語コーパス
Creative Commons Zero v1.0 Universal
54 stars 3 forks source link

カタカナで表記されたルビについて #2

Open darashi opened 2 years ago

darashi commented 2 years ago

カタカナで表記されたルビが複数あることに気がつきました。どのように修正すべきかは方針にもよるかと思いますので、ひとまずご報告いたします。

以下のような Python スクリプトで確認しました。

import regex

with open("Rohan4600_transcript_utf8.txt") as f:
    for line in f:
        line = line.strip()
        rubies = regex.findall(r"\(([^)]*)\)", line)
        katakana_rubies = [r for r in rubies if regex.search(r"\p{Script=Katakana}", r)]

        if katakana_rubies:
            print(line)
            print(katakana_rubies)
            print()

実行結果は以下のとおりです。

ROHAN4600_0329:ヒェロニムはケチで、真夏(まなつ)でも十(ジュッ)キロ離(はな)れた百均(ひゃっきん)へ、チャリで走(はし)る。,ヒェロニムワケチデ、マナツデモジュッキロハナレタヒャッキンエ、チャリデハシル。
['ジュッ']

ROHAN4600_0961:スウェーデンで拉麺(ラーメン)を食(た)べるなら、ヒュースクヴァーナがお勧(すす)めだな。,スウェーデンデラーメンヲタベルナラ、ヒュースクヴァーナガオススメダナ。
['ラーメン']

ROHAN4600_1983:点字(テンジ)のことで略式(りゃくしき)起訴(きそ)されたが、友(とも)のエールで夜(よる)は眠(ねむ)れる。,テンジノコトデリャクシキキソサレタガ、トモノエールデヨルワネムレル。
['テンジ']

ROHAN4600_3414:貯蓄(ちょちく)したお金(かね)で、ヒューレットパッカードのGPU(ジーピーユー)を備(そな)えたPC(ピーシー)を買(か)います。,チョチクシタオカネデ、ヒューレットパッカードノジーピーユーヲソナエタピーシーヲカイマス。
['ジーピーユー', 'ピーシー']

これらの結果のうち、

は、いずれも平仮名で表記されるのが自然に思われます。

また、 4302 には「炒飯(ちゃーはん)」という表記があることから、

も平仮名で表記されていたほうが一貫性がありそうです。

残る

は英字に対するルビがここだけなので判断が難しいのですが、すべて平仮名で表記するという方針であれば、こちらも平仮名とするのがよいでしょうか。

ご確認、ご検討いただければ幸いです。

mmorise commented 2 years ago

ありがとうございます.これから,全部平仮名に統一するように修正いたします.

darashi commented 2 years ago

ありがとうございます!