import regex
with open("Rohan4600_transcript_utf8.txt") as f:
for line in f:
line = line.strip()
rubies = regex.findall(r"\(([^)]*)\)", line)
katakana_rubies = [r for r in rubies if regex.search(r"\p{Script=Katakana}", r)]
if katakana_rubies:
print(line)
print(katakana_rubies)
print()
カタカナで表記されたルビが複数あることに気がつきました。どのように修正すべきかは方針にもよるかと思いますので、ひとまずご報告いたします。
以下のような Python スクリプトで確認しました。
実行結果は以下のとおりです。
これらの結果のうち、
は、いずれも平仮名で表記されるのが自然に思われます。
また、 4302 には「炒飯(ちゃーはん)」という表記があることから、
も平仮名で表記されていたほうが一貫性がありそうです。
残る
は英字に対するルビがここだけなので判断が難しいのですが、すべて平仮名で表記するという方針であれば、こちらも平仮名とするのがよいでしょうか。
ご確認、ご検討いただければ幸いです。