Doublevil / JmdictFurigana

A Japanese dictionary resource that attaches furigana to individual words
152 stars 13 forks source link

Duplicated lines in JmdictFurigana.txt #3

Closed fasiha closed 8 years ago

fasiha commented 8 years ago

I was doing some processing and noticed this:

$ wc -l JmdictFurigana.txt
173456 JmdictFurigana.txt
$ sort JmdictFurigana.txt | uniq | wc -l
173376

Eighty lines in the input are duplicates. Easy enough to address on my end but it might mean something to you?

Edit: In case it's helpful, here they are (kanji headword & reading):

黒皮          くろかわ
黒ぶち        くろぶち
鹹水          かんすい
駆ける        かける
風物誌        ふうぶつし
雪釣り        ゆきづり
雪釣り        ゆきつり
雪釣          ゆきづり
雪釣          ゆきつり
陸            ろく
開放感        かいほうかん
軽卒          けいそつ
車知          しゃち
豪気          ごうき
豪            ごう
解かす        とかす
見取り        みとり
薄目          うすめ
荳            まめ
興し          おこし
網目          あみめ
細目          ほそめ
矢倉          やぐら
相判          あいばん
白目          しろめ
濠            ごう
漉く          すく
浅黄          あさぎ
泡立つ        あわだつ
河            かわ
沈子          ちんし
此の頃        このころ
標示          ひょうじ
梶            かじ
本間          ほんま
木目          もくめ
木目          きめ
揚げ          あげ
振りかえる    ふりかえる
指し          さし
投げ槍        なげやり
戎            えびす
悪い          にくい
心なし        こころなし
差し          さし
山梔子        さんしし
山嵐          やまあらし
尤も          もっとも
小手          こて
宿            しゅく
存知          ぞんじ
妻            つま
夷            えびす
天主          てんしゅ
固め          かため
命            みこと
呑み屋        のみや
合判          あいばん
合い判        あいばん
叔父          しゅくふ
叔父          おじ
卸し          おろし
卸            おろし
刹            せつ
刹            さつ
元            もと
保安          ほあん
仇名          あだな
人手          ひとで
乗っ取る      のっとる
丸のみ        まるのみ
上腿          じょうたい
めん棒        めんぼう
ふるい落とす  ふるいおとす
ふるい落す    ふるいおとす
つき物        つきもの
そう身        そうしん
すり込む      すりこむ
この頃        このころ
かん水        かんすい
Doublevil commented 8 years ago

Thanks, I'll take a look at that this weekend.

Doublevil commented 8 years ago

So, this happens when there are multiple entries with the same kanji and kana readings (though they may be completely separate words and bear different meanings). I'm going to have to delete the duplicates (take only the first entry) to handle this case, because there is no point in having both and it may cause errors in processing tools.

Doublevil commented 8 years ago

Should be okay now. Thanks a lot for noticing and reporting the issue. :)