skk-dev / dict

SKK dictionary
144 stars 31 forks source link

Convert to UTF-8 #53

Closed tamo closed 2 months ago

tamo commented 2 months ago

背景

辞書の項目追加を PR しようと見てみたところ EUC-JP と ISO-2022-JP のせいで GitHub からは内容も ChangeLog も見えないので 何もできませんでした (特に ISO-2022-JP は VSCode からも扱えなくて驚きました)

というわけで UTF-8 にしてみる PoC です

このまま実用できるとは思いませんが叩き台にはなるかもしれません 気軽に却下していただいて構いませんが この程度 GitHub から文字化けなく見えてくれないと なかなか PR を出す気にはなれないと思います (UTF-8 か SJIS にしない限り GitHub の意味がないというか 以前のシステムの方がずっとマシです)

diff を取ってみたところ fullname が少し変わっているかもしれませんので euc-jp-2004 のまま扱うほうが良いかもしれません でも元データがおかしいだけかもしれません (○○システムズの「ズ」のところとか、モーニング娘。の最後の「。」とか)

skktools の filters が EUC-JP 決め打ちのようなので Makefile で nkf -e して処理していますが skktools 側で自動識別やオプション指定ができるなら Makefile がシンプルになりそうです あとは gitattributes で working-tree-encoding 指定するとかもアリかもしれません

あとは

ChangeLog に真鵺道を要求するのもハードルが高いので GitHub Actions で自動生成してくれるといいですよね

kuuote commented 2 months ago

個人的にはもうEUC-JPなんて使っている人はいないしありだと思います。

conao3 commented 2 months ago

https://github.com/skk-dev/dict/pull/39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani

PRは歓迎しますが、正直このPRについては変更行数が多すぎてレビューしきれそうにないというのはお伝えします。(変更についても「Convert to UTF-8」に限定されていないように思います。)

tamo commented 2 months ago

39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani

それはすごいです! ぜひ手順を文書化してください 調べてみて形にできそうなら私からPR出しますね

PRは歓迎しますが、正直このPRについては変更行数が多すぎてレビューしきれそうにないというのはお伝えします。(変更についても「Convert to UTF-8」に限定されていないように思います。)

UTF-8である程度動くようにしてるだけのはずですけど…… 方向性を示していただければそっちの方向でやりますので、何かあればお知らせください なければ閉じていただけると助かります

tamo commented 2 months ago

39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani

それはすごいです! ぜひ手順を文書化してください 調べてみて形にできそうなら私からPR出しますね

見たところ、json には annotation がないので txt に戻すには schema から変えないといけないようです

txt -> json -> txt でほぼ損失のないようにしたものを https://github.com/skk-dev/dict/compare/master...tamo:dict:json2txt に置きました

この方向で良ければ手順の文書なども更新したいと思います

どなたか見ていただけますか json が元データになるなら、更新の自動化などもラクになりそうですし 配布物は euc-jp のままでもいいので、いい妥協点だと思うんですど

tamo commented 2 months ago

ご提案いただいた方向で PR を出しましたので こちらは閉じておきます