Closed tamo closed 2 months ago
個人的にはもうEUC-JPなんて使っている人はいないしありだと思います。
https://github.com/skk-dev/dict/pull/39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani
PRは歓迎しますが、正直このPRについては変更行数が多すぎてレビューしきれそうにないというのはお伝えします。(変更についても「Convert to UTF-8」に限定されていないように思います。)
39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani
それはすごいです! ぜひ手順を文書化してください 調べてみて形にできそうなら私からPR出しますね
PRは歓迎しますが、正直このPRについては変更行数が多すぎてレビューしきれそうにないというのはお伝えします。(変更についても「Convert to UTF-8」に限定されていないように思います。)
UTF-8である程度動くようにしてるだけのはずですけど…… 方向性を示していただければそっちの方向でやりますので、何かあればお知らせください なければ閉じていただけると助かります
39 新辞書形式がマージされているので、これらのファイル群から生成できるはずという理解です。 とはいえこの新辞書形式を使った辞書の更新方法について説明が必要という方向性なら受け入れやすいと思います cc: @tani
それはすごいです! ぜひ手順を文書化してください 調べてみて形にできそうなら私からPR出しますね
見たところ、json には annotation がないので txt に戻すには schema から変えないといけないようです
txt -> json -> txt でほぼ損失のないようにしたものを https://github.com/skk-dev/dict/compare/master...tamo:dict:json2txt に置きました
この方向で良ければ手順の文書なども更新したいと思います
どなたか見ていただけますか json が元データになるなら、更新の自動化などもラクになりそうですし 配布物は euc-jp のままでもいいので、いい妥協点だと思うんですど
ご提案いただいた方向で PR を出しましたので こちらは閉じておきます
背景
辞書の項目追加を PR しようと見てみたところ EUC-JP と ISO-2022-JP のせいで GitHub からは内容も ChangeLog も見えないので 何もできませんでした (特に ISO-2022-JP は VSCode からも扱えなくて驚きました)
というわけで UTF-8 にしてみる PoC です
このまま実用できるとは思いませんが叩き台にはなるかもしれません 気軽に却下していただいて構いませんが この程度 GitHub から文字化けなく見えてくれないと なかなか PR を出す気にはなれないと思います (UTF-8 か SJIS にしない限り GitHub の意味がないというか 以前のシステムの方がずっとマシです)
diff を取ってみたところ fullname が少し変わっているかもしれませんので euc-jp-2004 のまま扱うほうが良いかもしれません でも元データがおかしいだけかもしれません (○○システムズの「ズ」のところとか、モーニング娘。の最後の「。」とか)
skktools の filters が EUC-JP 決め打ちのようなので Makefile で nkf -e して処理していますが skktools 側で自動識別やオプション指定ができるなら Makefile がシンプルになりそうです あとは gitattributes で working-tree-encoding 指定するとかもアリかもしれません
あとは
ChangeLog に真鵺道を要求するのもハードルが高いので GitHub Actions で自動生成してくれるといいですよね