dbgroup-nagoya-u / paper-lintrules

論文校正ツール
0 stars 0 forks source link

Modify misrecognition #154

Closed Yang-33 closed 3 years ago

Yang-33 commented 3 years ago

現状の辞書による指摘は

等=>など
つけた=>付け足

となっていますが、等確率でミスの指摘をしてしまっているのでこれの修正パッチです。 等の等がのような文字だけに指摘するようにしたので、他に等~のような指摘があれば挙げてほしいです。

resolve #152, resolve #153

github-actions[bot] commented 3 years ago

このPull Requestではtextlintが走ります。 適宜update-paper-lintrules.bashを使用してtextlintの設定を更新してください。

執筆手順

必ず上から順番に行いましょう。各手順が終わったらチェックをつけてください。

バグ報告

おかしな指摘・指摘されていないが今後プログラムで指摘可能なルールを発見した場合は、 今後のためにこちらから指摘をお願いします。

執筆頑張ってください!

nrkt commented 3 years ago

思いつくのは,等[をはも]ぐらいです.

dtakao commented 3 years ago

「みかんやりんご等,果物における需要拡大が求められる」「需要拡大が求められるのはみかんやりんご等だ」(例文が謎いですが)とかの場合だと後ろに句読点や助動詞系(だ,である)とかもありそうですね. 「付け足す」については活用形(五段活用?)一通りが後ろに来ますね.

(レビューの機能を使いこなせずに普通にコメントしちゃいました,すいません)

dtakao commented 3 years ago

また,今更な話で申し訳ないですが,今後も細々した辞書周りの誤指摘が報告されるかと思いますが,正規表現だけで100%の対応をするのは難しいように思います. (プログラムの内部仕様を把握していなかったので,無理そうなら流してもらえばいいかなと誤指摘を見つけるたびにとりあえず報告してました.)

この場合方向性は大きく二つ考えられると思います.

どっちの方向に舵を切るのかを決め,またそれを踏まえた機能拡張(ぱっと思いつくのは,取りこぼさない事を目標とする場合には人手で誤指摘と判定した箇所については二回目以降同じアラートを出さないとかできるといいかもですね)や運用方針の周知(100%を目指しますが,あやしいものを取り逃す恐れもあるので最後には自身でちゃんと確認して欲しい旨をボットメッセージに追加など)が必要かと思います. この辺についても一度検討してみてはいかがでしょうか.

Yang-33 commented 3 years ago

完璧な対応はかなり辛いので、

もう一つは怪しいものをなるべく取りこぼさず検出して最終判断は著者に任せる方針

を目指しています。(どこにも書いていませんでした)

運用方針の周知承知しました!プログラムを書いた人はよく分かっているのですが、文章になっていませんでした。

誤指摘と判定した箇所については二回目以降同じアラートを出さない

これはGitHub Actionsでできるか分からないので調べてみます。指摘にresolvedマークが付いているかどうか、対象の指摘内容を取得できるか次第です。

Yang-33 commented 3 years ago

指摘ありがとうございました!

dtakao commented 3 years ago

誤指摘と判定した箇所については二回目以降同じアラートを出さない

についてはtmpホワイトリストみたいなのを作るのも(汚い解決策ですが)あるかもですね. 最終確認するときにはコマンド叩くなりファイル削除するなりで再確認もできますし. (あくまでプログラム詳細を知らない人間の案の一つなので,聞き流してもらってOKです)