masayu-a / UD_Japanese-GSDPUD-CaboCha

2 stars 1 forks source link

「ている」の AUX 化 #13

Closed masayu-a closed 2 years ago

masayu-a commented 2 years ago

http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja に追加して調整。

kanayamah commented 2 years ago

「ている」以外の SCONJ について:

GSDLUW v2.9 の SCONJ に付与された lemma: http://universal.grew.fr/?corpus=UD_Japanese-GSDLUW@2.9&custom=624507f132d38&clustering=N.lemma

これらのうち、以下のものは UPOS は SCONJ でないべきであると思われます。

masayu-a commented 2 years ago

そもそも AUX を増やすことを UD 本体側が受け入れてくれないんですよね...

kanayamah commented 2 years ago

LUWという別のword体系のために、SUWとは独立に ja の AUXを増やすことは UD としても受け入れづらいでしょう。かといってLUWベースのUDとして、直感的でないUPOSを振る(上に挙げたものが SCONJである)のも間違ってます。

解決策としては、

などだと思います。

masayu-a commented 2 years ago

どうもありがとうございます。

先日の UDW で LUW が本流にすること自体は受け入れられており、 AUX を増やすことにも前向きな意見が得られました。 まずは受け入れられたものから AUX にして、それ以外は PART にしたいと思います。

masayu-a commented 2 years ago
File.open(ARGV[0]).each_line do |line|
  line.chomp!

  line.sub!(",て居る",",ている")
  line.sub!(",で有る",",である")
#  line.sub!(",のだ",",")
  line.sub!(",て来る",",てくる")
  line.sub!(",では無い",",ではない")
#  line.sub!(",のです",",")
#  line.sub!(",てる",",")
  line.sub!(",て仕舞う",",てしまう")
  line.sub!(",て呉れる",",てくれる")
  line.sub!(",て行く",",ていく")
  line.sub!(",て貰う",",てもらう")
  line.sub!(",でも有る",",でもある")
  line.sub!(",て見る",",てみる")
#  line.sub!(",かもしれない",",かもしれない")
  line.sub!(",ので有る",",のである")
  line.sub!(",て有る",",てある")
  line.sub!(",て欲しい",",てほしい")
  line.sub!(",じゃ無い",",じゃない")
# line.sub!(",ていただく",",")
  line.sub!(",つつ有る",",つつある")
  line.sub!(",に過ぎない",",にすぎない")
  puts line
end
masayu-a commented 2 years ago

https://github.com/UniversalDependencies/tools/issues/75 https://github.com/UniversalDependencies/tools/issues/86

KoichiYasuoka commented 2 years ago

もし可能であれば、UD_Japanese-ModernのAUXも「如し」と「可し」と「無し」くらいは引き取ってほしいなぁ、と思っていたりします。

masayu-a commented 2 years ago

どうもありがとうございます。 UD_Japanese-Modern は管理が難しくなってきているので、いずれ UD から消したいと考えております。

助詞・助動詞の体系化は https://github.com/masayu-a/WLSP/issues/8 のとおり、短単位については用法の整理が進んでおり、 今後長単位の機能表現(助詞・助動詞)の体系化を進めていきたいと思います。

masayu-a commented 2 years ago

とりあえず追加できるようになったので、追加を始めました。「ごとし」は登録しました。

masayu-a commented 2 years ago

なんとか以下の修正をおこないました

大村さん @s10018 この版で UD-LUW 化をお願いします。

masayu-a commented 2 years ago

もちろん、週明け勤務中でよいですよ。

助動詞は SCONJ でもなく PART でもなく AUX にできるのと、 コピュラ系(ダ・デアル系)も縮約形態や方言(ジャ・ヤ)も含めて登録できたので、 大分制約がなくなったかと思います。

s10018 commented 2 years ago

すいません、「する」ってAUXから除外しましたでしょうか....? 短単位をなくす予定だから入れない予定とかですか?

masayu-a commented 2 years ago

あ、「する」入れてないですね。 入れるとすると「為る」になりますが、よいでしょうか。

s10018 commented 2 years ago

こちらで「為る」は「する」に変換しているので「する」がよいかと思います。

masayu-a commented 2 years ago

「為る」を「する」に変換するのはクレームが増えてきているので、できれば辞めたいとおもいますが、いかがでしょうか。 大分 UniDic 体系が浸透してきて、変換することにより、かえって困る方が増えてきています。 基準として、

s10018 commented 2 years ago

なるほど、以前指摘されていくつかlemmaを変換しているのですが もともとのlemma相当のUniDic体系に戻したほうがよいでしょうか? 変換をしないならば、変換箇所は削除しようかと思いますが

masayu-a commented 2 years ago

一旦変換ルールの一覧を見せてもらえると助かります。 30代より若い方々は UniDic 体系で教育を受けた方が多いので、 問題なければ lemma の変換をやめたいと思います。

s10018 commented 2 years ago

ひとまず、以下のような感じにしています。(これは短単位ですが長単位はこれより少ないだけです) (*はいずれも、「|」はいずれかを表現) レンマの変更をしているので、もしかしたら登録物に変更が必要かもですが、 みたところ長単位のものばかり登録されてるのでまだ影響は追加で対処できるかと思います。

表層 品詞 レンマ 変換後
固有名詞 (表層の文字列)
(英数字文字列) (表層の文字列)
です|デス です
です|デス|ダ|ノ|の
為る する
居る いる
出来る できる
有る ある
無い ない
なかっ ない
なく ない
成る なる
仕舞う しまう
レる れる
在る ある
如し ごとし
頂く いただく
良い よい
頂ける いただける
貰う もらう
下さる くださる
欲しい ほしい
過ぎる すぎる
よう
見る みる
得る える
チャウ ちゃう
知れる しれる
貰える もらえる
致す いたす
為さる なさる

http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/validation-report.pl

masayu-a commented 2 years ago

どうもありがとうございます。

BCCWJ に合わせるようにしますが、いくつかはデータのエラーですので、まずはデータのエラーから修正します。

s10018 commented 2 years ago

すいません、そもそもUDのレンマはorthBaseを基準にしていたので、 表のレンマのところはorthBaseです

※ READMEからの引用
(0): pos1
(1): pos2
(2): pos3
(3): pos4
(4): cType
(5): cForm
(6): lForm
(7): lemma
(8): orth
(9): pron
(10): orthBase
(11): pronBase
(12): goshu
(13): iType
(14): iForm
(15): fType
(16): fForm
(17): iConType
(18): fConType
(19): type
(20): kana
(21): kanaBase
(22): form
(23): formBase
(24): aType
(25): aConType
(26): aModType
(27): lid
(28): lemma_id
する    動詞,非自立可能,*,*,サ行変格,終止形-一般,スル,為る(7 lemma),する,スル,する(これ),,和,,,,,,,,,,,スル,,,,,19537                I

これだと「する」は「する」のままになりますね、この場合どうでしょう...?

s10018 commented 2 years ago
masayu-a commented 2 years ago

長単位は (7) lemma なので、短単位側も (7) lemma にしたい。

s10018 commented 2 years ago

@masayu-a

現在、UDのlemmaをUnidic lemmaにし、ている群をAUXに変換した上で、AUXのエラーをだしているものです。

cat error_res.txt | grep Morph | cut -f 10 -d " " | sort | uniq -c | sort -n -k1 -r
   4382 '様'
   1857 '無い'
   1512 '出来る'
    596 '下さる'
    421 'みたい'
    339 '良い'
    308 '易い'
    194 '頂く'
    179 '欲しい'
    153 '難い'
    101 'で有る'
     49 '為さる'
     45 '致す'
     25 '辛い'
     24 'ねばならない'
     21 '臭い'
      8 'にほかならない'
      4 'ずにはいられない'
      3 'てならない'
      3 'てたまらない'
      3 'がましい'
      1 'みたく'
      1 'て仕様がない'
      1 'て仕方がない'
masayu-a commented 2 years ago

動詞-非自立可能

登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja

1512 '出来る'  短:動詞-非自立可能 長:動詞-一般
596 '下さる'  短:動詞-非自立可能 長:動詞-一般
194 '頂く'   短:動詞-非自立可能
49 '為さる' 短:動詞-非自立可能 長:動詞-一般
45 '致す' 短:動詞-非自立可能 長:動詞-一般

形容詞-非自立可能

登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja

1857 '無い'   短:形容詞-非自立可能 長:形容詞-一般 (⇔ 'ない' 助動詞)
339 '良い'   短:形容詞-非自立可能 長:形容詞-一般
179 '欲しい' 短:形容詞-非自立可能 長:形容詞-一般
153 '難い'   短:形容詞-非自立可能 長:形容詞-一般(⇔ 長'○○難い' 形容詞-一般)

接尾辞-形容詞的

登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja

308 '易い'   短:接尾辞-形容詞的 長:×
25 '辛い'    短:接尾辞-形容詞的 (⇔ '辛い' 形容詞-一般)
21 '臭い'    短:接尾辞-形容詞的 (⇔ '臭い' 形容詞-一般)
3 'がましい' 短'○○がましい' ※ 接尾辞-形容詞的

形状詞-助動詞語幹

登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja

4382 '様'     短長:形状詞-助動詞語幹
421 'みたい'  短長:形状詞-助動詞語幹

長単位助動詞

登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja

24 'ねばならない' 長:助動詞 'ねばならない'
8 'にほかならない' 長:助動詞 'にほかならない'
4 'ずにはいられない' 長:助動詞 'ずにはいられない'
3 'てならない' 長:助動詞 'てならない'
3 'てたまらない' 長:助動詞 'てたまらない'
1 'て仕様がない' 長:助動詞 'て仕様がない'
1 'て仕方がない' 長:助動詞 'て仕方がない'

コーパス誤り

コーパス修正

101 'で有る' → 長:助動詞 'である' に修正
1 'みたく'  →「みたい」に修正
masayu-a commented 2 years ago

コーパスに出現する lemma は登録しました。

s10018 commented 2 years ago

@masayu-a 「為る」の登録消されましたか...?以前あったものが消えている気がします http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja

$ cat error_res.txt | perl -pe 's/^.*\[(L.*?)\].*$/\1/g' | sort | uniq -c
      1 *** FAILED *** with 79360 errors
    127 L4 Format invalid-word-with-space
  79233 L5 Morpho aux-lemma
$ cat error_res.txt | grep Morph | cut -f 10 -d " " | sort | uniq -c | sort -n -k1 -r
  28154 '為る'
  18118 'ます'
  11876 'ない'
   4781 'ず'
   3060 'のだ'
   2618 'てる'
   2170 'のです'
   1164 'てくる'
    914 'てしまう'
    772 'ておる'
    735 'ていく'
    640 'てくれる'
    544 'てみる'
    516 'てくださる'
    397 'てもらう'
    389 'つう'
    365 'のである'
    320 'のではない'
    255 'ておく'
    179 'てほしい'
    158 'ていただく'
    155 'ばいい'
    145 'こともある'
    133 'てある'
     91 'ことはない'
     83 'つつある'
     68 'ことにする'
     65 'てやる'
     60 'ごとし'
     52 'てはいけない'
     48 'とく'
     34 'こともない'
     32 'てく'
     28 'やがる'
     27 'てはならない'
     24 'へん'
     22 'はる'
     14 'てらっしゃる'
     10 'とる'
      4 'ちゃる'
      2 'よる'
      2 'よらす'
      2 'やす'
      2 'なんだ'
      2 'とらす'
      2 'たげる'
      1 'ないではいられない'
masayu-a commented 2 years ago

そうなんですよね。また Dan が消したんですよね。再度追加します。

masayu-a commented 2 years ago

@s10018 追加しました。

s10018 commented 2 years ago

@masayu-a ありがとうございます、以下の3つもAUXではないでしょうか?

「ことにする」「つつある」「のである」もBCCWJの規定の複合辞・助動詞相当句に載っていたので入れていいかと思います

365 'のである'
 83 'つつある'
 68 'ことにする'
masayu-a commented 2 years ago

@s10018 すみません。

単純な登録ミスだと思います。

先ほど追加しました。

masayu-a commented 2 years ago

validation が通ったので close します。