Closed masayu-a closed 2 years ago
「ている」以外の SCONJ について:
GSDLUW v2.9 の SCONJ に付与された lemma: http://universal.grew.fr/?corpus=UD_Japanese-GSDLUW@2.9&custom=624507f132d38&clustering=N.lemma
これらのうち、以下のものは UPOS は SCONJ
でないべきであると思われます。
そもそも AUX を増やすことを UD 本体側が受け入れてくれないんですよね...
LUWという別のword体系のために、SUWとは独立に ja の AUXを増やすことは UD としても受け入れづらいでしょう。かといってLUWベースのUDとして、直感的でないUPOSを振る(上に挙げたものが SCONJ
である)のも間違ってます。
解決策としては、
SCONJ
でも AUX
でもないUPOSにする(PART
とか?)などだと思います。
どうもありがとうございます。
先日の UDW で LUW が本流にすること自体は受け入れられており、 AUX を増やすことにも前向きな意見が得られました。 まずは受け入れられたものから AUX にして、それ以外は PART にしたいと思います。
File.open(ARGV[0]).each_line do |line|
line.chomp!
line.sub!(",て居る",",ている")
line.sub!(",で有る",",である")
# line.sub!(",のだ",",")
line.sub!(",て来る",",てくる")
line.sub!(",では無い",",ではない")
# line.sub!(",のです",",")
# line.sub!(",てる",",")
line.sub!(",て仕舞う",",てしまう")
line.sub!(",て呉れる",",てくれる")
line.sub!(",て行く",",ていく")
line.sub!(",て貰う",",てもらう")
line.sub!(",でも有る",",でもある")
line.sub!(",て見る",",てみる")
# line.sub!(",かもしれない",",かもしれない")
line.sub!(",ので有る",",のである")
line.sub!(",て有る",",てある")
line.sub!(",て欲しい",",てほしい")
line.sub!(",じゃ無い",",じゃない")
# line.sub!(",ていただく",",")
line.sub!(",つつ有る",",つつある")
line.sub!(",に過ぎない",",にすぎない")
puts line
end
もし可能であれば、UD_Japanese-ModernのAUX
も「如し」と「可し」と「無し」くらいは引き取ってほしいなぁ、と思っていたりします。
どうもありがとうございます。 UD_Japanese-Modern は管理が難しくなってきているので、いずれ UD から消したいと考えております。
助詞・助動詞の体系化は https://github.com/masayu-a/WLSP/issues/8 のとおり、短単位については用法の整理が進んでおり、 今後長単位の機能表現(助詞・助動詞)の体系化を進めていきたいと思います。
とりあえず追加できるようになったので、追加を始めました。「ごとし」は登録しました。
なんとか以下の修正をおこないました
大村さん @s10018 この版で UD-LUW 化をお願いします。
もちろん、週明け勤務中でよいですよ。
助動詞は SCONJ でもなく PART でもなく AUX にできるのと、 コピュラ系(ダ・デアル系)も縮約形態や方言(ジャ・ヤ)も含めて登録できたので、 大分制約がなくなったかと思います。
すいません、「する」ってAUXから除外しましたでしょうか....? 短単位をなくす予定だから入れない予定とかですか?
あ、「する」入れてないですね。 入れるとすると「為る」になりますが、よいでしょうか。
こちらで「為る」は「する」に変換しているので「する」がよいかと思います。
「為る」を「する」に変換するのはクレームが増えてきているので、できれば辞めたいとおもいますが、いかがでしょうか。 大分 UniDic 体系が浸透してきて、変換することにより、かえって困る方が増えてきています。 基準として、
なるほど、以前指摘されていくつかlemmaを変換しているのですが もともとのlemma相当のUniDic体系に戻したほうがよいでしょうか? 変換をしないならば、変換箇所は削除しようかと思いますが
一旦変換ルールの一覧を見せてもらえると助かります。 30代より若い方々は UniDic 体系で教育を受けた方が多いので、 問題なければ lemma の変換をやめたいと思います。
ひとまず、以下のような感じにしています。(これは短単位ですが長単位はこれより少ないだけです) (*はいずれも、「|」はいずれかを表現) レンマの変更をしているので、もしかしたら登録物に変更が必要かもですが、 みたところ長単位のものばかり登録されてるのでまだ影響は追加で対処できるかと思います。
表層 | 品詞 | レンマ | 変換後 | |
---|---|---|---|---|
* | 固有名詞 | * | (表層の文字列) | |
(英数字文字列) | * | * | (表層の文字列) | |
です|デス | です | * | だ | |
です|デス|ダ|ノ|の | * | * | だ | |
* | * | ず | ぬ | |
* | * | 為る | する | |
* | * | 居る | いる | |
* | * | 出来る | できる | |
* | * | 有る | ある | |
* | * | 無い | ない | あ |
* | * | なかっ | ない | |
* | * | なく | ない | |
* | * | 成る | なる | |
* | * | 仕舞う | しまう | |
* | * | レる | れる | |
* | * | 在る | ある | |
* | * | 如し | ごとし | |
* | * | 頂く | いただく | |
* | * | 良い | よい | |
* | * | 頂ける | いただける | |
* | * | 貰う | もらう | |
* | * | 下さる | くださる | |
* | * | 欲しい | ほしい | |
* | * | 過ぎる | すぎる | |
* | * | タ | た | |
* | * | 様 | よう | |
* | * | 見る | みる | |
* | * | 得る | える | |
* | * | チャウ | ちゃう | |
* | * | 知れる | しれる | |
* | * | 貰える | もらえる | |
* | * | 致す | いたす | |
* | * | 為さる | なさる |
http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/validation-report.pl
どうもありがとうございます。
BCCWJ に合わせるようにしますが、いくつかはデータのエラーですので、まずはデータのエラーから修正します。
すいません、そもそもUDのレンマはorthBaseを基準にしていたので、 表のレンマのところはorthBaseです
※ READMEからの引用
(0): pos1
(1): pos2
(2): pos3
(3): pos4
(4): cType
(5): cForm
(6): lForm
(7): lemma
(8): orth
(9): pron
(10): orthBase
(11): pronBase
(12): goshu
(13): iType
(14): iForm
(15): fType
(16): fForm
(17): iConType
(18): fConType
(19): type
(20): kana
(21): kanaBase
(22): form
(23): formBase
(24): aType
(25): aConType
(26): aModType
(27): lid
(28): lemma_id
する 動詞,非自立可能,*,*,サ行変格,終止形-一般,スル,為る(7 lemma),する,スル,する(これ),,和,,,,,,,,,,,スル,,,,,19537 I
これだと「する」は「する」のままになりますね、この場合どうでしょう...?
長単位は (7) lemma なので、短単位側も (7) lemma にしたい。
@masayu-a
現在、UDのlemmaをUnidic lemmaにし、ている群をAUXに変換した上で、AUXのエラーをだしているものです。
cat error_res.txt | grep Morph | cut -f 10 -d " " | sort | uniq -c | sort -n -k1 -r
4382 '様'
1857 '無い'
1512 '出来る'
596 '下さる'
421 'みたい'
339 '良い'
308 '易い'
194 '頂く'
179 '欲しい'
153 '難い'
101 'で有る'
49 '為さる'
45 '致す'
25 '辛い'
24 'ねばならない'
21 '臭い'
8 'にほかならない'
4 'ずにはいられない'
3 'てならない'
3 'てたまらない'
3 'がましい'
1 'みたく'
1 'て仕様がない'
1 'て仕方がない'
登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja
1512 '出来る' 短:動詞-非自立可能 長:動詞-一般
596 '下さる' 短:動詞-非自立可能 長:動詞-一般
194 '頂く' 短:動詞-非自立可能
49 '為さる' 短:動詞-非自立可能 長:動詞-一般
45 '致す' 短:動詞-非自立可能 長:動詞-一般
登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja
1857 '無い' 短:形容詞-非自立可能 長:形容詞-一般 (⇔ 'ない' 助動詞)
339 '良い' 短:形容詞-非自立可能 長:形容詞-一般
179 '欲しい' 短:形容詞-非自立可能 長:形容詞-一般
153 '難い' 短:形容詞-非自立可能 長:形容詞-一般(⇔ 長'○○難い' 形容詞-一般)
登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja
308 '易い' 短:接尾辞-形容詞的 長:×
25 '辛い' 短:接尾辞-形容詞的 (⇔ '辛い' 形容詞-一般)
21 '臭い' 短:接尾辞-形容詞的 (⇔ '臭い' 形容詞-一般)
3 'がましい' 短'○○がましい' ※ 接尾辞-形容詞的
登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja
4382 '様' 短長:形状詞-助動詞語幹
421 'みたい' 短長:形状詞-助動詞語幹
登録: http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja
24 'ねばならない' 長:助動詞 'ねばならない'
8 'にほかならない' 長:助動詞 'にほかならない'
4 'ずにはいられない' 長:助動詞 'ずにはいられない'
3 'てならない' 長:助動詞 'てならない'
3 'てたまらない' 長:助動詞 'てたまらない'
1 'て仕様がない' 長:助動詞 'て仕様がない'
1 'て仕方がない' 長:助動詞 'て仕方がない'
コーパス修正
101 'で有る' → 長:助動詞 'である' に修正
1 'みたく' →「みたい」に修正
コーパスに出現する lemma は登録しました。
@masayu-a 「為る」の登録消されましたか...?以前あったものが消えている気がします http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja
$ cat error_res.txt | perl -pe 's/^.*\[(L.*?)\].*$/\1/g' | sort | uniq -c
1 *** FAILED *** with 79360 errors
127 L4 Format invalid-word-with-space
79233 L5 Morpho aux-lemma
$ cat error_res.txt | grep Morph | cut -f 10 -d " " | sort | uniq -c | sort -n -k1 -r
28154 '為る'
18118 'ます'
11876 'ない'
4781 'ず'
3060 'のだ'
2618 'てる'
2170 'のです'
1164 'てくる'
914 'てしまう'
772 'ておる'
735 'ていく'
640 'てくれる'
544 'てみる'
516 'てくださる'
397 'てもらう'
389 'つう'
365 'のである'
320 'のではない'
255 'ておく'
179 'てほしい'
158 'ていただく'
155 'ばいい'
145 'こともある'
133 'てある'
91 'ことはない'
83 'つつある'
68 'ことにする'
65 'てやる'
60 'ごとし'
52 'てはいけない'
48 'とく'
34 'こともない'
32 'てく'
28 'やがる'
27 'てはならない'
24 'へん'
22 'はる'
14 'てらっしゃる'
10 'とる'
4 'ちゃる'
2 'よる'
2 'よらす'
2 'やす'
2 'なんだ'
2 'とらす'
2 'たげる'
1 'ないではいられない'
そうなんですよね。また Dan が消したんですよね。再度追加します。
@s10018 追加しました。
@masayu-a ありがとうございます、以下の3つもAUXではないでしょうか?
「ことにする」「つつある」「のである」もBCCWJの規定の複合辞・助動詞相当句に載っていたので入れていいかと思います
365 'のである'
83 'つつある'
68 'ことにする'
@s10018 すみません。
単純な登録ミスだと思います。
先ほど追加しました。
validation が通ったので close します。
http://quest.ms.mff.cuni.cz/udvalidator/cgi-bin/unidep/langspec/specify_auxiliary.pl?lcode=ja に追加して調整。