masayu-a / UD_Japanese-GSDPUD-CaboCha

2 stars 1 forks source link

LEMMA の修正 #15

Closed masayu-a closed 2 years ago

masayu-a commented 2 years ago

https://github.com/mynlp/udjapanese/issues/216 https://github.com/mynlp/udjapanese/issues/215 20220416-LEMMA修正表.xlsx

masayu-a commented 2 years ago

figure2 figure3

工学系研究者に「書字形基本形」は lemma ではなく「語彙素」が lemma であることを説得中。

masayu-a commented 2 years ago

頻度10以上のものと数値表現を再度見直しました。

#    801 こと 琴   
#    503 なっ 鳴る
#    285 もの 者

File.open(ARGV[0]).each_line do |line|
  line.chomp!
  if line =~ /コト,こと\t/
    STDERR.puts "コト,こと"
    line.gsub!(/コト,こと\t/,"コト,事\t")
  end   
  if line =~ /ナル,なる\t/
    STDERR.puts "ナル,なる"
    line.gsub!(/ナル,なる\t/,"ナル,成る\t")
  end   
  if line =~ /ナル,生る\t/
    STDERR.puts "ナル,生る"
    line.gsub!(/ナル,生る\t/,"ナル,成る\t")
  end   
  if line =~ /バアワセ,場合わせ\t/
    STDERR.puts "バアワセ,場合わせ"
    line.gsub!(/バアワセ,場合わせ\t/,"バアイ,場合\t")
  end   

  if line =~ /カゲヒビキ,影響き\t/
    STDERR.puts "カゲヒビキ,影響き"
    line.gsub!(/カゲヒビキ,影響き\t/,"エイキョウ,影響\t")
  end   

  if line =~ /ヨテイ,余定\t/
    STDERR.puts "ヨテイ,余定"
    line.gsub!(/ヨテイ,余定\t/,"ヨテイ,予定\t")
  end   
  if line =~ /ミエル,見得る\t/
    STDERR.puts "ミエル,見得る"
    line.gsub!(/ミエル,見得る\t/,"ミエル,見える\t")
  end   

  if line =~ /メンバー,麺バー\t/
    STDERR.puts "メンバー,麺バー"
    line.gsub!(/メンバー,麺バー\t/,"メンバー,メンバー\t")
  end   

  if line =~ /娘.*コ,子\t/
    STDERR.puts "コ,子"
    line.gsub!(/コ,子\t/,"ムスメ,娘\t")
  end   

  if line =~ /ブログ,麩ログ\t/
    STDERR.puts "ブログ,麩ログ"
    line.gsub!(/ブログ,麩ログ\t/,"ブログ,ブログ\t")
  end   

  if line =~ /オススメル,御勧める\t/
    STDERR.puts "オススメル,御勧める"
    line.gsub!(/オススメル,御勧める\t/,"オススメ,オススメ\t")
  end   

  if line =~ /ナカ,仲\t/
    STDERR.puts "ナカ,仲"
    line.gsub!(/ナカ,仲\t/,"ナカ,中\t")
  end   

  if line =~ /ハジメ,端目\t/
    STDERR.puts "ハジメ,端目"
    line.gsub!(/ハジメ,端目\t/,"ハジメ,始め\t")
  end   

  line.gsub("一二,ゼロゼロゼロポンド","12,000ポンド")
  line.gsub("一一ゼロ番通報する","110番通報する")
  line.gsub("一一,三八一人","11,381人")
  line.gsub("一ゼロゼロ,七七一人","100,771人")
  line.gsub("一ゼロ,ゼロゼロゼロポンド","10,000ポンド")
  line.gsub("一/一,ゼロゼロゼロ頭","1/1,000頭")
  line.gsub("一,五五ゼロ万ユーロ","1,550万ユーロ")
  line.gsub("一,四七五人","1,475人")
  line.gsub("一,三三五ユーロ","1,335ユーロ")
  line.gsub("一,一六五ユーロ","1,165ユーロ")
  line.gsub("一,ゼロ九二名","1,092名")
  line.gsub("一,ゼロ二一人","1,021人")
  line.gsub("一,ゼロゼロゼロ頭","1,000頭")
  line.gsub("一,ゼロゼロゼロ人","1,000人")
  line.gsub("一,ゼロゼロゼロメートル","1,000メートル")
  line.gsub("八二,ゼロゼロゼロ人","82,000人")
  line.gsub("八,九年前","8,9年前")
  line.gsub("八,四ゼロゼロ円","8,400円")
  line.gsub("七,二ゼロゼロ人","7,200人")
  line.gsub("七,ゼロゼロゼロ万ドル以上","7,000万ドル以上")
  line.gsub("六万三,ゼロゼロゼロ円","6万3,000円")
  line.gsub("六,ゼロゼロゼロ人以上","6,000人以上")
  line.gsub("五二,ゼロゼロゼロ台","52,000台")
  line.gsub("五,ゼロゼロゼロ年","5,000年")
  line.gsub("五,ゼロゼロゼロドル","5,000ドル")
  line.gsub("四,二百万ユーロ","4,200万ユーロ")
  line.gsub("三七,五八五票","37,585票")
  line.gsub("三七,ゼロ八九票","37,089票")
  line.gsub("三六,六九八米ドル","36,698米ドル")
  line.gsub("三ゼロ,四九九米ドル","30,499米ドル")
  line.gsub("三,ゼロゼロゼロ部","3,000部")
  line.gsub("二万六,ゼロゼロゼロ円前後","2万6,000円前後")
  line.gsub("二九,三七一米ドル","29,371米ドル")
  line.gsub("二ゼロ,七ゼロ一米ドル","20,701米ドル")
  line.gsub("二,八九二ヤード","2,892ヤード")
  line.gsub("二,三回","2,3回")
  line.gsub("二,ゼロゼロゼロ点","2,000点")

  puts line
end