概要

入力：正規化処理の結果（概念A, 数量Xa）のリスト

出力：未知数ｘの演算結果

目的

加算減算問題を解くため

タスク

[x] 動詞知識ベース・変化明示語知識ベースを作成する
[x] 内部表現形式を作成する 例：(概念A, 数量Xa, 動詞Va)のタプル

[x] 内部表現形式を『変化前』『＋の変化量』『ーの変化量』『変化後』に分類する

table = {
'before': (概念A, 数量Xa, 動詞Va),
'increase': (概念B, 数量Xb, 動詞Vb),
'decrease': (概念C, 数量Xc, 動詞Vc),
'after': (概念D, 数量Xd, 動詞Vd)
}

[ ] 問題を(Ⅰ)時系列変化問題と(Ⅱ)部分全体・包含関係問題に区別する
- [ ] tableのbeforeとafterに概念があり，increaseまたはdecreaseに概念がある場合， (Ⅰ)時系列変化問題となる
[ ] 数式に当てはめて答えを出す
- [ ] sympyを用いて数式と未知数を指定して未知数の答えを出す

同率１位のデータがある`allduplicate_list`の最頻出単語を求める時エラーになる対処法！

再現方法

main.py 202行目 quest = quest_list[18][4]で試した見ると以下のエラーが発生する.

例外が発生しました: StatisticsError
no unique mode; found 2 equally common values
  File "/workspace/NLP-Container/main.py", line 139, in get_standard_list
    base_word = (mode(allduplicate_list))
  File "/workspace/NLP-Container/main.py", line 213, in <module>
    standard_list = get_standard_list(normalize_list)

改善案

collections.Counterクラスを作成して、most_common()メソッドを利用して最頻出単語のリストを取得できる。

+ from collections import  Counter

def get_standard_list(normalize_list:list) -> list:
    vectors = Magnitude("chive-1.2-mc5.magnitude")
    standard_list = []
    normalize_word_set = set([normalizeword_tuple[0] for normalizeword_tuple in normalize_list])
    duplicate_list = []
    allduplicate_list = []

    for word in normalize_list:
        # vectors.most_similar(word[0], topn=10)はtuple型のlistである.
        # 単語のリスト化を行う
        word_set = set([word_tuple[0] for word_tuple in vectors.most_similar(word[0], topn=10) ])
        #重複単語のリスト化
        duplicate_list = list((normalize_word_set & word_set))
        allduplicate_list.extend(duplicate_list)
    #allduplicate_listの再頻出単語
-   base_word = (mode(allduplicate_list))
+   base_word = Counter(allduplicate_list).most_common()[0][0]
    for normalize_word in normalize_list:
        standard_list.append((base_word,normalize_word[1],normalize_word[2],normalize_word[3]))
    return standard_list

RYoTA1209 / NLP-Container

③加算減算システム #11

概要

入力：正規化処理の結果（概念A, 数量Xa）のリスト

出力：未知数ｘの演算結果

目的

タスク

同率１位のデータがある`allduplicate_list`の最頻出単語を求める時エラーになる対処法！

再現方法

改善案

RYoTA1209 / NLP-Container

③加算減算システム #11

概要

入力：正規化処理の結果（概念A, 数量Xa）のリスト

出力：未知数ｘの演算結果

目的

タスク

同率１位のデータがあるallduplicate_listの最頻出単語を求める時エラーになる対処法！

再現方法

改善案

同率１位のデータがある`allduplicate_list`の最頻出単語を求める時エラーになる対処法！