ftnext / atmaCup10-paintings-likes

https://www.guruguru.science/competitions/16/
MIT License
0 stars 0 forks source link

textheroの前処理をpandasのSeries DataFrame以外にも適用できるようにする #7

Closed ftnext closed 3 years ago

ftnext commented 3 years ago

講義2で使っているpreprocessingのメソッドをpandas以外でも使えるようにするために再実装した https://texthero.org/docs/getting-started#preprocessing

gensimのメソッドも知っていたが、実装は別と思われる https://nikkie-ftnext.hatenablog.com/entry/try-bert-multiclass-classification-and-lessons

正規表現をコンパイルに変えてみたが、「モジュールレベルのマッチング関数に渡された最新のパターンはコンパイル済みのものがキャッシュされる」とのこと(効果はあまりなかったかも) https://docs.python.org/ja/3/library/re.html#re.compile

string.punctuationを使った正規表現(rfで始まる文字列) https://docs.python.org/ja/3/library/string.html#string.punctuation

NFKDに変えて、位置文字ずつcombiningをチェック。combiningが0でない文字を除くことで、diacritics(発音区別記号)を覗ける https://docs.python.org/ja/3/library/unicodedata.html#unicodedata.normalize https://docs.python.org/ja/3/library/unicodedata.html#unicodedata.combining

TfidfVectorizerの引数でも指定できる項目もありそう https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html