Closed ftnext closed 3 years ago
講義2で使っているpreprocessingのメソッドをpandas以外でも使えるようにするために再実装した https://texthero.org/docs/getting-started#preprocessing
gensimのメソッドも知っていたが、実装は別と思われる https://nikkie-ftnext.hatenablog.com/entry/try-bert-multiclass-classification-and-lessons
正規表現をコンパイルに変えてみたが、「モジュールレベルのマッチング関数に渡された最新のパターンはコンパイル済みのものがキャッシュされる」とのこと(効果はあまりなかったかも) https://docs.python.org/ja/3/library/re.html#re.compile
string.punctuationを使った正規表現(rfで始まる文字列) https://docs.python.org/ja/3/library/string.html#string.punctuation
string.punctuation
rf
NFKDに変えて、位置文字ずつcombiningをチェック。combiningが0でない文字を除くことで、diacritics(発音区別記号)を覗ける https://docs.python.org/ja/3/library/unicodedata.html#unicodedata.normalize https://docs.python.org/ja/3/library/unicodedata.html#unicodedata.combining
TfidfVectorizerの引数でも指定できる項目もありそう https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
講義2で使っているpreprocessingのメソッドをpandas以外でも使えるようにするために再実装した https://texthero.org/docs/getting-started#preprocessing
gensimのメソッドも知っていたが、実装は別と思われる https://nikkie-ftnext.hatenablog.com/entry/try-bert-multiclass-classification-and-lessons
正規表現をコンパイルに変えてみたが、「モジュールレベルのマッチング関数に渡された最新のパターンはコンパイル済みのものがキャッシュされる」とのこと(効果はあまりなかったかも) https://docs.python.org/ja/3/library/re.html#re.compile
string.punctuation
を使った正規表現(rf
で始まる文字列) https://docs.python.org/ja/3/library/string.html#string.punctuationNFKDに変えて、位置文字ずつcombiningをチェック。combiningが0でない文字を除くことで、diacritics(発音区別記号)を覗ける https://docs.python.org/ja/3/library/unicodedata.html#unicodedata.normalize https://docs.python.org/ja/3/library/unicodedata.html#unicodedata.combining
TfidfVectorizerの引数でも指定できる項目もありそう https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html