security-anthem / MAID

MAID -MAIl Detective-
MIT License
3 stars 6 forks source link

スパム検知で使用するキーワードの自動学習 #35

Open MMikipenguin opened 2 years ago

MMikipenguin commented 2 years ago

スパム検知で使用するキーワードは,spam_words_list.jsに表記される. 流行しているスパムの内容が変化することで,事前に定義したキーワードリストでは, スパム検知の精度が落ちる可能性がある.

スパムの内容に現れるキーワードを人手で決めることなく,プログラムで自動的に学習する 機能があるとよい.

具体的には,メールの本文やサブジェクトを単語の単位で解析して,出現頻度の多い単語をリストに自動で追加する. しかし,自然言語を単語単位で解析する解析プログラムは,設計が難しいと考えられる. また,単純に出現頻度で選択すると,「...の」や「...は」といったメールの種類を問わず頻出する 単語(文章を構成するのに必須な単語)など,本来リストに入れる必要がない単語まで誤って選択する恐れがある. このため,「不正ログイン」,「パスワード」など「スパムにとって意味のある」単語を選ぶようルールを 決める必要がある.