sapporocpp / mokumoku

0 stars 0 forks source link

2018/02/13 もくもく会 #103 #110

Open maraigue opened 6 years ago

maraigue commented 6 years ago

「文書検索用索引の自前実装」の続きをやっておきたいので続き

ghost commented 6 years ago

先週の続きでグラフ理論のお勉強をします。まずは大学の教科書っぽい本を読んで,疲れたら適当に問題を解こうと思います。

maraigue commented 6 years ago

インデックスの作成方法はひとまず固めた。あとはそこを記憶する方法を決める。

インデックスの作成方法

2-gramを使っています。 例えば「ABCDE」って文字列があったら、「AB BC CD DE」という2文字組(の一覧)を、その文字列の特徴とみなして保存しておきます。 検索クエリが来たら、それについても2-gramを計算し、文字列と照合します。これで「欲しい文字列のみを検出する」ことができるわけではないですが、「欲しくない文字列を除外する」ことはできます。

2-gramを取得して、それをもとに照合する部分は完成。あとはそれを保持して抽出できれば。