Open kuriyan1204 opened 1 year ago
Wikipedia で text が空欄になっている件について -> ページのジャンプが起こるようなURLを踏むと text が空欄になる
Wikipedia のリンクの中には,自動的に別のページに飛ぶようなリンクが存在する
これのリンク先には記事の実態が存在しないので,本文のテキストを抜き出すことができず text が空欄になる WikiExtractor 自体は正常に動いているよう.(よかった)
textが空のものを適宜抜いてあげるなどの処理を書いてしまえば良さそう.
Abeja Tokenizer の確認について:Tokenizer の場所が分からないので一旦 pend