ytanaka- / menthas

Menthas: Curated News Reader For Japanese Programmers
145 stars 11 forks source link

`Intl.Segmenter` に移行する #71

Open ytanaka- opened 1 year ago

ytanaka- commented 1 year ago

https://developer.mozilla.org/ja/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter

ytanaka- commented 1 year ago

https://github.com/ytanaka-/menthas/blob/master/src/backend/crawler/contents-client.js#L24

ここを移行できそう

ytanaka- commented 8 months ago

実験してみたが、

const str = 'Menthasはニュースキュレーションサイトです';
const segmenter = new Intl.Segmenter('jp', {
  granularity: 'word',
});
const segments = segmenter.segment(str);
for (const seg of segments) {
  console.log(seg.segment)
}

でやると

> "Menthas"
> "は"
> "ニュー"
> "スキ"
> "ュ"
> "レ"
> "ー"
> "ション"
> "サイト"
> "です"

みたいになってしまい実用的ではなさそう... 精度を高めるには何か設定があるのだろうか?