yukihito-jokyu / RAG-1

0 stars 0 forks source link

チャンク分割の実装について #7

Closed yukihito-jokyu closed 1 week ago

yukihito-jokyu commented 1 week ago

RecursiveCharacterTextSplitterで実装するらしい

yukihito-jokyu commented 1 week ago

RecursiveCharacterTextSplitteは再帰文字テキストスプリッターと言うらしい。 このクラスはテキストを段階的に分割することができる。

例:

  1. 最初に段落("\n\n")で分割
  2. 次に改行("\n")で分割
  3. 最後に("。")読点で分割

その後にチャンク数より長い文を分割する。

これを実装することで適切な分割が実現できる可能性がある。

yukihito-jokyu commented 1 week ago

実装したので閉じる