LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치

Retriever에 관한 작업에서는 아래와 같은 중요한 매개변수가 존재한다.

▲ ChunkSize는 굉장히 중요한 하이퍼 파라미터, 문서를 자르는 사이즈 단위라 성능에 직접적으로 연계

결론적으로 내보이는 내용은 다음과 같다.

chunk_size가 크면 좋은데
문제는, langchian 의 chunk_size는 글자수 기준이고
s-bert의 max_seq_length는 토큰수(보통 512) 라는 점.

이에 따른 솔루션은 아래와 같다 ▼

공식문서 참조(https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/split_by_token)
즉, 해당 Langchain 공식독스에 의하면 우리가 사용하는 SentenceTransformer의 경우 직접 지원을 함.

여기서 추가적으로 생각해볼 수 있는것은
해당 공식독스는 tiktoken, spaCy, NLTK, SentenceTransformer, huggingface 밖에 지원을 안하던데 타 토크나이저는 LangChain에 접붙여서 가용이 안되는가? 우회적으로 huggingface에 업로드하여 사용하는수밖에 없나? 한번 시도해볼만한것 같다.

ssisOneTeam / Korean-Embedding-Model-Performance-Benchmark-for-Retriever

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

Retriever에 관한 작업에서는 아래와 같은 중요한 매개변수가 존재한다.