ssisOneTeam / Korean-Embedding-Model-Performance-Benchmark-for-Retriever

Korean Sentence Embedding Model Performance Benchmark for RAG
23 stars 4 forks source link

LangChain에서 ChunkSize를 조절할 때 단위와 SBERT 쪽에서의 단위 미스매치 #1

Open ash-hun opened 7 months ago

ash-hun commented 7 months ago

Retriever에 관한 작업에서는 아래와 같은 중요한 매개변수가 존재한다.

image ▲ ChunkSize는 굉장히 중요한 하이퍼 파라미터, 문서를 자르는 사이즈 단위라 성능에 직접적으로 연계

결론적으로 내보이는 내용은 다음과 같다.

chunk_size가 크면 좋은데
문제는, langchian 의 chunk_size는 글자수 기준이고
s-bert의 max_seq_length는 토큰수(보통 512) 라는 점.

이에 따른 솔루션은 아래와 같다 ▼

여기서 추가적으로 생각해볼 수 있는것은
해당 공식독스는 tiktoken, spaCy, NLTK, SentenceTransformer, huggingface 밖에 지원을 안하던데 타 토크나이저는 LangChain에 접붙여서 가용이 안되는가? 우회적으로 huggingface에 업로드하여 사용하는수밖에 없나? 한번 시도해볼만한것 같다.

PangPangGod commented 7 months ago

437-4370721_61-kb-png-pepe-giving-thumbs-up-transparent|100x100

멋있어요