ZiminPark / coffee-augmented-rag

4 stars 0 forks source link

Encoding해서 한 번에 LLM에 넣지 말고 부분부분을 Retrieval 잘 하는건 어떨까? #28

Closed ZiminPark closed 2 months ago

ZiminPark commented 2 months ago

Encoding 하는 이유는 1) 스프레드시트를 Naive하게 넣기엔 너무 길어서 2) QA 성능이 잘 안나와서 인듯. Encoding 해서 정보를 잘 압축하려는거 같은데 Retrieval에 더 초점을 맞춰도 되지 않을까? QA에 필요한 부분만 검색해와서 사용하는 방식. Indexing을 특별하게 하긴 해야할듯?

ZiminPark commented 2 months ago

DB 대상으로 (Vector) Search 하기 쉬울지가 관건일듯

지금은 LLM이 Table Selection하고 Heading도 인식하고