Open runhani opened 3 months ago
arxiv
10M tokens (천만) = 7.5M = 750만 단어
1 token = 4 characters = 0.75 words
우선 영어 속담을 알아야 한다.
Find a needle in a haystack : 지푸라미더미에서 바늘 찾기, 서울에서 김서방 찾기, 모래사장에서 바늘 찾기 다 비슷한 의미
그래서 사람들이 text retrieval 능력을 평가하기 위해서
Long Context LLMs 평가 code
아주 긴 context window 중간에 statement를 심어 놓고 모델에게 찾아보라고 하는 test
결국 multilingual, multimodal 다 하나의 모델에서 가능한 것인가?
arxiv
10M tokens (천만) = 7.5M = 750만 단어
1 token = 4 characters = 0.75 words
우선 영어 속담을 알아야 한다.
Find a needle in a haystack : 지푸라미더미에서 바늘 찾기, 서울에서 김서방 찾기, 모래사장에서 바늘 찾기 다 비슷한 의미
그래서 사람들이 text retrieval 능력을 평가하기 위해서
Long Context LLMs 평가 code
아주 긴 context window 중간에 statement를 심어 놓고 모델에게 찾아보라고 하는 test