Open ArtemisDicoTiar opened 7 months ago
https://github.com/huggingface/evaluate/blob/v0.4.0/src/evaluate/evaluator/text2text_generation.py#L74
spec decoding이 항상 target model의 dist 따르지 않을 수 있다
감마만큼 드래프터로 생성하는데 그 내용이 모두 성공한 경우에만 타겟모델로 다음 토큰을 생성한다. (*조금 이상하지만 논문의 구현이니) 그렇기 때문에 spec decoding의 결과가 이상하게 나올 수 있다.
https://github.com/huggingface/evaluate/blob/v0.4.0/src/evaluate/evaluator/text2text_generation.py#L74