liyongsea / parallel_corpus_mnbvc

parallel corpus dataset from the mnbvc project
Apache License 2.0
8 stars 5 forks source link

GPT Batch Sequential Detector #31

Closed voidf closed 1 year ago

voidf commented 1 year ago

我的串行请求方案,下一步的batch构造需要依赖上一次的返回值。由于这个特性,遇到GPT返回的结果中并没有新成段内容时就会导致整个文件不可用。

解决这个问题的方案可以是后期结合人工把异常文件解决掉,通过直接编辑cache的方式。

可以是使用多个prompt,一个不行尝试用另一个。

或者麻烦看一下有没有别的方案来解决这个问题。

liyongsea commented 1 year ago

Missing requirements: pylcs tiktoken