LC1332 / Chat-Haruhi-Suzumiya

Chat凉宫春日, An open sourced Role-Playing chatbot Cheng Li, Ziang Leng, and others.
Apache License 2.0
1.85k stars 164 forks source link

silk-road / ChatHaruhi-RolePlaying这个数据集中的编码是什么? #79

Closed 545771889a closed 5 months ago

545771889a commented 5 months ago

我想添加自己的数据进行rag匹配,通过debug源码,想知道silk-road / ChatHaruhi-RolePlaying中base64编码的部分解码之后字节是什么编码,我尝试了utf-8、unicoide解码都不对,另外想知道这部分编码的数据是数据集中text部分吗?

LC1332 commented 5 months ago

这个base64是压缩后的float的vector(现在想想其实用parquet存储更好。。) 是用util里面一个特定的函数来进行解码的https://github.com/LC1332/Zero-Haruhi/blob/main/ChatHaruhi/utils.py float2base64

LC1332 commented 5 months ago

数据集是float 2string编码的。

LC1332 commented 5 months ago

https://github.com/LC1332/Zero-Haruhi/blob/main/ChatHaruhi/utils.py base642string那个函数

545771889a commented 5 months ago

这个base64是压缩后的float的vector(现在想想其实用parquet存储更好。。) 是用util里面一个特定的函数来进行解码的https://github.com/LC1332/Zero-Haruhi/blob/main/ChatHaruhi/utils.py float2base64

好的 谢谢