Closed 545771889a closed 5 months ago
这个base64是压缩后的float的vector(现在想想其实用parquet存储更好。。) 是用util里面一个特定的函数来进行解码的https://github.com/LC1332/Zero-Haruhi/blob/main/ChatHaruhi/utils.py float2base64
数据集是float 2string编码的。
https://github.com/LC1332/Zero-Haruhi/blob/main/ChatHaruhi/utils.py base642string那个函数
这个base64是压缩后的float的vector(现在想想其实用parquet存储更好。。) 是用util里面一个特定的函数来进行解码的https://github.com/LC1332/Zero-Haruhi/blob/main/ChatHaruhi/utils.py float2base64
好的 谢谢
我想添加自己的数据进行rag匹配,通过debug源码,想知道silk-road / ChatHaruhi-RolePlaying中base64编码的部分解码之后字节是什么编码,我尝试了utf-8、unicoide解码都不对,另外想知道这部分编码的数据是数据集中text部分吗?