SoftWiser-group / iTag

Implementation of An Integral Tag Recommendation Model for Textual Content.
10 stars 3 forks source link

你好,请问能否提供数据输入的格式说明呢 #3

Closed Quincy1994 closed 5 years ago

Quincy1994 commented 5 years ago

你好,请问能否提供数据输入的格式说明呢,在share_dataset中的npz的输入格式具体是指什么呢,如果可以,请问可以提高一份样例数据吗?

Tangworld commented 5 years ago

你好,数据格式说明如下: 我们的numpy文件包含两个数组,一个用来存放文本特征(shared_dataset.py中的"brs"),另一个存放标签(shared_dataset.py中的"sfs"),至于"ms",其实代码中并未用到,因此可以不必理会。 举个例子,一条数据的格式如下: 文本特征:[202, 1939, 2805, 1, 3, 88, 117, 440, 31, 3, 980],其中的每一个数字代表一个单词(也就意味着你需要构建一个单词与id之间的映射表),这整个list就构成了一篇文本。 标签:[1, 31, 904, 934],同理,一个数字代表一个标签,这整个list就是上述文本对应的全部标签。

希望可以帮到你 祝好

Quincy1994 commented 5 years ago

好的,谢谢,那请问这里的shared.txt具体是标签的词对应于文本特征的下标吗?

Tangworld commented 5 years ago

是的,shared.txt里保存的是文本和标签相同词的下标对应关系

Quincy1994 commented 5 years ago

好呢,谢谢,请问你方便提供其他baseline的源码,或者私发我邮箱1024760384@qq.com, 非常感激