troublemaker-r / Chinese_Coreference_Resolution

基于SpanBert的中文指代消解,pytorch实现
95 stars 20 forks source link

如何训练自己的中文数据集? #27

Open lxystaruni opened 7 months ago

lxystaruni commented 7 months ago

我的中文数据集格式如下:{"doc_key": "bc/tiktok/00/tiktok_0224_0", "sentences": [["[CLS]", "这", "是", "杰", "伦", "唯", "一", "一", "首", "在", "音", "乐", "软", "件", "上", "不", "收", "钱", "的", "歌", "[SEP]"], ["[CLS]", "唯", "一", "?", "?", "?", "?", "午", "高", "的", "歌", "要", "钱", "?", "朴", "树", "的", "歌", "要", "钱", "?", "?", "?", "薛", "之", "谦", "的", "歌", "要", "钱", "?", "?", "?", "[SEP]"]], "speakers": [["[SPL]", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "[SPL]"], ["[SPL]", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "[SPL]"]], "constituents": [], "ner": [], "clusters": [[[3, 4]], [[27, 28]], [[34, 35]], [[43, 45]]], "sentence_map": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], "subtoken_map": [0, 0, 0, 1, 1, 2, 2, 3, 3, 4, 5, 5, 6, 6, 7, 8, 9, 9, 10, 11, 11, 12, 12, 12, 13, 14, 15, 16, 17, 17, 18, 19, 20, 20, 21, 22, 22, 23, 24, 25, 25, 26, 27, 28, 29, 29, 29, 30, 31, 32, 32, 33, 34, 35, 35], "pronouns": []} 我在训练自己的数据集时,会出现loss为0但是预测结果为空值的情况,这是为什么?希望能获得您的指点。