taishan1994 / BERT-BILSTM-CRF

使用BERT-BILSTM-CRF进行中文命名实体识别。
291 stars 32 forks source link

更换数据训练报错 #5

Closed goldeneave closed 11 months ago

goldeneave commented 11 months ago

大佬好,我用了你的数据训练模型没有问题,但我自己标了一些数据后生成的训练集总是报错,报错信息如下:

Traceback (most recent call last): File "main.py", line 190, in <module> main(data_name) File "main.py", line 153, in main dev_data = [json.loads(d) for d in dev_data] File "main.py", line 153, in <listcomp> dev_data = [json.loads(d) for d in dev_data] File "/root/miniconda3/lib/python3.8/json/__init__.py", line 357, in loads return _default_decoder.decode(s) File "/root/miniconda3/lib/python3.8/json/decoder.py", line 337, in decode obj, end = self.raw_decode(s, idx=_w(s, 0).end()) File "/root/miniconda3/lib/python3.8/json/decoder.py", line 355, in raw_decode raise JSONDecodeError("Expecting value", s, err.value) from None json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

我核对了我的文件格式,都是按照你的来写,也尝试过更换标准的json文件格式,但都是报错,我的部分数据是这种格式:

{"id": "TEX0001", "text":["6", ".", "为", "进", "一", "步", "加", "大", "增", "值", "税", "留", "抵", "退", "税", "政", "策", "实", "施", "力", "度", ",", "着", "力", "稳", "市", "场", "主", "体", "稳", "就", "业", ",", "现", "将", "扩", "大", "全", "额", "退", "还", "增", "值", "税", "留", "抵", "税", "额", "政", "策", "行", "业", "范", "围", "有", "关", "政", "策", "公", "告", "如", "下", ":"], "labels":["O", "O", "O", "O", "O", "O", "O", "O", "B-税费种类", "I-税费种类", "I-税费种类", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-税费种类", "I-税费种类", "I-税费种类", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]} {"id": "TEX0003", "text":["8", ".", "(", "一", ")", "符", "合", "条", "件", "的", "批", "发", "零", "售", "业", "等", "行", "业", "企", "业", ",", "可", "以", "自", "2", "0", "2", "2", "年", "7", "月", "纳", "税", "申", "报", "期", "起", "向", "主", "管", "税", "务", "机", "关", "申", "请", "退", "还", "增", "量", "留", "抵", "税", "额", "。"], "labels":["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-所属行业", "I-所属行业", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]} {"id": "TEX0004", "text":["9", ".", "(", "二", ")", "符", "合", "条", "件", "的", "批", "发", "零", "售", "业", "等", "行", "业", "企", "业", ",", "可", "以", "自", "2", "0", "2", "2", "年", "7", "月", "纳", "税", "申", "报", "期", "起", "向", "主", "管", "税", "务", "机", "关", "申", "请", "一", "次", "性", "退", "还", "存", "量", "留", "抵", "税", "额", "。"], "labels":["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-所属行业", "I-所属行业", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]} 请大佬指教

goldeneave commented 11 months ago

解决了,谢谢!

lsc11232 commented 4 months ago

请问你是怎么解决的?

goldeneave commented 4 months ago

这个问题我印象里应该是由于数据的最后一行存在换行符,但时间有点久了,你可以尝试一下,如果还有问题,欢迎交流

lsc11232 commented 4 months ago

这个问题我印象里应该是由于数据的最后一行存在换行符,但时间有点久了,你可以尝试一下,如果还有问题,欢迎交流

解决了,非常感谢

Kkx-b commented 3 months ago

你好,我想请教一下,原博主自带数据集dgre运行成功,但是再换成自己数据集时,自己的数据集格式应该调成什么样的格式呢?能不能帮忙给一个实例,以下是本人数据集中的一条实例:

{"id":65521,"text":"811:北京市发展和改革委员会发文字号:京发改〔2023〕293号公布日期:2023.03.03施行日期:2023.03.03时效性:现行有效效力位阶:地方规范性文件法规类别:能源综合规定节能管理北京市发展和改革委员会关于印发数据中心项目年可再生能源利用水平核实评价技术导则(试行)的通知(京发改〔2023〕293号)各有关单位:  根据《关于进一步加强数据中心项目节能审查的若干规定》(京发改规〔2021〕4号)相关工作要求,为依据节能审查意见和节能报告做好取得节能审查批复的数据中心项目的年可再生能源利用水平核实评价工作,我们研究制定了《数据中心项目年可再生能源利用水平核实评价技术导则(试行)》,现予以印发。试行期间,如有问题和意见建议,请及时反馈。  特此通知。北京市发展和改革委员会  2023年3月3日  附件:数据中心项目年可再生能源利用水平核实评价技术导则(试行)附件预览无相关内容","entities":[{"id":473,"label":"政策主体-政策制定者","start_offset":341,"end_offset":352},{"id":483,"label":"政策过程-政策评估","start_offset":261,"end_offset":267},{"id":5917,"label":"政策主体-政策制定者","start_offset":103,"end_offset":114}],"relations":[],"Comments":[]}。

goldeneave commented 3 months ago

Kkx-b @.***>于2024年3月29日 周五11:17写道:

你好,我想请教一下,原博主自带数据集dgre运行成功,但是再换成自己数据集时,自己的数据集格式应该调成什么样的格式呢?能不能帮忙给一个实例,以下是本人数据集中的一条实例:

{"id":65521,"text":"811:北京市发展和改革委员会发文字号:京发改〔2023〕293号公布日期:2023.03.03施行日期:2023.03.03时效性:现行有效效力位阶:地方规范性文件法规类别:能源综合规定节能管理北京市发展和改革委员会关于印发数据中心项目年可再生能源利用水平核实评价技术导则(试行)的通知(京发改〔2023〕293号)各有关单位: 根据《关于进一步加强数据中心项目节能审查的若干规定》(京发改规〔2021〕4号)相关工作要求,为依据节能审查意见和节能报告做好取得节能审查批复的数据中心项目的年可再生能源利用水平核实评价工作,我们研究制定了《数据中心项目年可再生能源利用水平核实评价技术导则(试行)》,现予以印发。试行期间,如有问题和意见建议,请及时反馈。 特此通知。北京市发展和改革委员会 2023年3月3日 附件:数据中心项目年可再生能源利用水平核实评价技术导则(试行)附件预览无相关内容","entities":[{"id":473,"label":"政策主体-政策制定者","start_offset":341,"end_offset":352},{"id":483,"label":"政策过程-政策评估","start_offset":261,"end_offset":267},{"id":5917,"label":"政策主体-政策制定者","start_offset":103,"end_offset":114}],"relations":[],"Comments":[]}。

— Reply to this email directly, view it on GitHub https://github.com/taishan1994/BERT-BILSTM-CRF/issues/5#issuecomment-2026551893, or unsubscribe https://github.com/notifications/unsubscribe-auth/ANN257YB356HKMNCUUJTFYLY2TMMVAVCNFSM6AAAAAA25XMUTOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDAMRWGU2TCOBZGM . You are receiving this because you modified the open/close state.Message ID: @.***>

你好,我印象里原repo里应该是附带data sample,建议你仔细查看一下,另外我印象里标注格式应该是BIO,跟你的标注数据格式并不是很相符,可以参考sample调整一下