你好想问下dataset里的train.json 文件是什么

lonePatient / BERT-NER-Pytorch

Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

MIT License

2.06k stars 424 forks source link

你好想问下dataset里的train.json 文件是什么 #38

Open SStarLib opened 3 years ago

SStarLib commented 3 years ago

直接运行 sh run_ner_crf.py 出了如下错误： Traceback (most recent call last): File "run_ner_crf.py", line 496, in main() File "run_ner_crf.py", line 436, in main train_dataset = load_and_cache_examples(args, args.task_name, tokenizer, data_type='train') File "run_ner_crf.py", line 336, in load_and_cache_examples examples = processor.get_train_examples(args.data_dir) File "/home/wei/A_TestProject/BERT-NER-Pytorch-master/processors/ner_seq.py", line 204, in get_train_examples return self._create_examples(self._read_json(os.path.join(data_dir, "train.json")), "train") File "/home/wei/A_TestProject/BERT-NER-Pytorch-master/processors/utils_ner.py", line 75, in _read_json with open(input_file,'r') as f: FileNotFoundError: [Errno 2] No such file or directory: '/home/wei/A_TestProject/BERT-NER-Pytorch-master/datasets/cluener/train.json'

rmxkyz commented 3 years ago

你好就我的了解, train.json即是包含了訓練資料以及標記的data. 具體格式: {"text": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为，对目前国内商业银行而言，", "label": {"name": {"叶老桂": [[9, 11]]}, "company": {"浙商银行": [[0, 3]]}}} text為訓練例句(instance), label中的name和company是訓練項目中的entity, 你可以選擇自己需要的去留存就好。另外label中entity的[n,m] 表示該entity在text中的位置,至於為何是torch.size([1,2])我可能暫時無法更深入的解釋。 cluener數據集在tools/download_clue_data.py 中可以直接調用,請參照作者readme 或是直接從這鏈結下載cluener data

SStarLib commented 3 years ago

你好就我的了解, train.json即是包含了訓練資料以及標記的data. 具體格式: {"text": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为，对目前国内商业银行而言，", "label": {"name": {"叶老桂": [[9, 11]]}, "company": {"浙商银行": [[0, 3]]}}} text為訓練例句(instance), label中的name和company是訓練項目中的entity, 你可以選擇自己需要的去留存就好。另外label中entity的[n,m] 表示該entity在text中的位置,至於為何是torch.size([1,2])我可能暫時無法更深入的解釋。 cluener數據集在tools/download_clue_data.py 中可以直接調用,請參照作者readme 或是直接從這鏈結下載cluener data

多谢解答