Emma1066 / Zero-Shot-NER-with-ChatGPT

This is the github repository for the paper at EMNLP 2023: Empirical Study of Zero-Shot NER with ChatGPT.
38 stars 5 forks source link

如果使用few-shot场景 #1

Open zhanghaok opened 8 months ago

zhanghaok commented 8 months ago

在msra数据集下生成few-shot的prompt的时候 出现了需要提供这个“train_demo_fixed_random_42_3.json”文件,请问这个文件里面的数据是怎么样子的呢

zhanghaok commented 8 months ago

另外里面的start_time参数是什么意思呢

Emma1066 commented 8 months ago

在msra数据集下生成few-shot的prompt的时候 出现了需要提供这个“train_demo_fixed_random_42_3.json”文件,请问这个文件里面的数据是怎么样子的呢

在运行few-shot实验前,需要先生成所需要的样例,即demonstrations,样例生成的代码我们暂时还未来得及整理上传。“train_demo_fixed_random_42_3.json”这个文件里就是demonstrations,它的数据格式与我们提供的样例数据集是一模一样的,这个文件名的含义是:设置random seed为42,从training set中随机采样得到的3个样例;fixed指的是我们会用这3个样例作为固定的样例,每一个test样本都是用这三个样例来进行预测。

以下是“train_demo_fixed_random_42_3.json”的一个例子,您可以随机抽取其他的样例:

[
    {
        "idx": 24319,
        "sentence": "据悉,仅5月31日一天,莫斯科市税警就查出1600个违法经营者。",
        "label": {
            "莫斯科市": "地点"
        },
        "self_annotate": {
            "prediction": "{'莫斯科市': '地点'}",
            "consistency_score": "{'entities': {('莫斯科市', '地点'): 4}, 'avg': 4.0}"
        }
    },
    {
        "idx": 41348,
        "sentence": "长沙市妇联组织还积极维护再就业女工的合法权益。",
        "label": {
            "长沙市妇联": "机构"
        },
        "self_annotate": {
            "prediction": "{'长沙市妇联组织': '地点', '再就业女工': '人物'}",
            "consistency_score": "{'entities': {('长沙市妇联组织', '地点'): 3, ('再就业女工', '人物'): 4}, 'avg': 3.5}"
        }
    },
    {
        "idx": 37369,
        "sentence": "经过20年的努力,该院已形成学科专业齐全,管理体制配套的硕士、博士、博士后高层次人才培养体系。",
        "label": {},
        "self_annotate": {
            "prediction": "{'该院': '机构'}",
            "consistency_score": "{'entities': {('该院', '机构'): 2}, 'avg': 2.0}"
        }
    }
]
Emma1066 commented 8 months ago

另外里面的start_time参数是什么意思呢

start_time就是一个时间戳,可以理解为实验id,仅用来标记每一次不同的实验。可以按个人喜好随意设置。我一般设置为实验开始跑的时间。