troublemaker-r / Chinese_Coreference_Resolution

基于SpanBert的中文指代消解,pytorch实现
95 stars 20 forks source link

训练集数据格式 #9

Closed yanqiangmiffy closed 2 years ago

yanqiangmiffy commented 2 years ago

您好,请问下clusters的list应该是同一个指代index吧,但是感觉原始文档区索引的时候发现不是匹配的?

比如下面是一个例子,答案为:

[
      [
        388,
        404
      ],
      [
        410,
        411
      ]
    ],
import json

sample = json.loads(open('data/demo.json', 'r', encoding='utf-8').read())
print(len(sample['sentences']))
print(''.join([''.join(sent[1:-1]) for sent in sample['sentences']]))
print(''.join([' '.join(sent) for sent in sample['sentences']]).split(' ')[410:411])
print(''.join([' '.join(sent) for sent in sample['sentences']]).split(' ')[388:404])
# print(''.join([''.join(sent[1:-1]) for sent in sample['sentences']])[54:56])
# print(''.join([''.join(sent[1:-1]) for sent in sample['sentences']])[1244:1247])
# print(''.join([''.join(sent[1:-1]) for sent in sample['sentences']])[1292:1295])

输出:


9
你们会有很多的叫线人是吧?一般我们说公安局,派出所才有线人,你们也有线人?线人最有可能就是一些服务商,或者(())或者保安,或者是看车的这些人。然后就大家就聊先聊天,然后就说,呃,你是不是在这儿会经常见着谁啊?啊,是。那谁谁谁今天还过来了,我说好那下次如果要是见着了的话,嗯,你跟我说一声成吧?有些人说行,啊那没问题。几幅照片奠定了他在娱乐圈的资深位置。你现在做这么多年的那个娱乐新闻的记者,你觉得当初离开西安,不做你的那个婚纱摄影的生意到这儿来对吗这个选择?我觉得挺好的,我觉得我的视野啊,各方面经历啊都多了很多。最吸引你的是什么?就是这种经历,这种过程。但有时间你会不会想,那个谁谁谁有没有怀孕,其实也跟我没什么关系,就是我们知道哦她怀孕了,不怀孕其实跟我们没什么关系,有时候你会不会这么想?我觉得就是说是,可能有大家有这样的想法,但是我就是我的新闻就是做给那些愿意把把这条新闻剪辑成头条的人。我就是给他们做的。鲁豫有约,今天继续讲述娱乐记者们的草样年华。e##m##p##t##y卓伟,一九七一年出生,在这个新兴的传媒行业中,他算得上老人了。从一九八六年起,十五岁的卓伟就收集阅读电影画报等许多杂志。从影迷而成娱乐记者是卓伟和他许多同僚们共同的生活轨迹。卓伟的同事大多是八十年代的小孩儿,当他们用录音笔,摄像头,<e##n##g##l##i##s##h>d##v</e##n##g##l##i##s##h>网络记录来交流新闻时,卓伟还固执地采用着工作记事本。工作本上的内容就是有采访记录啊,然后新闻线索啊,啊还有相关的一些个圈里圈外人士联系人的电话啊,住址啊。所以我写的每一篇报道呢,我相信都是忠于事实,忠于这个客观,客观的。所以当然虽然说没有用采访笔的采或者录音机的这个习惯吧。很少用,但是呃通过我的这个记录整理出来的文章呢,好象没有过没有引起过什么什么麻烦。虽然卓伟的新闻装备落后,但说起娱乐新闻观念,卓伟却比许多年轻同事更自由,更激进。我并不是说娱乐新闻没有底线,就采访的内容来讲,我觉得任何事情都可以进行采访。对吧。然后,就是记者有采访的权力,媒体有采访的权力,但是从报道上来,报道上面来讲呢,就是说这个当我们采访完了,然后来进行报道的时候呢,我想还是要尤其触及一些敏感的话题和敏感的内容,还是要慎重对待,还是要谨慎一些。卓伟以做独立的娱乐新闻而在圈内颇有名气,同样的他对娱乐事件穷追到底的做法也给他带来过麻烦。
['的']
['意', '把', '把', '这', '条', '新', '闻', '剪', '辑', '成', '头', '条', '的', '人', '。', '我']