PaddlePaddle / RocketQA

🚀 RocketQA, dense retrieval for information retrieval and question answering, including both Chinese and English state-of-the-art models.
Apache License 2.0
767 stars 128 forks source link

ce打分模型matching卡住,10几秒后异常退出 #74

Closed jyjy007 closed 1 year ago

jyjy007 commented 1 year ago

打分这段代码:

    ce_conf = {
        "model": 'zh_dureader_ce_v2',
        "use_cuda": True,
        "device_id": 0,
        "batch_size": 32
    }
    cross_encoder = rocketqa.load_model(**ce_conf)

    q = ['电力设备行业规模', '电力设备行业规模', '电力设备行业规模', '电力设备行业规模', '电力设备行业规模']
    t = ['电力设备行业的市场规模分析 电力设备行业未来发展前景分...', '电力设备市场细分数据分析_财富号_东方财富网',
         '电力设备行业市场分析', '2021年电力设备制造行业发展概况及趋势分析 - 百...', '2022年电力设备制造行业现状和发展趋势.docx-原创力文档']
    p = ['目前电力设备行业市场规模已经超过5000亿元,行业利润总额产国340亿元。国内电力设备市场正在以持续稳定的增长之势向前发展,我国电力设备行业当前处于行业的快... https://www.chinairn.com/news/20220718/162320712.shtml baidu_2 1658073600',
         '目前电力设备行业的市场规模已经超过5000亿元,行业利润总额产国340亿元。国内电力设备市场正在以持续稳定的增长之势向前发展,2022-2027年中国机械电力设备行业市场供需及重点企业投... https://caifuhao.eastmoney.com/news/20220721184503449012900 baidu_3 1658332800',
         '预计到 2025年,低压电器市场规模将达到 1,240亿元,预计 2021年到 2025年的年均复合增长率为 7.72%,继续保持高速增长的趋势。在电力行业,统电力系统正朝着新型电力系统过渡,... https://baijiahao.baidu.com/s?id=1744016995218803706&wfr=spider&for=pc baidu_4 1663171200',
         '电力设备制造业是机械工业最主要的子行业之一,行业资产总额占整个机械 工业的近 1/4.2015 年,电力设备制造业行业规模继续扩大,资产总额稳步增长, 企业数量有所回升.截至 2015... https://wenku.baidu.com/view/7d481de1d2f34693daef5ef7ba0d4a7302766ca0.html baidu_5 ',
         '从行业规模来看,2019年,电 力设备行业规模继续扩大,企业数量继续回升,资产总额稳步增长。截至2019年底,行业规模以上企业达21,512家,同比增加354家;资产总额达6... https://m.book118.com/html/2022/1110/8137123122005011.shtm baidu_7 1668614400']

    print('score ...')
    s = list(cross_encoder.matching(query=q, para=p, title=t))
    print(s)

对应的输出:

RocketQA model [zh_dureader_ce_v2]
WARNING:root:paddle.fluid.layers.py_reader() may be deprecated in the near future. Please use paddle.fluid.io.DataLoader.from_generator() instead.
W1202 17:21:07.773284 52200 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.6, Driver API Version: 11.7, Runtime API Version: 11.2
W1202 17:21:07.778347 52200 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
Load model done
score ...

进程已结束,退出代码-1073741819 (0xC0000005)

matching的参数不能随意指定文本吗?为什么会卡住不动,过十几秒之后异常退出?

jyjy007 commented 1 year ago

输入q/p/t改成很简单的词之后,仍然是一样的情况。

    q = ['文化']
    p = ['文化']
    t = ['文化']
    print('score ...')
    s = list(cross_encoder.matching(query=q, para=p, title=t))
    print(s)
jyjy007 commented 1 year ago

上网搜了一下,升级了scipy和numpy等,目前输出的分数是正常的,但是还是会卡住一段时间后报错退出。

进程已结束,退出代码-1073740791 (0xC0000409)
jyjy007 commented 1 year ago

好像没问题了,是model析构的时候出问题,模型加载到服务中进行批量打分没有问题。