fastnlp / fastHan

fastHan是基于fastNLP与pytorch实现的中文自然语言处理工具,像spacy一样调用方便。
Apache License 2.0
752 stars 86 forks source link

语句太长报错~ #9

Closed ScottishFold007 closed 11 months ago

ScottishFold007 commented 4 years ago

求教,语句太长(512个字以外)报错,怎么解决呢?

fdugzc commented 4 years ago

因为预训练的BERT对字符串最大长度做出限制,所以除非再自己训一个BERT,这个问题目前无法解决。对于用户来说,输入的字符串长度需要小于等于509 。实在过长的字符串,可以自己先通过“。?!……”等符号先分割一下再输入。

ScottishFold007 commented 4 years ago

因为预训练的BERT对字符串最大长度做出限制,所以除非再自己训一个BERT,这个问题目前无法解决。对于用户来说,输入的字符串长度需要小于等于509 。实在过长的字符串,可以自己先通过“。?!……”等符号先分割一下再输入。

有个Longformer( The Long-Document Transformer),不知道能不能缓解这个问题

fdugzc commented 4 years ago

我再研究一下,下次更新的时候会考虑这个问题的

xpqiu commented 4 years ago

我再研究一下,下次更新的时候会考虑这个问题的

这个可以工程方式解决。先分句,每句分词后再合并输出。

ScottishFold007 commented 4 years ago

我担心篇章级文本的语境变了,分词会出问题

---原始邮件--- 发件人: "Xipeng Qiu"<notifications@github.com> 发送时间: 2020年6月20日(周六) 凌晨0:27 收件人: "fastnlp/fastHan"<fastHan@noreply.github.com>; 抄送: "Author"<author@noreply.github.com>;"Scottish_Fold007"<gaochangkuan01@foxmail.com>; 主题: Re: [fastnlp/fastHan] 语句太长报错~ (#9)

我再研究一下,下次更新的时候会考虑这个问题的

这个可以工程方式解决。先分句,每句分词后再合并输出。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or unsubscribe.