dmmiller612 / bert-extractive-summarizer

Easy to use extractive text summarization with BERT
MIT License
1.37k stars 307 forks source link

tensor size mismatch for specific input text #145

Open Morphlng opened 1 year ago

Morphlng commented 1 year ago

I'm using below code to do summarize for a couple of text samples. For one specific text, will raise Exception: RuntimeError: The expanded size of the tensor (561) must match the existing size (512) at non-singleton dimension 1. Target sizes: [1, 561]. Tensor sizes: [1, 512]

# summarizer, load Chinese model
from summarizer import Summarizer
from summarizer.summary_processor import SentenceHandler
from spacy.lang.zh import Chinese
from transformers import AutoModel, AutoTokenizer, AutoConfig

# Load model, model config and tokenizer via Transformers
modelName = "hfl/chinese-roberta-wwm-ext"
custom_config = AutoConfig.from_pretrained(modelName)
custom_config.output_hidden_states=True
custom_tokenizer = AutoTokenizer.from_pretrained(modelName)
custom_model = AutoModel.from_pretrained(modelName, config=custom_config)

model = Summarizer(
    custom_model=custom_model, 
    custom_tokenizer=custom_tokenizer,
    sentence_handler = SentenceHandler(language=Chinese)
)

text = '......'  # see below
model(text)

The text was length 1271. The model behave fine for all other text, however this one. Why is this happening? How do I fix it?

The error trigger text is shown below: 罪犯王歌子,男,1971年xx月xx日出生于河南省伊川县,汉族,初中文化,现在山东省鲁北监狱服刑,以被告人王歌子犯非法吸收公众存款罪,判处有期徒刑四年,并处罚金人民币十五万元;被告人王歌子未归还的违法所得人民币六百三十八万五千元继续追缴,返还给被害人董娜二万元、郭荣五十九万元、张红五万元、刘霞十五万元、张道华九万元、刘学庆七万元、吴英欣八万元、谷增传四万元、胡振芳四万元、杨元英二万元、詹贻香四万元、张黎明四万元、徐增武二万元、王振立十万元、刘百科五万元、邢素英六万元、陈玉才二万元、霍云峰四万元、李桂兰二万五千元、李龙芹二万元、付守美十一万元、闫爱仙八万元、张殿英二万元、沈文华二十四万元、魏瑞斋二万元、薄纯娥二万元、王在兰二万元、李元芳六万元、胡玉新五万元、曹桂兰十万元、张莉四万元、李世学十万元、陆书永十五万元、吴选礼三万元、刘士安十四万元、吕秀华五万元、刘卫萍二十七万元、杨柳十五万元、王秀娥三万元、商进美十一万元、陆宝贵九万元、赵彩霞十万元、王芳五万元、杨洪亮二万元、王娜四十二万五千元、苏永华十二万元、向中菊二万元、向中兰五万元、马俊霞七万元、邵在谱三十五万元、李传英十三万五千元、李祖元三十五万元、刘立亮八万元、胡银祥七万元、张洪祥十三万元、赵海涛七十五万元、王洪波二十二万元;扣押在案的其他财物由扣押机关依法处理。判决发生法律效力后,交付监狱执行。 执行机关山东省鲁北监狱于2020年xx月xx日提请减刑建议书,报送本院审理。山东省滨州市人民检察院提出同意对罪犯王歌子减刑的检察意见。本院依法组成合议庭于2020年xx月xx日远程公开开庭进行了审理,山东省滨州市人民检察院指派检察员高放、李峰,执行机关山东省鲁北监狱指派干警吴丁刚、王治国到庭履行职务。现已审理终结。 山东省鲁北监狱称,罪犯王歌子在服刑期间,能够认罪悔罪,服从管理,遵守监规,接受教育改造;按时参加思想、文化、职业技术教育学习和劳动,能够完成各项改造任务,兑现表扬奖励4次,确有悔改表现。该犯系破坏金融管理秩序犯罪的罪犯,财产判项履行不足50%且不能证明无履行能力,减刑幅度从严掌握,建议对罪犯王歌子予以减去刑期五个月。并附该罪犯在服刑期间的表现、奖励记录等证据。 山东省滨州市人民检察院认为,执行机关提请罪犯王歌子减刑的有关证据材料真实有效,法庭审理程序合法。山东省鲁北监狱提请罪犯王歌子减刑符合减刑规定,建议法院依法作出裁定。 经审理查明,罪犯王歌子自服刑以来,认罪悔罪,认真遵守法律法规及监规,接受教育改造,积极参加思想、文化、职业技术教育,积极参加劳动,能够完成各项改造任务,获表扬奖励4次。上述事实,有罪犯王歌子的认罪悔过书、评审鉴定表、奖励审批表、计分考核明细表等足以认定。 另查明,王歌子已履行罚金一万元。 本院认为,罪犯王歌子确有悔改表现,符合减刑条件。但该犯系破坏金融管理秩序犯罪的罪犯,财产判项履行不足50%且不能证明无履行能力,减刑幅度从严掌握,鉴于执行机关报请减刑时已予从严,执行机关报请减刑幅度适当,故对执行机关的减刑建议予以采纳。