pechorka / adhd-reader

2 stars 0 forks source link

Problems with parsing fb2 #84

Open AAKrasnova opened 2 months ago

AAKrasnova commented 2 months ago

while parsing texts sometimes fragments of more than 4k symbols appear. And so they are not accepted by telegram, not sent to a user. Also, in every big fragment, there is a "subtitle" tag. Maybe it has something to do with the problem

Examples from "Гении и аудитсайдеры"

For example between: image image

Or between image image

Or between "Учителей предупреждали о том, что “к моменту занятий ученики не должны быть истощены ни физически долгой неподвижностью, ни умственно продолжительным напряжением”." и "До 07:55 проходит обязательное занятие по развитию мышления." image

between " «На каком праве мы специализировались?" and "Но я должен понимать, что его фирма крайне ограничена в возможностях при приеме на работу молодых людей с таким происхождением" image

between "«Эти ребята были не умнее других, – говорит Рифкинд." and "Через год 1500 юристов готовы были принести “присягу бедняка”," image

between "«Там работала билетерша по имени Мэри, – объясняет Фридман." and "– закричала мать Уилла Тернера, когда тот, стеная от боли, раненый" here is also section start\finish image

between " 01:42:22 Бортинженер: «Заходим на второй круг!" and "– Без риса обойтись невозможно. Если вы хотите добиться чего-то в этой части страны, вам обязательно нужно выращивать рис." Also new section start image

between "Китайцы говорят буквально: “из пяти частей отнимите три”." and "Давайте для сравнения рассмотрим жизнь европейского крестьянина XVIII в." image

between " «Крестьяне трудятся, все время трудятся; а если они не будут трудиться, откуда возьмется зерно, когда наступит зима?" and "– Но если я посажу на место Рене обычного восьмиклассника, уверен, после нескольких попыток он скажет" image

between " вы не успеете, придете ко мне и скажете: “Это невозможно”." and "– Письмо им дается чуть тяжелее. Но когда они выходят из школы, их главный козырь – это математика»" image