Open kasoft opened 2 years ago
das Problem mit Satzzeichen ist jetzt für viele Fälle behoben: 1893f3f
das Problem mit Satzzeichen ist jetzt für viele Fälle behoben: 1893f3f
Oh, dieser Kommentar war off-topic. Egal, das mit den Satzzeichen ist jedenfalls gefixt.
Zu den HTML Entities habe ich folgende Vorstellung: Die ReplaceToken
Klasse könnte die Entities per getter und setter transparent entfernen und hinzufügen, ohne dass man sich darum explizit kümmern muss.
Hinzugefügt wird aber nicht da zu komplex.
Warum zu komplex? Der ersetzende Text wird durch ein encode()
dann einfach länger. Vielleicht habe ich dich auch nicht richtig verstanden?
Die Klassen ReplaceToken
und TextToken
haben jetzt eine zusätzliche Methode tokenDecoded()
die den Text ohne HTML Entities und special Characters liefert. Die Methode setReplacement()
von ReplaceToken
kümmert sich um die Encodierung von HTML Special-Characters. HtmlEntities werden hier nicht encodiert, denn eigentlich können heute alle Websites UTF-8.
Irgendwie klappt das noch nicht. Ich schaue da nochmals rein. Ein Beispiel:
https://www.lyrikline.org/de/gedichte/robinson-der-stadt-78 und der Filter Lesebrille
&ss&psbb&;;bbb&pbp&ns;snpp&&pb;&;bppp&nns;;p&bbb;n;&nbss&b&&sbpnsssb;ss&p;;pbnb;s;;pps&bbnpp;npubn&&bps;;&;spnsbnp&pnb;b;pp&s&s&bb&&;psbs;Ab;;s;&ppb&sn&p;s&p&snnsppnn&n;s;pbbnss;nnnppn;;bs;;;nn&&bspp;&bp;pbnspnsnnbpb;p&&sp;nbpnnn&nbnnpn&s;nsb;s;n;b&sn&&n&&bsbbp;sspnn;b;sn&&s&pnsb;&sbs
erscheint plötzlich mitten im Text.
Ich glaube im HTML Text erscheint was dann irgendwie falsch verarbeitet wird.
{
"replaceTokens": [
{
"replacement": "nähtescs",
"start": 53,
"token": "nächstes"
},
{
"replacement": "Gehdict",
"start": 62,
"token": "Gedicht"
},
{
"replacement": "(o(Vm",
"start": 145,
"token": "((Vom"
},
{
"replacement": "Jtzte)",
"start": 160,
"token": "Jetzt)"
},
{
"replacement": "&;nb&nn;pp&sbssbp",
"start": 174,
"token": "  "
}
],
"htmlChecksum": 1791537501,
"method": "Lesebrille"
}
Was machen wir mit den Dingern? Es gibt behelfsmäßig ein entfernen. Hinzugefügt wird aber nicht da zu komplex. Lässt man das so, oder baut man eine Funktion die sich merkt ob es welche gab und wenn ja später wieder encodiert?