idiomReplaceX / idiomreplacex-service

The IdiomReplaceX web service api
MIT License
1 stars 0 forks source link

Sonderzeichen und HTML Entites #3

Open kasoft opened 2 years ago

kasoft commented 2 years ago

Was machen wir mit den Dingern? Es gibt behelfsmäßig ein entfernen. Hinzugefügt wird aber nicht da zu komplex. Lässt man das so, oder baut man eine Funktion die sich merkt ob es welche gab und wenn ja später wieder encodiert?

akohlbecker commented 1 year ago

das Problem mit Satzzeichen ist jetzt für viele Fälle behoben: 1893f3f

akohlbecker commented 1 year ago

das Problem mit Satzzeichen ist jetzt für viele Fälle behoben: 1893f3f

Oh, dieser Kommentar war off-topic. Egal, das mit den Satzzeichen ist jedenfalls gefixt.

Zu den HTML Entities habe ich folgende Vorstellung: Die ReplaceToken Klasse könnte die Entities per getter und setter transparent entfernen und hinzufügen, ohne dass man sich darum explizit kümmern muss.

Hinzugefügt wird aber nicht da zu komplex.

Warum zu komplex? Der ersetzende Text wird durch ein encode() dann einfach länger. Vielleicht habe ich dich auch nicht richtig verstanden?

akohlbecker commented 1 year ago

Die Klassen ReplaceToken und TextToken haben jetzt eine zusätzliche Methode tokenDecoded() die den Text ohne HTML Entities und special Characters liefert. Die Methode setReplacement() von ReplaceToken kümmert sich um die Encodierung von HTML Special-Characters. HtmlEntities werden hier nicht encodiert, denn eigentlich können heute alle Websites UTF-8.

kasoft commented 1 year ago

Irgendwie klappt das noch nicht. Ich schaue da nochmals rein. Ein Beispiel:

https://www.lyrikline.org/de/gedichte/robinson-der-stadt-78 und der Filter Lesebrille

&ss&psbb&;;bbb&pbp&ns;snpp&&pb;&;bppp&nns;;p&bbb;n;&nbss&b&&sbpnsssb;ss&p;;pbnb;s;;pps&bbnpp;npubn&&bps;;&;spnsbnp&pnb;b;pp&s&s&bb&&;psbs;Ab;;s;&ppb&sn&p;s&p&snnsppnn&n;s;pbbnss;nnnppn;;bs;;;nn&&bspp;&bp;pbnspnsnnbpb;p&&sp;nbpnnn&nbnnpn&s;nsb;s;n;b&sn&&n&&bsbbp;sspnn;b;sn&&s&pnsb;&sbs

erscheint plötzlich mitten im Text.

Ich glaube im HTML Text erscheint   was dann irgendwie falsch verarbeitet wird.

{
    "replaceTokens": [
        {
            "replacement": "nähtescs",
            "start": 53,
            "token": "nächstes"
        },
        {
            "replacement": "Gehdict",
            "start": 62,
            "token": "Gedicht"
        },
        {
            "replacement": "(o(Vm",
            "start": 145,
            "token": "((Vom"
        },
        {
            "replacement": "Jtzte)",
            "start": 160,
            "token": "Jetzt)"
        },
        {
            "replacement": "&;nb&nn;pp&sbssbp",
            "start": 174,
            "token": "  &nbsp"
        }
    ],
    "htmlChecksum": 1791537501,
    "method": "Lesebrille"
}