idiomReplaceX / idiomreplacex-service

The IdiomReplaceX web service api
MIT License
1 stars 0 forks source link

Ganze Textblöcke am Stück bearbeiten #2

Open kasoft opened 2 years ago

kasoft commented 2 years ago

Aktuell werden die gefundene Textpassagen zerlegt. Es wird immer eine Textpassage mit HTML Stücken bearbeitet, dann werden die Textblöcke zwischen Tags extrahiert und jeweils an eine Funktion übergeben. Dort die Tokens generiert und alles wieder zurück. Das macht die litararische Bearbeitung eines Absatzes schwierig, da man z.B. nie einen ganzen Satz verarbeiten kann. Immer nur x-y aus dem Kontext gelöste Elemente. Schön wäre es, eine Funktion zu haben, die einen ganzen Textabschnitt mit Sinnzusammenhang als String bekommt.

akohlbecker commented 2 years ago

"Textabschnitt mit Sinnzusammenhang" ist eine ziemlich wage Anforderung. Wo fängt denn der Sinn auf und wo hört er auf? Was bei den Tokens fehlt, sind tatsächlich die Satzzeichen. So ohne Komma und Punkt, etc funktioniert literarische Analyse nicht. Das stimmt. Wir brauchen also auch tokens mit Satzzeichen. diese sollten dann entsprechend kenntlich gemacht sein ($token->type).

akohlbecker commented 2 years ago

... vielleicht sollten wir echte php NLP tools verwenden, hier zwei Optionen:

kasoft commented 2 years ago

Vielleicht könnte man das auch skippen und mit #6 in Kombination lösen. Eventuell wird erst die ganze Seite so wie bisher durchgegangen. Anschließend dann ersetzt? So als Idee