Closed navid-zamani closed 1 year ago
:-D - immer wieder interessant zu lesen, was es so für neue Ideen gibt.
Leider ist der gebaute Filter so primitiv, dass er ein Search und Replace auf dem gesamten html macht. Es wird also nicht explizit nach Text innerhalb von Tags gesucht. Vielleicht missverstehe ich Dich aber auch.
Unter https://github.com/ehmkah/lesbar/blob/master/test/test.html gibts Beispiele, wie ersetzt wird und was noch nicht geht. Da kannst Du das mit dem Patient.innen gerne mal hinzufügen. Nur was ist mit " Hallo sagt der Patient.In Erfurt ..." Schon wieder lustig, vielleicht meintest Du das auch.
Cool, wäre schön aus verschiedenen Filter auswählen zu können, um sie für verschiedene Usecases anzuwenden. Mir fehlt aktuell nur ein bisschen die Zeit.
Hmm, ich hatte in den 2000er-Jahren ein Greasemonkey-Script geschrieben, das nur Texte ersetzte. (Wenn ich mich recht erinnerte, benutzte es einen XPath der eine Liste von Referenzen nur auf Textknoten zurückgab, die ich dann alle mit einer Liste von Regex-Ersetzungen durchging. Nach all der Zeit kann ich das natürlich nicht mehr finden, und es wäre auch etwas veraltet. :) Ich schau mal nach einem generischen Wortersetzer… Oder … Ich schätze mal heutzutage könnte man das direkt in uBlock Origin und uMatrix integrieren. Ich glaub die können das.
Zu „Patient.In Erfurt …” würd ich sagen: Wenn der erste Buchstabe danach groß ist, einfach ein Leerzeichen einfügen. Wenn nicht, dann den Punkt ersetzen und den Großbuchstaben klein machen (damits keine KamelGroßSchreibUng wird. :)
Hallo,
ich bin grad über eine neue Form des Satzzeichenmißbrauchs und der Seuche gestolpert:
https://digitalcourage.de/pressemitteilungen/2021/Doctolib-FAQ
Ich weiß grad keinen Fall, bei dem Interpunktion vor „innen“ ohne Leerzeichen dazwischen je Sinn gäbe, wenn es kein Programmcode ist. Und Programmcode ist eigentlich immer in einem
<code>
(oder<kbd>
,<samp>
,<var>
), oder einem generischen<pre>
oder veralteten<tt>
, und selbst wenn nicht, dann wäre das eine sehr seltene falsche Positiverkennung.Vielleicht kann man den Filter generell auf
s/(?:[:alpha:])[:punct:]innen//
oder gars/(?:[:alpha:])[:punct:]in(nen?)?//
setzen, und so alle zukünftigen Varianten im Voraus verhindern …(In einem strikten Modus wäre gar
/(?:[:alpha:])[:punct:](?:[:alpha:])/
generell ungültig, aber k.A. wie man dann Fälle behandelt bei denen kein „in“ nach der Interpunktion kommt. Vielleicht indem man schaut ob es für sich allein oder mit dem Wort davor ein im Wörterbuch bekanntes Wort ist, und dann entweder ein Leerzeichen einfügt da es ein neuer Satz oder Satzabschnitt sein muß, oder ansonsten die Interpunktion entfernt a sie ein Versehen gewesen sein dürfte? Aber das geht schon in Richtung Rechtschreibkorrektur. … Hmm, vielleicht wäre das eine Idee: Eine generelle Rechtschreibkorrektur fürs Web. ;) … Das Problem ist daß ich selber nur zu gerne absichtlich neue Wörter erfinde, oder kürzere Versionen finde, oder was anders schreibe um damit was auszudrücken… aber im Gegenteil zum „Gendern“ damit nicht nur als Nettigkeit getarnten reinen blutigen vorurteilsgetränkten Hass aus mir triefen lasse. ^^ … Bla… )