Eine Frage stellt sich mir allerdings bei der Analyse des Algorithmus: Die Vorgabe bei der Konvertierung lautet ja wie folgt:
Buchstabenweise Kodierung von links nach rechts entsprechend der Umwandlungstabelle.
Entfernen aller mehrfachen Codes.
Entfernen aller Codes "0" außer am Anfang.
Soweit ich sehe, werden aber in Ihrer Funktion SOUNDEX_GER zunächst alle Codes „0“ entfernt und anschließend die Mehrfach-Codes eliminiert, was dann ja bei bestimmten Ausgangswerten zu anderen Codierungen führt.
War diese gewählte Reihenfolge bei der Implementierung gewollt? Prinzipiell würden dadurch ja Silben „verschluckt“, sodass im Endeffekt bei einer Ähnlichkeitssuche Wörter als phonetisch identisch identifiziert werden, die aber laut der Silbenanzahl gar nicht phonetisch ähnlich klingen.
Ich würde mich freuen, wenn Sie mir kurz dazu antworten könnten.
Andreas Roskosch, Software-Entwickler
DATA-PLAN Computer Consulting GmbH
Reichenhainer Straße 34 - 36, 09126 Chemnitz
Sehr geehrter Herr Theiler,
bei der Suche nach einer Implementierung der Kölner Phonetik in Oracle bin auf Ihre Funktion im Netz gestoßen: https://github.com/deezaster/germanphonetic
Eine Frage stellt sich mir allerdings bei der Analyse des Algorithmus: Die Vorgabe bei der Konvertierung lautet ja wie folgt:
Soweit ich sehe, werden aber in Ihrer Funktion SOUNDEX_GER zunächst alle Codes „0“ entfernt und anschließend die Mehrfach-Codes eliminiert, was dann ja bei bestimmten Ausgangswerten zu anderen Codierungen führt. War diese gewählte Reihenfolge bei der Implementierung gewollt? Prinzipiell würden dadurch ja Silben „verschluckt“, sodass im Endeffekt bei einer Ähnlichkeitssuche Wörter als phonetisch identisch identifiziert werden, die aber laut der Silbenanzahl gar nicht phonetisch ähnlich klingen.
Ich würde mich freuen, wenn Sie mir kurz dazu antworten könnten.
Andreas Roskosch, Software-Entwickler DATA-PLAN Computer Consulting GmbH Reichenhainer Straße 34 - 36, 09126 Chemnitz