thesaurus-linguae-aegyptiae / tla-es

Thesaurus Linguae Aegyptiae Spring backend for Elasticsearch access
1 stars 4 forks source link

Suchen nach "sn.t" nicht möglich #19

Closed dwerning closed 2 years ago

dwerning commented 2 years ago

Es scheint, ES splittet "sn.t" in "sn" und "t". Der Analoge Fall des ehemaligen Splittens bei "-" (e.g. "ḥm-nṯr") ist schon behoben ("ḥm-nṯr" wird gefunden). BTW: Die Maskierung von "." als "." in der RegEx-Suche ist schon implementiert (daran liegt es nicht).

Vgl. dazu: https://github.com/thesaurus-linguae-aegyptiae/tla-web/issues/89

Wohl das Problem: "\.[^- ]*" in ES lemma.json

      "char_filter": {
        "transcription_brackets_filter": {
          "type": "pattern_replace",
          "pattern": "\\.[^- ]*|[\\(\\)\\[\\]⸢⸮?⸣]|\\{\\S*\\}",
          "replacement": ""
        },
        "transcription_suffix_filter": {
          "type": "mapping",
          "mappings": [
            "pl => w",
            ",t,pl => ,wt",
            ",tpl => ,wt",
            "t,du => ,tj",
            ",tdu => ,tj",
            "du => wj",
            ",  => ."
          ]
        }
      },

Auch die mappings sind zu überprüfen ("pl => w" vor den anderen?).

dwerning commented 2 years ago

Jetzt:

      "char_filter": {
        "transcription_brackets_filter": {
          "type": "pattern_replace",
          "pattern": "[\\(\\)\\[\\]⸢⸮?⸣]|\\{\\S*\\}",
          "replacement": ""
        },
        "transcription_suffix_filter": {
          "type": "mapping",
          "mappings": [
            ",t,pl => ,wt",
            ",tpl => ,wt",
            "t,du => ,tj",
            ",tdu => ,tj",
            "du => wj",
            "pl => w",
            ",  => ."
          ]
        }
      },

Muss nauch Neuindizierung getestet werden.