vplan-fr / VPlan_FR

GNU General Public License v3.0
5 stars 0 forks source link

Lehrerkürzel sind nicht immer Kürzel, werden aber so dargestellt #305

Open lorax42 opened 1 month ago

lorax42 commented 1 month ago

In der Infobox wird das Wort 'Die' jedesmal als Lehrerkürzel verlinkt, da ein Lehrer halt dieses Kürzel hat. Screenshot from 2024-08-04 15-58-46

lorax42 commented 1 month ago

Vielleicht könnte man die Sätze analysieren und das 'Die' nicht markieren, wenn es ein Artikel ist. Beziehungsweise auch einfach am Satzanfang, wobei man sehen müsste, wie viele false positives das erzeugt.

lorax42 commented 1 month ago
for (size_t i = 0; i < info.size(); i++){
    if (info[i] == '.'){
        if (info[i+1] == ' '){
            // then don't highlight following 'Die' ...
        }
    }
}

Halt in Python, aber ging jetzt so für mich schneller

ArtrenH commented 1 month ago

Aber es kann ja auch sowas wie "Heute irgendein Event. Die ist verantwortlich" in der Info stehen und das meint dann halt das Kürzel und das irgendwas mit dem Lehrer los ist. Also eigentlich müsste man da jedes Mal ein AI Language Model fragen, ob das ein Kürzel oder ein Wort ist.

lorax42 commented 1 month ago

Ja, hatte ich auch schon überlegt, aber das wäre ziemlich umständig. Ich glaube, dass das vielleicht selten genug vorkommt, dass man ein Auge zudrücken kann. Im Durchschnitt würde es halt wahrscheinlich trotzdem akkurater sein.

lorax42 commented 1 month ago

Man bräuchte nicht mal ein großes AI Modell. Also kein LLM oder so. Vielleicht wäre es klein genug lokal laufen zu lassen, damit durch den API-Key, den man z.B. für Chat-GPT brauch, keine Kosten entstehen. Sowas gibt's bestimmt kostenlos. Als FOSS oder zumindest open weights (wie LLAMA nur für Satzanalyse).

"Open source" typically refers to software with a specific licensing model, while "open weights" refers to releasing the weights and network architecture of AI models for public use without necessarily providing the full source code.