Open lorax42 opened 1 month ago
Vielleicht könnte man die Sätze analysieren und das 'Die' nicht markieren, wenn es ein Artikel ist. Beziehungsweise auch einfach am Satzanfang, wobei man sehen müsste, wie viele false positives das erzeugt.
for (size_t i = 0; i < info.size(); i++){
if (info[i] == '.'){
if (info[i+1] == ' '){
// then don't highlight following 'Die' ...
}
}
}
Halt in Python, aber ging jetzt so für mich schneller
Aber es kann ja auch sowas wie "Heute irgendein Event. Die ist verantwortlich" in der Info stehen und das meint dann halt das Kürzel und das irgendwas mit dem Lehrer los ist. Also eigentlich müsste man da jedes Mal ein AI Language Model fragen, ob das ein Kürzel oder ein Wort ist.
Ja, hatte ich auch schon überlegt, aber das wäre ziemlich umständig. Ich glaube, dass das vielleicht selten genug vorkommt, dass man ein Auge zudrücken kann. Im Durchschnitt würde es halt wahrscheinlich trotzdem akkurater sein.
Man bräuchte nicht mal ein großes AI Modell. Also kein LLM oder so. Vielleicht wäre es klein genug lokal laufen zu lassen, damit durch den API-Key, den man z.B. für Chat-GPT brauch, keine Kosten entstehen. Sowas gibt's bestimmt kostenlos. Als FOSS oder zumindest open weights (wie LLAMA nur für Satzanalyse).
"Open source" typically refers to software with a specific licensing model, while "open weights" refers to releasing the weights and network architecture of AI models for public use without necessarily providing the full source code.
In der Infobox wird das Wort 'Die' jedesmal als Lehrerkürzel verlinkt, da ein Lehrer halt dieses Kürzel hat.