Open dpriskorn opened 2 years ago
just nu finns det ingen uppmärkning av språk. Majoriteten av de historiska annonserna är på svenska, troligen större andel ju längre bak i tiden man kollar.
Vi lägger in språkigenkänning i planeringen men vågar inte säga nåt om när vi kan hinna med det.
Jag Kan varmt rekommendera modulen langdetect från python men den funkar bara bra på längre text än en titel har jag märkt. Sätt gärna språk genom tex peka på en grafdatabas som har en öppen api tex Q9027 för svenska i et fält.
Hojta till om ni behöver hjälp.
Skälet till att det är att föredra är att det sparar en massa besvär för konsumenterna eftersom att stöd för Wikidata redan är implementerad på i stort sett alla programspråk och väldigt populärt hos datakonsumenter. Alternativt kan ni sätta upp en egen Wikibase och peka på den istället, och då slipper ni wild Wild West och kan stoppa in allt av värde från er där och peka samlat från alla era 41 datamängder.
kan jag lita på att alla annonserna är på svenska? om inte skulle ni kunna märka upp språk på nått lämpligt sätt på varje annons?