Closed jarib closed 9 years ago
Hallo, kult konsept. Jeg gjorde en liten POC:
https://github.com/ivarref/hdo-transcript-generator/tree/master/entities
Legg merke til at Anundsen har Martin Kolberg i sine topplister. Tilsvarende har Heikki Holmås Tybring-Gjedde i sine topplister.
Toppen av topplistene viser vel mest av alt at politikere snakker mest om seg selv på ulike vis (regjeringen, Venste, Arbeiderpartiet, Stortinget, osb). Går man litt lenger ned så kommer det noen mer interessante ord som sier noe (mer) om tema.
Søket i denne POCen er gjort på hele tidsserien. Ser for meg det kunne kommet noe interessant data ut om man begrenser seg litt mer.
2015-07-02 10:05 GMT+02:00 Jari Bakken notifications@github.com:
Hadde vært kult å kunne lage mer metadata om hva som snakkes om.
Kanskje denne kunne vært nyttig? http://polyglot.readthedocs.org/en/latest/NamedEntityRecognition.html
cc/ @ivarref https://github.com/ivarref
— Reply to this email directly or view it on GitHub https://github.com/holderdeord/hdo-transcript-search/issues/51.
Veldig kult.
En tanke kunne vært å hente ut dette for hvert innlegg under indeksering og legge det som data i ES-dokumentene, da kunne vi lett gjort en del interessant statistikk på det.
Kunne også automatisk lenket til Wikipedia-artiklene i innleggsteksten. Vet ikke hvor ofte polyglot-modellen oppdateres.
Vi får drodle litt mer rundt hva det kan brukes til.
Har lagt det til som en mulighet i konverteringssteget hvis man sender med --ner
. Det går ganske sakte. Har heller ikke python satt opp skikkelig på prod-serveren. Får plundre videre en annen dag.
Hadde vært kult å kunne lage mer metadata om hva som snakkes om.
Kanskje denne kunne vært nyttig? http://polyglot.readthedocs.org/en/latest/NamedEntityRecognition.html
cc/ @ivarref