holderdeord / hdo-transcript-search

Visualize language use in the Norwegian parliament
BSD 3-Clause "New" or "Revised" License
32 stars 22 forks source link

Hente ut entiteter #51

Closed jarib closed 9 years ago

jarib commented 9 years ago

Hadde vært kult å kunne lage mer metadata om hva som snakkes om.

Kanskje denne kunne vært nyttig? http://polyglot.readthedocs.org/en/latest/NamedEntityRecognition.html

cc/ @ivarref

ivarref commented 9 years ago

Hallo, kult konsept. Jeg gjorde en liten POC:

https://github.com/ivarref/hdo-transcript-generator/tree/master/entities

Legg merke til at Anundsen har Martin Kolberg i sine topplister. Tilsvarende har Heikki Holmås Tybring-Gjedde i sine topplister.

Toppen av topplistene viser vel mest av alt at politikere snakker mest om seg selv på ulike vis (regjeringen, Venste, Arbeiderpartiet, Stortinget, osb). Går man litt lenger ned så kommer det noen mer interessante ord som sier noe (mer) om tema.

Søket i denne POCen er gjort på hele tidsserien. Ser for meg det kunne kommet noe interessant data ut om man begrenser seg litt mer.

2015-07-02 10:05 GMT+02:00 Jari Bakken notifications@github.com:

Hadde vært kult å kunne lage mer metadata om hva som snakkes om.

Kanskje denne kunne vært nyttig? http://polyglot.readthedocs.org/en/latest/NamedEntityRecognition.html

cc/ @ivarref https://github.com/ivarref

— Reply to this email directly or view it on GitHub https://github.com/holderdeord/hdo-transcript-search/issues/51.

jarib commented 9 years ago

Veldig kult.

En tanke kunne vært å hente ut dette for hvert innlegg under indeksering og legge det som data i ES-dokumentene, da kunne vi lett gjort en del interessant statistikk på det.

Kunne også automatisk lenket til Wikipedia-artiklene i innleggsteksten. Vet ikke hvor ofte polyglot-modellen oppdateres.

Vi får drodle litt mer rundt hva det kan brukes til.

jarib commented 9 years ago

Har lagt det til som en mulighet i konverteringssteget hvis man sender med --ner. Det går ganske sakte. Har heller ikke python satt opp skikkelig på prod-serveren. Får plundre videre en annen dag.