Technical info from Sprakbanken data

KarinaBunyik commented 10 years ago

Get technical info about exactly how the data is gathered by Sprakbanken.

KarinaBunyik commented 10 years ago

Hej!

Vi har gjort två olika typer av insamling. För vår stora Twitter-korpus har vi utgått från sidan http://twittoppen.se/ som listar svenska twittrare, plockat ut de översta 5000 från topplistan, och använt https://dev.twitter.com/docs/api/1.1/get/statuses/user_timeline för att hämta hem deras tweets. Då får man tillgång till deras 3200 senaste tweets.

För de andra Twitterkorpusarna, där vi i stället har samlat in alla möjliga svenska tweets under en viss tidsperiod, så har vi använt oss av https://dev.twitter.com/docs/api/1.1/post/statuses/filter. Det är sant att det är en begränsning på antalet meddelanden man får då, men gränsen gäller för samtliga tweets på alla språk, och eftersom andelen svenska tweets är så liten så når den i princip aldrig upp till den gränsen. Det är bara några enstaka tweets då och då som vi missar. Själva filtreringen har vi gjort på en lista över de vanligaste svenska orden, samt att vi efterfrågar alla tweets inom ett visst geografiskt område.

Hälsningar

KarinaBunyik commented 10 years ago

Hej!

Det stämmer att Twittermix är hämtad med den första typen av insamling, och de resterande två med den andra.

Vi har använt Twitters public stream, men själva filtreringen görs av Twitter, med hjälp av följande anrop: https://dev.twitter.com/docs/api/1.1/post/statuses/filter Gränsen för antal tweets gäller samtliga tweets som skrivs, och eftersom andelen svenska tweets är så pass liten, så kommer de i regel aldrig upp till den gränsen. När du använder filter-anropet så får du alltså inte bara 1 % av de tweets som matchar ditt filter, utan du kan få samtliga tweets som matchar, så länge de inte är fler än 1 % (eller vad gränsen nu är) av det totala antalet tweets just då.

Hälsningar, Martin

KarinaBunyik commented 10 years ago

It looks like it is possible to get more then 1% http://www.brightplanet.com/2013/06/twitter-firehose-vs-twitter-api-whats-the-difference-and-why-should-you-care/

KarinaBunyik / Twitter_hidden_topics

Technical info from Sprakbanken data #64