sebastianbarfort / sds

Social Data Science, course at University of Copenhagen
http://sebastianbarfort.github.io/sds/
12 stars 17 forks source link

Team 1 - projektbeskrivelse #64

Closed Nynnehelt closed 8 years ago

Nynnehelt commented 8 years ago

Projektbeskrivelse

Social Data Science – 23. november 2015

Team 1

Nynne Helt Almdal, Kasper Hjalager Albrechtsen, Stine Hindberg Andersen

Problemformulering

Hvem vinder Oscar 2016? Vi vil gerne forudsige hvem, der vinder Oscar 2016 i forskellige kategorier. Dette er ikke en ny ting, andre spekulerer i og oddser på samme spørgsmål, bl.a. http://www.farsiteforecast.com/ har lavet en rimelig præcis forudsigelse for år 2014. Sider som denne indeholder som oftest avancerede algoritmer. Vores bidrag til dette spørgsmål vil være en transparent R-kode og en analyse som indeholder overskuelige tabeller og visualiseringer. En ting er, at kunne komme med et kvalificeret bud på vinderen, men vi synes det er ligeså vigtigt, at kunne vise hvorfor lige præcis denne film vil vinde.

Data

Vi vil scrabe IMDB’s hjemmeside lidt på samme måde som I Paid a Bribe-siden. Vi vil bruge filmdata fra de sidste 20 år og bruge dette til at undersøge hvilke interessante sammenhænge der er mellem data og oscar-vinderne. For at få så meget information/variable med for hver film, er vi nødt til at gå ind på hver films hjemmeside, hvilket kræver et ekstra loop (ift. ”I paid a bribe”). Målet er, at få så mange film med som muligt, men dette begrænses naturligvis af computerens ydeevne. Vi er nok nødt indskrænke indsamlingen lidt, da der f.eks. indtil videre er udgivet ca. 14.000 film i 2015. En mulig restriktion på data kan være at filmen skal være bedømt af mindst 10.000 bruger på IMDB, hvilket svarer til ca. 200 film. Af variable har vi i udgangspunktet titel, udgivelsesdato, genre, rating, antal brugeranmeldelser, metascore, antal reviews, antal critic reviews, antal reviews fra metacritic, instruktør, budget, indtjening, primærskuespillere, spilletid og genre. Det vil være interessant og relevant, hvis man også kan inkludere hvor filmen foregår og hvilken tidsalder filmen foregår i (fortid/nutid/fremtid), men dette kræver at resuméet kan scrabes. Denne analyse vil så bruge til at forsøge at forudsige 2016-vinderen, ved at se på alle de film, der er udgivet i 2015.

Spørgsmål som skal besvares i analysen

Formålet med dette projekt er at forudsige de forskellige spørgsmål ud fra hvad, vi ved, dvs. ud fra det data vi kender, bl.a. rating/metascore. Vi vil beskrive data med deskriptiv statistik, hvilket skal give en indikation af hvilke variable, der er relevante. På baggrund af denne deskriptive analyse vil vi opstille en simpel probit eller logit model, som skal beregne sandsynligheden for at en film fra 2015 kan vinde årets film 2016. Vi vil derfor slutteligt komme med et bud på lige præcist hvilken film, der vil vinde.