Nynne Helt Almdal, Kasper Hjalager Albrechtsen, Stine Hindberg Andersen
Problemformulering
Hvem vinder Oscar 2016? Vi vil gerne forudsige hvem, der vinder Oscar 2016 i forskellige kategorier. Dette er ikke en ny ting, andre spekulerer i og oddser på samme spørgsmål, bl.a. http://www.farsiteforecast.com/ har lavet en rimelig præcis forudsigelse for år 2014. Sider som denne indeholder som oftest avancerede algoritmer. Vores bidrag til dette spørgsmål vil være en transparent R-kode og en analyse som indeholder overskuelige tabeller og visualiseringer. En ting er, at kunne komme med et kvalificeret bud på vinderen, men vi synes det er ligeså vigtigt, at kunne vise hvorfor lige præcis denne film vil vinde.
Data
Vi vil scrabe IMDB’s hjemmeside lidt på samme måde som I Paid a Bribe-siden. Vi vil bruge filmdata fra de sidste 20 år og bruge dette til at undersøge hvilke interessante sammenhænge der er mellem data og oscar-vinderne. For at få så meget information/variable med for hver film, er vi nødt til at gå ind på hver films hjemmeside, hvilket kræver et ekstra loop (ift. ”I paid a bribe”). Målet er, at få så mange film med som muligt, men dette begrænses naturligvis af computerens ydeevne. Vi er nok nødt indskrænke indsamlingen lidt, da der f.eks. indtil videre er udgivet ca. 14.000 film i 2015. En mulig restriktion på data kan være at filmen skal være bedømt af mindst 10.000 bruger på IMDB, hvilket svarer til ca. 200 film. Af variable har vi i udgangspunktet titel, udgivelsesdato, genre, rating, antal brugeranmeldelser, metascore, antal reviews, antal critic reviews, antal reviews fra metacritic, instruktør, budget, indtjening, primærskuespillere, spilletid og genre. Det vil være interessant og relevant, hvis man også kan inkludere hvor filmen foregår og hvilken tidsalder filmen foregår i (fortid/nutid/fremtid), men dette kræver at resuméet kan scrabes.
Denne analyse vil så bruge til at forsøge at forudsige 2016-vinderen, ved at se på alle de film, der er udgivet i 2015.
Spørgsmål som skal besvares i analysen
Hvem vinder Oscar 2016?
Sammenhængen mellem rating og hhv. metascore, reviews, critic reviews og spilletid – er der nogle pudsige sammenhænge?
Sammenhængen mellem reviews og critic reviews – har dem med mange reviews også mange reviews af kritikere?
Sammenhængen mellem rating og udgivelsesdato – er der bedre rating, hvis filmen er udgivet først på måneden? Eller udgivet sidst på året?
Map over instruktørers/skuespilleres fødested/nuværende/filming location adresse – hvor kommer højtratede films instruktører /skuespillere fra? Og har det betydning for ratingen?
Metode
Formålet med dette projekt er at forudsige de forskellige spørgsmål ud fra hvad, vi ved, dvs. ud fra det data vi kender, bl.a. rating/metascore. Vi vil beskrive data med deskriptiv statistik, hvilket skal give en indikation af hvilke variable, der er relevante. På baggrund af denne deskriptive analyse vil vi opstille en simpel probit eller logit model, som skal beregne sandsynligheden for at en film fra 2015 kan vinde årets film 2016. Vi vil derfor slutteligt komme med et bud på lige præcist hvilken film, der vil vinde.
Projektbeskrivelse
Social Data Science – 23. november 2015
Team 1
Nynne Helt Almdal, Kasper Hjalager Albrechtsen, Stine Hindberg Andersen
Problemformulering
Hvem vinder Oscar 2016? Vi vil gerne forudsige hvem, der vinder Oscar 2016 i forskellige kategorier. Dette er ikke en ny ting, andre spekulerer i og oddser på samme spørgsmål, bl.a. http://www.farsiteforecast.com/ har lavet en rimelig præcis forudsigelse for år 2014. Sider som denne indeholder som oftest avancerede algoritmer. Vores bidrag til dette spørgsmål vil være en transparent R-kode og en analyse som indeholder overskuelige tabeller og visualiseringer. En ting er, at kunne komme med et kvalificeret bud på vinderen, men vi synes det er ligeså vigtigt, at kunne vise hvorfor lige præcis denne film vil vinde.
Data
Vi vil scrabe IMDB’s hjemmeside lidt på samme måde som I Paid a Bribe-siden. Vi vil bruge filmdata fra de sidste 20 år og bruge dette til at undersøge hvilke interessante sammenhænge der er mellem data og oscar-vinderne. For at få så meget information/variable med for hver film, er vi nødt til at gå ind på hver films hjemmeside, hvilket kræver et ekstra loop (ift. ”I paid a bribe”). Målet er, at få så mange film med som muligt, men dette begrænses naturligvis af computerens ydeevne. Vi er nok nødt indskrænke indsamlingen lidt, da der f.eks. indtil videre er udgivet ca. 14.000 film i 2015. En mulig restriktion på data kan være at filmen skal være bedømt af mindst 10.000 bruger på IMDB, hvilket svarer til ca. 200 film. Af variable har vi i udgangspunktet titel, udgivelsesdato, genre, rating, antal brugeranmeldelser, metascore, antal reviews, antal critic reviews, antal reviews fra metacritic, instruktør, budget, indtjening, primærskuespillere, spilletid og genre. Det vil være interessant og relevant, hvis man også kan inkludere hvor filmen foregår og hvilken tidsalder filmen foregår i (fortid/nutid/fremtid), men dette kræver at resuméet kan scrabes. Denne analyse vil så bruge til at forsøge at forudsige 2016-vinderen, ved at se på alle de film, der er udgivet i 2015.
Spørgsmål som skal besvares i analysen
Metode
Formålet med dette projekt er at forudsige de forskellige spørgsmål ud fra hvad, vi ved, dvs. ud fra det data vi kender, bl.a. rating/metascore. Vi vil beskrive data med deskriptiv statistik, hvilket skal give en indikation af hvilke variable, der er relevante. På baggrund af denne deskriptive analyse vil vi opstille en simpel probit eller logit model, som skal beregne sandsynligheden for at en film fra 2015 kan vinde årets film 2016. Vi vil derfor slutteligt komme med et bud på lige præcist hvilken film, der vil vinde.