Detta ärende har högsta prioritet i Westac-projektet.
Jag hade ett möte med Johan och Erik där vi diskuterade tappet i data i Svenska dagbladet 1987–1989 (dokument/år) samt i Expressen 1954–1963 (ord/år). Givet vår kännedom om tidningsdatat så förefaller det orimligt att det inte skulle handla om ett tapp i data vi dessa tillfällen.
Det kommer garanterat ta väldigt lång tid att åtgärda detta tapp, för sedan skapa en ny dtm-fil som du sedan kan skapa nya topic från. Därför är det bättre om vi tillsvidare bara fokuserar på Aftonbladet och Dagens nyheter.
Du behöver därför göra om topic modelleringen på endast dessa två tidningar (Aftonbladet och Dagens nyheter 1945–1989). Jag antar att du helt enkelt ”extraherar” ut dessa ur dtm-filen och sedan gör nya topic modeller på detta data. Fördelen är ju att det garanterat kommer att ta mindre tid att köra modellerna.
Börja med modeller om 50, 100 och 200 topics.
När väl den första topic modellkörningen är startad så kan arbetet med Jupyter sidan fortgå.
P.S. ag gick igenom topic modeling-sidan i Jupyter för Johan och Erik och de tyckte att det såg bra ut. De kommer att dyka upp i labbet imorgon kl 9 så att du kan hjälpa dem fixa Jupyter på det sätt som jag har det på min dator. Men de hör av sig till dig om det.
Detta ärende har högsta prioritet i Westac-projektet.
Jag hade ett möte med Johan och Erik där vi diskuterade tappet i data i Svenska dagbladet 1987–1989 (dokument/år) samt i Expressen 1954–1963 (ord/år). Givet vår kännedom om tidningsdatat så förefaller det orimligt att det inte skulle handla om ett tapp i data vi dessa tillfällen.
Det kommer garanterat ta väldigt lång tid att åtgärda detta tapp, för sedan skapa en ny dtm-fil som du sedan kan skapa nya topic från. Därför är det bättre om vi tillsvidare bara fokuserar på Aftonbladet och Dagens nyheter.
Du behöver därför göra om topic modelleringen på endast dessa två tidningar (Aftonbladet och Dagens nyheter 1945–1989). Jag antar att du helt enkelt ”extraherar” ut dessa ur dtm-filen och sedan gör nya topic modeller på detta data. Fördelen är ju att det garanterat kommer att ta mindre tid att köra modellerna.
Börja med modeller om 50, 100 och 200 topics.
När väl den första topic modellkörningen är startad så kan arbetet med Jupyter sidan fortgå.
P.S. ag gick igenom topic modeling-sidan i Jupyter för Johan och Erik och de tyckte att det såg bra ut. De kommer att dyka upp i labbet imorgon kl 9 så att du kan hjälpa dem fixa Jupyter på det sätt som jag har det på min dator. Men de hör av sig till dig om det.