welfare-state-analytics / welfare_state_analytics

Welfare State Analytics
5 stars 0 forks source link

skapa ny collocate-fil för det politiska #12

Closed fredrik1984 closed 4 years ago

fredrik1984 commented 5 years ago

För att fånga bredden i vad som blir politiskt över tid vill vi testa att ha med alla collocates, även den svans som du filtrerade bort (dvs även de ord som förekommer mindre än tre gånger). Eftersom en sådan fil kommer blir för ohanterbar för hela perioden 1945–1989 så vore det bra om du istället kan skapa fyra sådana: 1945–1954, 1955–1964, 1965–1974 och 1975–1984. Det torde göra det enklare att arbeta med filerna i Gephi.

Lägg upp dessa nya collocate-filer i Drive när du är klar. Tack!

fredrik1984 commented 5 years ago

...glömde skriva att detta har högra prioritet än det andra inom Westac!

Om du sen vill Skype och diskutera problemen som du nämnde ang normalisering/viktning av word trend-kurvorna till SOU-materialet så kan vi ta ett snack i veckan, jag kan nästan när som

roger-mahler commented 5 years ago

Ny körning skapad & upplagd på drive. Filen är dock gigantisk.

fredrik1984 commented 5 years ago

När jag öppnar din cvs-fil i Excel blir å ä och ö konstiga. Jag brukade lösa det med att öppna i Textredigeraren och sedan klistra in texten i Excel. Men nu är filen för stor för att göra det. Det jag hade önskat med min issue var att skapa och ladda upp fyra filer för perioderna 1945–1954, 1955–1964, 1965–1974 och 1975–1984 för att undvika att göra filerna så stora med alla collocates.

Går detta att ordna?

fredrik1984 commented 5 years ago

Och för att göra collocate-filen lite mindre skulle du även kunna lägga till siffror i stoppordslistan samt tecknet " och ordet örn (som är ocr-fel för om)

roger-mahler commented 5 years ago

Nya filer upplagda på Google Drive. Ord som inte innehåller minst en bosktav filtreras nu bort (liten effekt). Filerna är nu även splittrade efter period.

fredrik1984 commented 5 years ago

Tack!

Missade du att lägga upp en fil för 1945–1954? Hittar inte den i Drive-mappen

roger-mahler commented 5 years ago

fixat

Skickades från E-posthttps://go.microsoft.com/fwlink/?LinkId=550986 för Windows 10


Från: fredrik1984 notifications@github.com Skickat: Wednesday, October 23, 2019 1:15:57 PM Till: humlab/welfare_state_analytics welfare_state_analytics@noreply.github.com Kopia: Roger Mähler roger.mahler@hotmail.com; Assign assign@noreply.github.com Ämne: Re: [humlab/welfare_state_analytics] skapa ny collocate-fil för det politiska (#12)

Tack!

Missade du att lägga upp en fil för 1945–1954? Hittar inte den i Drive-mappen

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHubhttps://github.com/humlab/welfare_state_analytics/issues/12?email_source=notifications&email_token=AECFJ7CTDCTMUYF7BBRO3JTQQAW63A5CNFSM4JDBZX4KYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOECBA5SQ#issuecomment-545394378, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AECFJ7FX2NERSOVYZS3D6M3QQAW63ANCNFSM4JDBZX4A.

fredrik1984 commented 5 years ago

Tack!

fredrik1984 commented 5 years ago

Kom på en sak som vi borde har gjort istället ang denna issue. Anledning till att vi vill göra en fil med alla collocates är för att ge exempel på hur periferin ser ut och dess semantiska relationer. Vi är inte intresserade av att studera alla 15 miljoner ordpar, såklart.

Därför vore det rimligare om du kan skapa fem "totalfiler" med alla collocates för fyra år: 1948, 1958, 1968, 1978, 1988. Då får varje år utgöra illustrativa exempel.

Skulle du kunna göra det istället, och lägga upp dessa i Drive?

roger-mahler commented 5 years ago

Fixat. Filerna fick extensionen ”zip” inne i arkivet, men det är csv-filer. Ta bort ändelsen ”zip” efter att ni packar upp dem.

From: fredrik1984 [mailto:notifications@github.com] Sent: den 24 oktober 2019 07:03 To: humlab/welfare_state_analytics welfare_state_analytics@noreply.github.com Cc: Roger Mähler roger.mahler@hotmail.com; Assign assign@noreply.github.com Subject: Re: [humlab/welfare_state_analytics] skapa ny collocate-fil för det politiska (#12)

Kom på en sak som vi borde har gjort istället ang denna issue. Anledning till att vi vill göra en fil med alla collocates är för att ge exempel på hur periferin ser ut och dess semantiska relationer. Vi är inte intresserade av att studera alla 15 miljoner ordpar, såklart.

Därför vore det rimligare om du kan skapa fem "totalfiler" med alla collocates för fyra år: 1948, 1958, 1968, 1978, 1988. Då får varje år utgöra illustrativa exempel.

Skulle du kunna göra det istället, och lägga upp dessa i Drive?

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHubhttps://github.com/humlab/welfare_state_analytics/issues/12?email_source=notifications&email_token=AECFJ7EYITPPXBW75SSYUELQQEUBNA5CNFSM4JDBZX4KYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOECDWVPI#issuecomment-545745597, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AECFJ7FMWEHUXF5L6QQ5CJTQQEUBNANCNFSM4JDBZX4A.

fredrik1984 commented 5 years ago

Jag kan inte packa upp zip-filerna som du nyss lade upp, det skapas bara en ny zip-fil när jag packar upp dem. Vad är problemet med dessa?

roger-mahler commented 5 years ago

Se kommentar ovan.

fredrik1984 commented 5 years ago

Aha

roger-mahler commented 4 years ago

Automatically closed by an independent bot.