Implement pseudonymization in the editor

cajosc commented 6 years ago

[x] spraakbanken/swell-editor#75
[x] spraakbanken/swell-editor#74

cajosc commented 6 years ago

@majsan This is a metaissue for the pseudonymization task.

majsan commented 6 years ago

Saknas anonymiseringstaggar för tokens som är datum i form av år, månad och dag, t.ex. "2018-10-01" samt enbart en viss dag utan år t.ex. "1/10".

cajosc commented 6 years ago

@elenavolodina Har ni kommit fram till att taggar av den typen @majsan nämner inte behövs, eller bör de läggas till?

elenavolodina commented 6 years ago

Have added some answers in https://github.com/spraakbanken/swell-editor/issues/74

majsan commented 6 years ago

Jag har lagt upp koden i: https://github.com/spraakbanken/swell-pseudonymize-js

Jag förstår inte hur följande ska hanteras i pseudonymiseringen:

city-SWE
extra
oblig/nonoblig
sensitive, i dokumentet så verkar det föreslås att det ska ersättas med och det går alldeles utmärkt, men verkar lite konstigt ur t.ex. tokeniseringsperspektiv.
institution, jag tycker att den är lite otydlig (inte work och school dock), jag har implementerat en chansning, men det kommer nog att behöva ändras.

Det som saknas i koden just nu, förutom ovanstående saker är:

Hantera "genitive", "definite", "plural", kräver integrering med Karp/SALDO eller dylikt?
Hantera ålder som inte skrivs i siffror
'transport_line' ger alltid tillbaka 1 just nu, det pga att jag inte riktigt förstod hur det skulle funka.

Sen behöver jag/vi/någon jobba med att lägga in namn och platser som är mer rimliga och följer specen bättre.

elenavolodina commented 6 years ago

Försöker att svara:

city-SWE - från en separat lista med svenska geonamn
extra - en öppen kategori. Vi ska kunna sätta ett tagg < extra > tecken för tecken, men ska än så länge inte ersätta/pseudonymisera. Måltexten ska, alltså, fortfarande innehålla samma text som originaltexten. Vi behöver ta ett beslut i detta efter vi har tittat på dessa fall (om det blir några sådana).
sensitive - gör på samma sätt som i extra. Beslutet får tas senare, och själva åtgärden (t.ex. ta bort segment eller ersätta på något sätt) ska vi behöva göra manuellt senare. Vi behöver alltså en möjlighet att återgå till anonymiseringsläge i online versionen och manipulera källtexten.
institution - vi får titta på listorna senare

elenavolodina commented 6 years ago

oblig / nonoblig - är "descriptors" som läggs på "extra" taggar. I stilen med "running numbers" eller "morfologi", men får bara läggas till på "extra" som huvudkategori.

elenavolodina commented 6 years ago

Jag tror att det behöver klargöras att det är 3 sätt att hantera de olika anonymiseringskategorierna:

Det som ska obligatoriskt ersättas redan i kiosk - för det mesta olika nummeriska (samt datum, ålder, månader, ...) utryck - och dessa pseudonymiseras en gång för alltid (dock taggen ska behållas). Dessa pseudonymiserade uttryck ska vara källtexten för alla andra manipuleringar med data (normalisering, felannotering, etc).
Sensitive, profession och extra ska bara taggas, men originaltexten projiceras till måltexten tills vidare
Resten - ska taggas, och taggar ska projiceras till måltexten. Dessa taggar ska i nästa steg (temporärt) pseudonymiseras när man laddar upp uppsatsen till online SVALA (eller senare till ett korpussökningsverktyg) - och där skulle man ha en möjlighet att välja ifall man vill sätta uppsatsen i någon kulturell kontext, men än så länge är det ok att ersätta med användning av någon enklare lista. I online SVALA behöver man koppla på Karp kedjan (eller saldo-morfologi) för att kunna böja orden enligt de morfologiska aspekterna som har lagts på taggarna.

(hoppas att jag har förklarat så att ni kan förstå)

arildm commented 6 years ago

Working on this on the pseudonymization branch.

It could use some review from @jroxendal. (I'm especially unsure about having pseudonymizeTokenStore as a global variable, but I wasn't able to put it in the store.)

Then this should be tested with @cajosc in connection with the portal (I don't have access to any essays there) to verify that the anonymize-normalize workflow works as expected, i.e. the normalization source is created from the, now pseudonymized, anonymization target.

arildm commented 6 years ago

Merged and pushed, so this is in master now 👍

spraakbanken / swell-editor

Implement pseudonymization in the editor #95