Closed cajosc closed 5 years ago
@majsan This is a metaissue for the pseudonymization task.
Saknas anonymiseringstaggar för tokens som är datum i form av år, månad och dag, t.ex. "2018-10-01" samt enbart en viss dag utan år t.ex. "1/10".
@elenavolodina Har ni kommit fram till att taggar av den typen @majsan nämner inte behövs, eller bör de läggas till?
Have added some answers in https://github.com/spraakbanken/swell-editor/issues/74
Jag har lagt upp koden i: https://github.com/spraakbanken/swell-pseudonymize-js
Jag förstår inte hur följande ska hanteras i pseudonymiseringen:
Det som saknas i koden just nu, förutom ovanstående saker är:
Sen behöver jag/vi/någon jobba med att lägga in namn och platser som är mer rimliga och följer specen bättre.
Försöker att svara:
city-SWE - från en separat lista med svenska geonamn
extra - en öppen kategori. Vi ska kunna sätta ett tagg < extra > tecken för tecken, men ska än så länge inte ersätta/pseudonymisera. Måltexten ska, alltså, fortfarande innehålla samma text som originaltexten. Vi behöver ta ett beslut i detta efter vi har tittat på dessa fall (om det blir några sådana).
sensitive - gör på samma sätt som i extra. Beslutet får tas senare, och själva åtgärden (t.ex. ta bort segment eller ersätta på något sätt) ska vi behöva göra manuellt senare. Vi behöver alltså en möjlighet att återgå till anonymiseringsläge i online versionen och manipulera källtexten.
institution - vi får titta på listorna senare
Jag tror att det behöver klargöras att det är 3 sätt att hantera de olika anonymiseringskategorierna:
Det som ska obligatoriskt ersättas redan i kiosk - för det mesta olika nummeriska (samt datum, ålder, månader, ...) utryck - och dessa pseudonymiseras en gång för alltid (dock taggen ska behållas). Dessa pseudonymiserade uttryck ska vara källtexten för alla andra manipuleringar med data (normalisering, felannotering, etc).
Sensitive, profession och extra ska bara taggas, men originaltexten projiceras till måltexten tills vidare
Resten - ska taggas, och taggar ska projiceras till måltexten. Dessa taggar ska i nästa steg (temporärt) pseudonymiseras när man laddar upp uppsatsen till online SVALA (eller senare till ett korpussökningsverktyg) - och där skulle man ha en möjlighet att välja ifall man vill sätta uppsatsen i någon kulturell kontext, men än så länge är det ok att ersätta med användning av någon enklare lista. I online SVALA behöver man koppla på Karp kedjan (eller saldo-morfologi) för att kunna böja orden enligt de morfologiska aspekterna som har lagts på taggarna.
(hoppas att jag har förklarat så att ni kan förstå)
Working on this on the pseudonymization
branch.
It could use some review from @jroxendal. (I'm especially unsure about having pseudonymizeTokenStore
as a global variable, but I wasn't able to put it in the store.)
Then this should be tested with @cajosc in connection with the portal (I don't have access to any essays there) to verify that the anonymize-normalize workflow works as expected, i.e. the normalization source is created from the, now pseudonymized, anonymization target.
Merged and pushed, so this is in master now 👍