ropensci / coder

Classification of Cases into Deterministic Categories
https://docs.ropensci.org/coder/
22 stars 4 forks source link

RxRisk V needs double checking #87

Closed eribul closed 4 years ago

eribul commented 4 years ago

Tittar jag på alkoholberoende i tabellen nedan så tolkar jag det som alla koder som börjar med ”N07BB” och som avslutas med två godtyckliga siffror (undantaget ”00” om man ska vara petig). Som ett ”reguljärt uttryck” formuleras detta ”N07BB\d{2}”. Tittar jag sedan på vilka koder från den svenska ATC-implementationen som matchar detta uttryck, finner jag dock inte en enda kod (vilket också avspeglas i Excel-filen). Om jag däremot söker efter en kod med beskrivningen ”alkoholberoende” finner jag koden ”N07BB”. Det tycks alltså som att vi i Sverige inte riktigt nyttjar de sista två tecknen, vilket gör att denna kod inte ”hittas”, varpå alkoholberoende helt saknas i listan. Detta bör ju vara fel (även om det till viss del följer av specifikationen). Därmed kan vi nog anta att det korrekta reguljära uttrycket snarast borde vara ”N07BB\d{0,2}” (där {0,2} betyder 0-2 ”digits”). Detta är ju dock svårt att utläsa av tabellen och det kräver kanske att man gör manuella jämförelser av alla koder för att hitta liknande oklarheter.

Tittar jag på nästa grupp, allergier så ser jag tyvärr att där finns en felkodning i hur jag formulerat mitt reguljära uttryck. Jag har skrivit: ”R0(1A[CD]([0-5]\\\\d|60)|(6A([D-X]([01]\\\\d|2[0-7])|B04)))” Men det är ju självklart helt uppenbart att det egentligen måste vara: ”R0(1A(C\\\\d{2}|D([0-5]\\\\d)|60)|(6A((D(0[2-9]|[1-9]\\\\d)|[E-V]\\\\d{2}|X([01]\\\\d|2[0-7]))|B04)))”

eribul commented 4 years ago

Har gått igenom just exemplen ovan men fortsätter med övriga RxRisk V-koder.