Sprakbanken / lexupdater

Other
1 stars 0 forks source link

fix: ensure non-null values in pos and feats columns #8

Closed Ingerid closed 1 year ago

Ingerid commented 1 year ago

Når newwords blir satt inn i SQL-db, kan noen feats-verdier være NULL eller NaN eller None. Dette gjør at feks. "SELECT * from words WHERE feats REGEXP 'FEM';" krasjer, fordi sqlite3 i python ikke takler å kjøre regex-søk på NULL-verdier. (Dette testet vi ved å opprette en ny temp_table og sette inn en NULL-verdi, og vi fikk samme feilen som jeg har fått i loggen).

Nå har vi lagt til "(pos|feats) TEXT NOT NULL" i CREATE_TEMP_TABLE-statement, samt word_df.fillna("") i parse_newwords.

Ingerid commented 1 year ago

Jeg har generert uttaleleksikon med generate.sh-skriptet i nb_uttale og dobbeltsjekket at alle reglene som gav feilmeldinger faktisk produserer riktig output med denne fiksen (lexupdater=0.7.5).

Debuggingsprosessen er dokumentert i rulebook/develop/debug_rules.ipynb