thvitt / corpuschars

0 stars 0 forks source link

Encoding Error #3

Open eickelpasch opened 9 months ago

eickelpasch commented 9 months ago

Meine Zählmatrix wird erstellt -läuft aber manchmal auf einen Fehler. Dies ist auch ein Test für die Kommunikation. Welche Wege kann ich gehen? text = cp_file.read_text("locale") ''' "locale" steht für das encoding- default ist wohl utf-8 , das einen Fehler erzeugte aber auch fand ich in 'Hauff,-Wilhelm_Die Bettlerin vom Pont des Arts.txt' die gleiche Fehlermeldung. Genauer wurde gemeldet File "C:\Users\Eickelpasch\AppData\Local\Programs\Python\Python311\Lib\encodings\cp1252.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 815560: character maps to Eine Position 815560 gibt es aber nicht ( 231 220 ist die letze laut notepad++ und 0x81 wird in notepad++ nicht gefunden. '''

thvitt commented 9 months ago

Es wird offenbar versucht, nach cp1252 (= "Windows ANSI") zu dekodieren, und da gibt es das Zeichen 0x81 nicht:

cp1252

Wenn das die Datei ist, die ich kenne, ist sie utf-8-codiert. Es böte sich hier an, einen Testfall zu basteln