c-w / gutenberg

A simple interface to the Project Gutenberg corpus.
Apache License 2.0
322 stars 59 forks source link

Fix encoding issue reported in #62 #65

Closed lifuhuang closed 7 years ago

lifuhuang commented 7 years ago

Removed the manual setting of requests.encoding and have load_text read from cache every time. Now it it able to load text of encoding other than utf-8.

Test case in issue #62 : Running in shell

python -m gutenberg.acquire.text 2000 2000.txt

Before this patch:

......

Yo, Juan Gallo de Andrada, escribano de C�mara del Rey nuestro se�or, de

los que residen en su Consejo, certifico y doy fe que, habiendo visto por

los se�ores d�l un libro intitulado El ingenioso hidalgo de la Mancha,

compuesto por Miguel de Cervantes Saavedra, tasaron cada pliego del dicho

libro a tres maraved�s y medio; el cual tiene ochenta y tres pliegos, que

al dicho precio monta el dicho libro docientos y noventa maraved�s y medio,

en que se ha de vender en papel; y dieron licencia para que a este precio

se pueda vender, y mandaron que esta tasa se ponga al principio del dicho

libro, y no se pueda vender sin ella. Y, para que dello conste, di la

presente en Valladolid, a veinte d�as del mes de deciembre de mil y

seiscientos y cuatro a�os.

......

Now:

...... Yo, Juan Gallo de Andrada, escribano de Cámara del Rey nuestro señor, de

los que residen en su Consejo, certifico y doy fe que, habiendo visto por

los señores dél un libro intitulado El ingenioso hidalgo de la Mancha,

compuesto por Miguel de Cervantes Saavedra, tasaron cada pliego del dicho

libro a tres maravedís y medio; el cual tiene ochenta y tres pliegos, que

al dicho precio monta el dicho libro docientos y noventa maravedís y medio,

en que se ha de vender en papel; y dieron licencia para que a este precio

se pueda vender, y mandaron que esta tasa se ponga al principio del dicho

libro, y no se pueda vender sin ella. Y, para que dello conste, di la

presente en Valladolid, a veinte días del mes de deciembre de mil y

seiscientos y cuatro años.

......

c-w commented 7 years ago

Thanks for the PR. To make sure that this stays fixed: could you please add a test for the issue reported in #58 that fails before this PR and passes afterwards?

coveralls commented 7 years ago

Coverage Status

Coverage decreased (-0.01%) to 93.953% when pulling 35c5f4869d49bec4ee28c5a50622f150409ad294 on lifuhuang:master into 0daa6da160c1044ee38a24073e9a56cf695a1615 on c-w:master.

lifuhuang commented 7 years ago

Thank you for suggestion. Working on the test cases.

coveralls commented 7 years ago

Coverage Status

Coverage decreased (-0.01%) to 93.953% when pulling 77ad41af2410b8ddde8d0e852604b1d33ca925fc on lifuhuang:master into 0daa6da160c1044ee38a24073e9a56cf695a1615 on c-w:master.

c-w commented 7 years ago

Looks good to me. @sethwoodworth @MasterOdin: are you happy to merge this?

coveralls commented 7 years ago

Coverage Status

Coverage decreased (-0.01%) to 93.953% when pulling 0c507c29d1ac4e8d683a7695b61b48f75860d56e on lifuhuang:master into 0daa6da160c1044ee38a24073e9a56cf695a1615 on c-w:master.

MasterOdin commented 7 years ago

I'm good with it