A barom html2text meghagyja utf8-nak a tenylegesen utf8 szoveget,
viszont a html entitasokat lelkesen atkonvertalja latin-1-re. Az
eredmeny a jogi szovegek eseteben egy olyan keverek, ahol a fejlec
latin-1, a test utf8. A CELEX-nel me'g be lehetne drotozni, hogy utf8
es kesz, de a nagyvilagban persze vannak latin-2 html-ek.
UPDATE: A CELEX-re kezzel megcsinaltam egy elo-konverziot latin2-re.
Original issue reported on code.google.com by Varga.Da...@gmail.com on 2 Mar 2011 at 2:59
Original issue reported on code.google.com by
Varga.Da...@gmail.com
on 2 Mar 2011 at 2:59