XML source is confused about text encoding.

e.g. in the XML:

<gco:CharacterString>TC - Canada&#226;&#8364;&#8482;s
    National Highway System</gco:CharacterString>

I used this sort of thing to clean it up:

from HTMLParser import HTMLParser
unescape = HTMLParser().unescape
confused = '''TC - Canada&#226;&#8364;&#8482;s
    National Highway System'''
print ' '.join(p.strip() for p in unescape(confused).encode('cp1252').decode('utf8').split(u'\n'))

TC - Canada’s National Highway System

open-data / hnap

XML source is confused about text encoding. #1