dchaplinsky / german_registry_parser

Will the fun ever stop
3 stars 1 forks source link

unhandled parse error - HH 130961 #5

Closed skenaja closed 6 years ago

skenaja commented 6 years ago

Following notice results in unhandled parsing error

{"notice_id":"130961","federal_state":"hh","amtsgericht":"Hamburg","aktenzeichen":"HRB 44885","posted_on":"2011-01-28","event_type":"Veränderungen","event_date":"2011-01-27","name":"Jungheinrich Aktiengesellschaft","sitz":null,"inhaber":null,"gesellschafter":null,"rechtsform":null,"full_text":"Amtsgericht Hamburg Aktenzeichen: HRB 44885 \nBekannt gemacht am: 28.01.2011 12:00 Uhr\n\n\n\n\nIn () gesetzte Angaben der Anschrift und des Geschäftszweiges erfolgen ohne Gewähr.\nVeränderungen\n27.01.2011\n\nJungheinrich Aktiengesellschaft, Hamburg, Am Stadtrand 35, 22047 Hamburg. Gesamtprokura gemeinsam mit einem Vorstandsmitglied oder einem anderen Prokuristen: Dr. Binnewies, Stefan, Hamburg, *22.08.1971; Sawall, Jörn, Hamburg, *13.06.1972. Prokura geändert:(bisher: Familienname: Hoffmann; Sitz: Hannover), nun Gesamtprokura gemeinsam mit einem Vorstandsmitglied oder einem anderen Prokuristen: Schädlich, Katja Annett, Neuwittenbek, *27.06.1973.","url":"https://www.handelsregisterbekanntmachungen.de/en/skripte/hrb.php?rb_id=130961\u0026land_abk=hh"}
# python3 pipeline.py parse samples/hh_130961.json.gz parsing_results/hh_130961
1it [00:00, 118.89it/s]
Traceback (most recent call last):
  File "pipeline.py", line 163, in <module>
    parsing_result, _ = parse_document(p_doc)
  File "registry_parser.py", line 513, in parse_document
    for v in chain.from_iterable(map(_parse_normalized, _get_normalized(sents))):
  File "registry_parser.py", line 475, in _parse_normalized
    res = list(filter(None, known_sentence.parse(normalized)))
  File "registry_parser.py", line 336, in parse
    if text is None or not re.search(text, sentence, flags=re.I | re.U):
  File "/usr/lib/python3.5/re.py", line 173, in search
    return _compile(pattern, flags).search(string)
  File "/usr/lib/python3.5/re.py", line 293, in _compile
    p = sre_compile.compile(pattern, flags)
  File "/usr/lib/python3.5/sre_compile.py", line 536, in compile
    p = sre_parse.parse(p, flags)
  File "/usr/lib/python3.5/sre_parse.py", line 829, in parse
    p = _parse_sub(source, pattern, 0)
  File "/usr/lib/python3.5/sre_parse.py", line 437, in _parse_sub
    itemsappend(_parse(source, state))
  File "/usr/lib/python3.5/sre_parse.py", line 781, in _parse
    source.tell() - start)
sre_constants.error: missing ), unterminated subpattern at position 17
dchaplinsky commented 6 years ago

Fixed, + some improvements made to parse even more officers