mfdz / GTFS-Issues

Documentation and Tracking of Issues in GTFS- and GTFS-RT Feeds
35 stars 3 forks source link

NVBW (SPNV-BW): Zip-File korrupt #58

Closed hbruch closed 3 years ago

hbruch commented 3 years ago

Beschreibe den Fehler Das >800MB große Zip-File des GTFS-Feeds lässt sich nicht auspacken.

Aktualisierungszeitpunkt der GTFS-Daten: 12.12.2020

Downloadlink der GTFS-Daten: https://www.nvbw.de/fileadmin/user_upload/service/open_data/fahrplandaten_mit_liniennetz/bwspnv.zip

NVBWSeifert commented 3 years ago

Bei mir war es auf meinen Privatrechner downloadbar, entpackbar und lesbar.

Bitte die MD5 Hashsumme prüfen: 1f5863817f252ed5fc2c8958912c10b5

Ich kann den Hashwert als Downloaddatei bereitstellen, wie wäre die Fileextension: md5 oder md5sum oder wie sonst? Wäre als Link https://www.nvbw.de/fileadmin/user_upload/service/open_data/fahrplandaten_mit_liniennetz/bwspnv.zip.md5sum oder was anderes sinnvoll?

hbruch commented 3 years ago

Bei mir war es auf meinen Privatrechner downloadbar, entpackbar und lesbar.

Bitte die MD5 Hashsumme prüfen: 1f5863817f252ed5fc2c8958912c10b5

Korrekt. Danke für's Checken. Schließe den Eintrag.

Ich kann den Hashwert als Downloaddatei bereitstellen, wie wäre die Fileextension: md5 oder md5sum oder wie sonst? Wäre als Link https://www.nvbw.de/fileadmin/user_upload/service/open_data/fahrplandaten_mit_liniennetz/bwspnv.zip.md5sum oder was anderes sinnvoll?

Geofabrik stellt die Prüfsumme zur Datei in gleichnamigem Link mit .md5 Suffix bereit. Das scheint mir sinnvoll.

hbruch commented 3 years ago

Nachtrag:

Das SPNV-BW Zipfile ist (vermutlich aufrund der Grröße) mit Kompression Type 9 (Deflate64) komprimiert, welches durch Javas ZIP-Implementierung nicht unterstützt wird:

$ unzip -vl SPNV-BW.gtfs.zip
Archive:  SPNV-BW.gtfs.zip
 Length   Method    Size  Cmpr    Date    Time   CRC-32   Name
--------  ------  ------- ---- ---------- ----- --------  ----
    9349  Def64N     1444  85% 12-12-2020 12:03 e839b7ca  agency.txt
  992678  Def64N    74083  93% 12-09-2020 22:29 e706aacd  calendar.txt
15056364  Def64N  1542773  90% 12-09-2020 22:29 a03ba132  calendar_dates.txt
   52706  Def64N    12478  76% 12-12-2020 12:03 3563d604  routes.txt
3275362912  Def64N 837095354  74% 12-09-2020 22:29 10a6c4d0  shapes.txt
187715492  Def64N 45760809  76% 12-12-2020 12:03 68c584c1  stop_times.txt
  826226  Def64N   273585  67% 12-12-2020 13:09 c2fefc7f  stops.txt
11291567  Def64N  2246174  80% 12-12-2020 12:03 ec6a6ab9  trips.txt
--------          -------  ---                            -------
3491307294         887006700  75%                            8 files
$ unzip -vl naldo.gtfs.zip
Archive:  naldo.gtfs.zip
 Length   Method    Size  Cmpr    Date    Time   CRC-32   Name
--------  ------  ------- ---- ---------- ----- --------  ----
    2718  Defl:N      543  80% 12-13-2020 10:19 f56b204f  agency.txt
   13723  Defl:N     1703  88% 12-13-2020 10:19 4bddce9b  calendar.txt
  139427  Defl:N    14841  89% 12-13-2020 10:19 d4df0379  calendar_dates.txt
   43800  Defl:N     6818  84% 12-13-2020 10:19 c36acab0  routes.txt
146305979  Defl:N 28619708  80% 12-13-2020 10:19 2cd9b274  shapes.txt
  209023  Defl:N    51881  75% 12-13-2020 10:19 a8f7d258  stops.txt
59982158  Defl:N  7053152  88% 12-13-2020 10:19 626d40a3  stop_times.txt
 4546813  Defl:N   257215  94% 12-13-2020 10:19 983fca63  trips.txt
--------          -------  ---                            -------
211243641         36005861  83%                            8 files

Dies führt in der Verarbeitung mittels GTFS-Transformer zu einer "invalid CEN header (bad compression method)"-ZipException:

java.util.zip.ZipException: invalid CEN header (bad compression method)
    at java.util.zip.ZipFile.open(Native Method)
    at java.util.zip.ZipFile.<init>(ZipFile.java:225)
    at java.util.zip.ZipFile.<init>(ZipFile.java:155)
    at java.util.zip.ZipFile.<init>(ZipFile.java:169)
    at org.onebusaway.csv_entities.CsvEntityReader.setInputLocation(CsvEntityReader.java:84)
    at org.onebusaway.gtfs_transformer.GtfsTransformer.readGtfs(GtfsTransformer.java:203)
    at org.onebusaway.gtfs_transformer.GtfsTransformer.run(GtfsTransformer.java:160)
    at org.onebusaway.gtfs_transformer.GtfsTransformerMain.runApplication(GtfsTransformerMain.java:268)
    at org.onebusaway.gtfs_transformer.GtfsTransformerMain.run(GtfsTransformerMain.java:112)
    at org.onebusaway.gtfs_transformer.GtfsTransformerMain.main(GtfsTransformerMain.java:91)
make: *** [makefile:36: data/gtfs/SPNV-BW.filtered.gtfs.zip] Error 255
NVBWSeifert commented 3 years ago

Ich verwende per DOS-Skript 7z, gebe Format zip an, ohne Kompressionsangabe. Ich habe jetzt mal explizit level 5 und level 7 angegeben, bitte mal prüfen, was nutzbar ist https://www.nvbw.de/fileadmin/user_upload/service/open_data/fahrplandaten_mit_liniennetz/bwspnv5.zip https://www.nvbw.de/fileadmin/user_upload/service/open_data/fahrplandaten_mit_liniennetz/bwspnv7.zip

hbruch commented 3 years ago

Beide Varianten lassen sich mittels jar xf bwspnv7.zip bzw. 5.zip erfolgreich entpacken. unzip -vl bwspnv7.zip zeigt als Format Defl:Nan:

$ unzip -vl bwspnv7.zip
Archive:  bwspnv7.zip
 Length   Method    Size  Cmpr    Date    Time   CRC-32   Name
--------  ------  ------- ---- ---------- ----- --------  ----
    9349  Defl:N     1402  85% 12-12-2020 12:03 e839b7ca  agency.txt
  992678  Defl:N    54174  95% 12-09-2020 22:29 e706aacd  calendar.txt
15056364  Defl:N  1000305  93% 12-09-2020 22:29 a03ba132  calendar_dates.txt
   52706  Defl:N    10284  81% 12-12-2020 12:03 3563d604  routes.txt
3275362912  Defl:N 766155734  77% 12-09-2020 22:29 10a6c4d0  shapes.txt
  826226  Defl:N   238246  71% 12-12-2020 13:09 c2fefc7f  stops.txt
187715492  Defl:N 41732725  78% 12-12-2020 12:03 68c584c1  stop_times.txt
11291567  Defl:N  1862705  84% 12-12-2020 12:03 ec6a6ab9  trips.txt
--------          -------  ---                            -------
3491307294         811055575  77%                            8 files