mfdz / GTFS-Issues

Documentation and Tracking of Issues in GTFS- and GTFS-RT Feeds
36 stars 3 forks source link

DELFI: Doppelte Trips #89

Open hbruch opened 2 years ago

hbruch commented 2 years ago

Der DELFI-GTFS-Datensatz beinhaltet mehrere grundsätzlich äquivalente Trips mehrfach. Mutmaßliche Ursache sind in den vermutlich aus unterschiedlichen Quellen stammenden Fahrten teilweise abweichende Steige, z.B. bei unten stehenden Fahrten.

Beispiele

SELECT agency_name, route_color, route_text_color,
       route_short_name, trip_headsign, direction_id, trip_short_name,
       wheelchair_accessible, st.departure_time, t.service_id, t.trip_id
 FROM agency a
 JOIN routes r ON a.agency_id=r.agency_id AND a.feed_index=r.feed_index
 JOIN trips t ON t.route_id=r.route_id AND t.feed_index=r.feed_index
 JOIN stop_times st ON st.trip_id = t.trip_id AND st.feed_index=t.feed_index AND st.stop_sequence=0
WHERE agency_name IN ('NEB Niederbarnimer Eisenbahn', 'NEB Betriebsgesellschaft mbH' )
  AND a.feed_index=2
ORDER BY departure_time;
agency_name route_color route_text_color route_short_name trip_headsign direction_id trip_short_name wheelchair_accessible departure_time service_id trip_id
NEB Niederbarnimer Eisenbahn RB62 Prenzlau,Bahnhof 0 61295 03:39:00 666 1687956459
NEB Betriebsgesellschaft mbH DA6BA2 FFFFFF RB62 Prenzlau,Bahnhof 0 61295 1 03:39:00 666 1688224088
NEB Niederbarnimer Eisenbahn RB62 Prenzlau,Bahnhof 0 61295 03:59:00 667 1687956461
NEB Betriebsgesellschaft mbH DA6BA2 FFFFFF RB62 Prenzlau,Bahnhof 0 61295 1 03:59:00 667 1676824057
NEB Betriebsgesellschaft mbH A5027D FFFFFF RB12 S Ostkreuz Bhf (Berlin) 1 61102 1 04:34:00 659 1676821331
NEB Niederbarnimer Eisenbahn RB12 S Ostkreuz Bhf (Berlin) 1 61102 04:34:00 659 1687965808
NEB Niederbarnimer Eisenbahn RB12 Templin,Stadt Bhf 0 61101 04:47:00 659 1687965873
NEB Betriebsgesellschaft mbH A5027D FFFFFF RB12 Templin,Stadt Bhf 0 61101 1 04:47:00 659 1676821348
NEB Niederbarnimer Eisenbahn RB62 Angermünde,Bahnhof 1 61296 04:51:00 670 1687956441
NEB Betriebsgesellschaft mbH DA6BA2 FFFFFF RB62 Angermünde,Bahnhof 1 61296 1 04:51:00 670 1676824048

...

SELECT trip_id, stop_id, departure_time, stop_sequence FROM stop_times st
 WHERE trip_id in ('1687956459','1688224088')
ORDER BY stop_sequence,trip_id;
trip_id stop_id departure_time stop_sequence
1687956459 de:12060:900350127:2:51 03:39:00 0
1688224088 de:12060:900350127:2:51 03:39:00 0
1687956459 de:12060:900350124:1:50 03:43:00 1
1688224088 de:12060:900350124:1:50 03:43:00 1
1687956459 de:12060:900350125:2:51 03:48:00 2
1688224088 de:12060:900350125:1:50 03:48:00 2
1687956459 de:12073:900340004:3:54 03:59:00 3
1688224088 de:12073:900340004:3:52 03:59:00 3
1687956459 de:12073:900341270:1:50 04:09:00 4
1688224088 de:12073:900341270:1:50 04:09:00 4
1687956459 de:12073:900340056:1:50 04:16:00 5
1688224088 de:12073:900340056:1:50 04:16:00 5
1687956459 de:12073:900340055:1:50 04:19:00 6
1688224088 de:12073:900340055::2 04:19:00 6
1687956459 de:12073:900340050:1:51 04:27:00 7
1688224088 de:12073:900340050:1:51 04:27:00 7

Behebungsvorschlag Bei der Ermittlung von Äquivalenten ist es womöglich sinnvoller, statt auf steigscharfe Identität zu vergleichen (was ich als aktuelle Ursache vermute), auf Äquivalenz der übergeordneten Haltestellen-ID zu prüfen (ohne Steig). Dabei sollten festgestellte Differenzen an die Datenbereitstellenden rückgemeldet werden, da zumindest eine Quelle fehlerhaft sein dürfte.

Aktualisierungszeitpunkt der GTFS-Daten: 21.03.2022

Downloadlink der GTFS-Daten: oepnv-opendata

derhuerst commented 2 years ago

Zur Bestätigung: Ich habe stichprobenartig geschaut, im VBB-Feed kommen diese Fahrten nicht doppelt vor.

hbruch commented 1 year ago

Das Problem besteht Stand heute weiterhin.

Stand der Daten: VBB: 9.12.2022 DELFI: 5.12.2022

hbruch commented 1 month ago

Das Problem besteht im DELFI-Datensatz Stand 12.08.2024 weiterhin.

BeckertAnke commented 1 month ago

Wir bekommen Eisenbahnlinien in der Regel von mehreren Lieferanten und versuchen per Konfiguration jeweils genau eine in die Ausgabeschnittstellen zu übergeben. Für das konkrete Beispiel ziehen wir das nach. Die einzig wirklich effiziente Methode nach Linien-Duplikaten auf unserer Seite zu suchen, ist die deutschlandweite Linien-ID (DTID). Leider ist die Versorgung von DTID bei Eisenbahnlinien noch nicht auf dem Stand, den wir gerne hätten, sodass wir Linien- und Fahrtduplikate nie ganz ausschließen können.

Anke Beckert (DELFI-Team)