Closed Nicklas2751 closed 3 years ago
Folgende Bugs sind im KIKA-Crawler noch zu fixen:
[x] Filme werden unter Sender 3sat bereitgestellt
[x] "Converting the Sendungsfolgen URLs to video detail URLs for KIKA" benötigt 26 von 30 Minuten Laufzeit, am Ende kommen gerade mal 960 Filme heraus => viel Zeit und Traffic für "nichts"?
[x] Videoauflösung fehlerhaft: Kennzeichen für HD gesetzt, aber nur Links für hohe und niedrige Auflösung vorhanden. Die hohe Auflösung ist eigentlich HD, die niedrige ist schlechter als normal im alten Crawler aber besser als niedrig im alten Crawler.
[x] Größe fehlerhaft, Angaben für HD+Normal mehrere Terrabyte. Eventuell hängt das mit den fehlerhaften Videoauflösungen zusammen
[x] viele Sendungen mit Datum des Crawlerlaufs, laut Log "has no date so the actual date will be used." Datum leer lassen besser als das Datum des Crawlerlaufs, denn dieses ändert sich mit jedem Run.
[x] bei der Dauer fehlen die Minutenangaben, es werden nur die Sekunden angezeigt, z.B. 00:43
[x] Geokennzeichnung fehlerhaft: alle Sendungen haben "DE"-Kennzeichnung, aber nur die URLs mit "pmdgeokika" haben ein Geoblocking
[x] einige "seltsame" Themen in der Liste enthalten, die daraufhin deuten, dass die Themeneinteilung nicht immer korrekt ist:
"hier die Anleitung!"
"ab 14. Juni, 16 Uhr"
"Datenschutz"
[x] Filmliste unvollständig, hier einige Beispiele, die in der Liste des alten Crawlers enthalten sind:
SingAlarm | Tschu Tschu Wah | 15.09.2018 | 10:20 https://www.kika.de/singalarm/sendungen/sendung105928.html
Sonntagsmärchen | Das Wasser des Lebens | 16.09.2018 | 12:00 https://www.kika.de/sonntagsmaerchen/sendung108334.html
Der PR #466 fixt dieses ticket hier oder? Da war nur im banch name ein Tippfehler 112, 312 oder? @pidoubleyou
Reimplement the KIKA crawler for the new architecture