mediathekview / MLib

lib für das Projekt MediathekView
GNU General Public License v3.0
35 stars 27 forks source link

Filme von KiKa landen doppelt in der FIlmliste #68

Closed criztovyl closed 7 years ago

criztovyl commented 7 years ago

Im Zusammenhang mit #45 habe ich bemerkt das die Filme anscheindend doppelt in der Liste landen und nocheinmal in MediathekView rausgefiltert werden. Soweit ich erkennen konnte, sind die doppeten Filme in der Filmliste identisch.

Ich weiß nicht ob das ein Bug ist in der Lösung die doppelten Filme so rauszufiltern ist oder obs so gewollt ist.

Jedenfalls kann mit #45 in MediathekView eigentlich keine solche Filterung mehr stattfinden, es sollten durch den Crawler die Filme "einfach" nicht doppelt in die Liste eingehen.

xaverW commented 7 years ago

im mediathekreader.addFilm wird doch geprüft, ob die URL schon in der neuen Liste ist?? Weiß nicht genau was du meinst.

xaverW commented 7 years ago

ich habe jetzt zB. 2 gefunden: Trio - Cyber Gold Trio - Cyber-Gold

der Rest ist gleich aber das Thema unterscheidet sich durch den "-"

hast du mal eine Beispiel? Der Index zum Vergleich ist Sender - Thema - URL

criztovyl commented 7 years ago

Hm, ich hatte den ABC Bär, 81. Folge. Ich hoffe ich habe nicht den Bindestrich übersehen oder was in MSearch übersehen.

xaverW commented 7 years ago

doch. Ist aber trotzdem nicht ganz OK, kommt aber vom Crawler

beim KiKa wird da gesucht: http://www.kika.de/sendungen/sendungenabisz100.html http://www.kika.de/videos/allevideos/allevideos-buendelgruppen100.html

das Thema wird aus dem tag genommen: <a href="http://www.kika.de/abc-baer/sendereihe1876.html">http://www.kika.de/abc-baer/sendereihe1876.html</a> <a href="http://www.kika.de/abc-baer/sendungen/allevideosabcbaer100.html">http://www.kika.de/abc-baer/sendungen/allevideosabcbaer100.html</a></p> <p>und da wird das unterschiedlich geschrieben (wohl gemerkt für die gleiche Sendung!)</p> <p>das muss irgendwie geändert werden.</p> </div> </div> <div class="comment"> <div class="user"> <a rel="noreferrer nofollow" target="_blank" href="https://github.com/Nicklas2751"><img src="https://avatars.githubusercontent.com/u/4107593?v=4" />Nicklas2751</a> commented <strong> 7 years ago</strong> </div> <div class="markdown-body"> <p>Ein ähnliches verhalten konnte ich beim ZDF mit der heute-show feststellen. Mal wird das unter heute-show und mal unter heute show veröffentlicht.</p> </div> </div> <div class="comment"> <div class="user"> <a rel="noreferrer nofollow" target="_blank" href="https://github.com/xaverW"><img src="https://avatars.githubusercontent.com/u/8464624?v=4" />xaverW</a> commented <strong> 7 years ago</strong> </div> <div class="markdown-body"> <p>aktuelle Sachen? Das sollte geändert sein.</p> </div> </div> <div class="comment"> <div class="user"> <a rel="noreferrer nofollow" target="_blank" href="https://github.com/Nicklas2751"><img src="https://avatars.githubusercontent.com/u/4107593?v=4" />Nicklas2751</a> commented <strong> 7 years ago</strong> </div> <div class="markdown-body"> <p>Ja aktuell.</p> </div> </div> <div class="comment"> <div class="user"> <a rel="noreferrer nofollow" target="_blank" href="https://github.com/xaverW"><img src="https://avatars.githubusercontent.com/u/8464624?v=4" />xaverW</a> commented <strong> 7 years ago</strong> </div> <div class="markdown-body"> <p>habe KiKa versucht zu ändern, war aber gar nicht so einfach möglich. Bei allen Tags, ... aus denen sich das Thema auslesen ließ, klappte es bei dem einen und anderen Thema nicht. habe dann einfach manuelle den ABC-Bär angepasst. ->heute show: der aktuelle Crawler findet nur: heute-show</p> </div> </div> <div class="page-bar-simple"> </div> <div class="footer"> <ul class="body"> <li>© <script> document.write(new Date().getFullYear()) </script> Githubissues.</li> <li>Githubissues is a development platform for aggregating issues.</li> </ul> </div> <script src="https://cdn.jsdelivr.net/npm/jquery@3.5.1/dist/jquery.min.js"></script> <script src="/githubissues/assets/js.js"></script> <script src="/githubissues/assets/markdown.js"></script> <script src="https://cdn.jsdelivr.net/gh/highlightjs/cdn-release@11.4.0/build/highlight.min.js"></script> <script src="https://cdn.jsdelivr.net/gh/highlightjs/cdn-release@11.4.0/build/languages/go.min.js"></script> <script> hljs.highlightAll(); </script> </body> </html>