netzbegruenung / green-spider

Hilft Dir dabei, Deine BÜNDNIS 90/DIE GRÜNEN Website zu optimieren
https://green-spider.netzbegruenung.de/
Apache License 2.0
20 stars 8 forks source link

Kriterium: Suchmaschinen sind zugelassen #98

Open marians opened 5 years ago

marians commented 5 years ago

Bestimmte Angaben in einer robots.txt und Meta-Tags können dazu führen, dass Suchmaschinen die Site oder Teile davon nicht erfassen. Und eine URL, die nicht erfasst wird, kann auch nicht gefunden werden.

Der Check sollte im ersten Schritt prüfen, ob die Indexierung der Einstiegs-URL(s) durch die populärsten Suchmaschinen in irgend einer Form verhindert wird.

marians commented 5 years ago

Zur Umsetzung:

https://docs.python.org/3/library/urllib.robotparser.html bietet eine einfache API zum testen, ob ein bestimmter Crawler eine bestimmte URL aufrufen dürfte.

Einige relevante Crawler nach https://www.keycdn.com/blog/web-crawlers:

Für die Startseiten-URL(s) könnte man prüfen, ob alle diese Crawler Zugriff haben.