Open marians opened 5 years ago
Zur Umsetzung:
https://docs.python.org/3/library/urllib.robotparser.html bietet eine einfache API zum testen, ob ein bestimmter Crawler eine bestimmte URL aufrufen dürfte.
Einige relevante Crawler nach https://www.keycdn.com/blog/web-crawlers:
Googlebot
Bingbot
Googlebot-Image/1.0
DuckDuckBot
facebot
facebookexternalhit/1.0
facebookexternalhit/1.1
Für die Startseiten-URL(s) könnte man prüfen, ob alle diese Crawler Zugriff haben.
Bestimmte Angaben in einer robots.txt und Meta-Tags können dazu führen, dass Suchmaschinen die Site oder Teile davon nicht erfassen. Und eine URL, die nicht erfasst wird, kann auch nicht gefunden werden.
Der Check sollte im ersten Schritt prüfen, ob die Indexierung der Einstiegs-URL(s) durch die populärsten Suchmaschinen in irgend einer Form verhindert wird.