bopoda / robots-txt-parser

PHP class for parse all directives from robots.txt files according to specifications
http://robots.jeka.by
MIT License
44 stars 17 forks source link

Правильно обрабатывать абсолютные urls в директивах allow/disallow #1

Closed bopoda closed 9 years ago

bopoda commented 9 years ago

По спецификациям, urls должны быть относительными, но на практике встречается множество абсолютных. Нужно проанализировать, как поисковики к ним относятся и внести фиксы. Либо не добавлять слэш вначале (оставить как есть), либо если поисковики считают их невалидными, не сохранять их вовсе.

User-agent: *
Disallow: http://www.example.com/content/products/compare.aspx/cloudedge?c=us&l=en&s=biz
Disallow: http://premier.example.com/portal/error.aspx

Несколько реальных примеров:

bopoda commented 9 years ago

PR https://github.com/bopoda/robots-txt-parser/pull/3 Если встречается абсолютный путь, то сохраняем его в правилах "как есть".