Ограничение на использование контента можно выразить для поисковых ботов двумя способами:
robots.txt: Disallow
meta name=robots content=index,follow
Использование этих правил может конфликтовать.
В одном случае мы может разрешить, а в другом запретить.
Как поступят боты ?
Боты максимально ограничивают ваш контент от публикаций.
т.е. Бот лучше запретит, чем разрешит, и в конфликстных ситуациях он запретит.
Если в robots.txt стоит Disallow , а на странице указан index,follow или all, то страница не будет попадать в индекс.
И наоборот, если robots.txt Allow а meta= nofollow, noindex , то точно так же страница не попадет в индекс.
Именно так происходит у Яндекса, и именно так написано у Google, однако почему-то Google кладет в индекс спорные в правилах страницы. Это грубое нарушение своих же правил (http://googlewebmastercentral.blogspot.ru/2007/03/using-robots-meta-tag.html) дает повод для получения Гугло-трафика.
Кто-то недавно-то упоминал что очень популярные запрещенные к индексации страницы у Гугла все же вылазят в индекс. Не Маул ли ?
не ?