На сегодняшний день оптимизация интернет-ресурса под поисковые системы – это в первую очередь систематический труд, а не ряд секретных действий, которые известны лишь избранным. Одним из таких регулярных мероприятий является удаление дублей страниц сайта. Ведь известно, что они очень негативно сказываются на продвижении. Во-первых, это приводит к размазыванию внутреннего ссылочного веса. Во-вторых, может возникнуть смена релевантных страниц. В-третьих, падает уникальность контента, особенно если у вас на ресурсе размещены тексты по строительству http://zakaztxt.ru/176/ или медицине, которых и без дублирований имеется достаточно много в сети.
Как правило, дубли внутренних страниц появляются из-за особенностей CMS либо из-за веб-мастера, который не хочет создавать новый контент и частично копирует уже размещенные тексты на своих страницах. Конечно, если дублируется только небольшая часть информации, в пределах 10 –15%, то это не страшно, а если эта цифра в переделах 50% и выше, то нужно с этим что-то делать. Ведь такое копирование не выход, и нужно все-таки регулярно заполнять проект новым контентом. Если у вас нет возможности писать его самостоятельно, то можно его заказать. И лучше, если вы отдадите предпочтение агентству копирайтинга, где нет процентов, но при этом качество текстов всегда на высоте. А поскольку общение происходит напрямую, можно быть полностью уверенным в том, что контент будет отвечать всем вашим требованиям, даже если вы заказали усложненные http://zakaztxt.ru/190/тексты по вентиляции http://zakaztxt.ru/234/ или по сварочному и строительному оборудованию.
Что касается того, как найти дубли страниц, то можно сделать полный анализ проиндексированных страниц, проверить внутренние ссылки либо искать по кусочкам текста в поисковиках. Самым простым является последний вариант, вам лишь нужно будет забивать в Яндекс предложения кусок контента из структурной единицы и потом проанализировать, сколько страниц приходится на выдачу и которые из них лишние.
Удалять дубли можно несколькими способами. Но лучше использовать robots.txt., данный файл запретит поисковикам индексировать повторное содержание ресурса и произведет чистку копированного материала. А если контент был продублирован самим веб-мастером, то его нужно будет удалять вручную. При этом очень важно в данном случае проследить, чтобы не удалились и нормальные веб-страницы с полезным для читателей содержанием. Иначе вам придется заново создавать контент для сайта.