Привет ребят.Сегодня я Вам предлагаю ознакомиться со статьей, которая поможет избавиться от дублирования контента и создать корректный файл Robots.txt для сайта или блога на wordpress.
Всю статью я могу разбить на несколько частей:
- Что такое дублированный контент?
- Откуда берется дублированный контент?
- Санкции поисковых систем в случае обнаружения дублей страниц.
- Как найти дублированный контент на сайте?
- Как избавиться от дублей страниц на сайте?
Что такое дублированный контент?
Давайте для начала разберемся с самим термином дублирование контента, после чего посмотрим как найти дублированный контент на сайте, и в завершение попробуем решить как не допустить появления дублей на Вашем сайте.
Дублирование контента — простыми словами это можно объяснить, когда один и тот же материал на сайте встречается под различными адресами веб страниц.
Существует два вида дублирования контента — это четкие дубли и нечеткие дубли.Давайте рассмотрим каждый из этих вариантов.
Четкие дубли могут возникнуть на сайте если у странички есть несколько ее копий, например страница для печати, или страничка адаптированная для просмотра с мобильных устройств. Что объединяет все эти странички? Одна и та же информация, доступна по различным URL адресам. Представьте ситуацию когда посетителю Вашего сайта понравилась информация на Вашем сайте, и он решил поставить на Ваш сайт ссылочку.
Нечеткие дубли – появляются вследствие устройства движка WordPress.Например когда Вы пишите статью на сайт и впоследствии ее публикуете, на главной странице появляется анонс статьи,и как Вы уже догадались нечеткий дубль(Часть текста присутствует и на главной страничке и на странице оригинала статьи). Также большинство новичков начитавшись материалов в интернете спешат делать анонсы своих статей в социальных сетях, и социальных закладках, тем самым создавая дополнительный дублированный контент в виде нечетких дублей.
Также дублирование можно еще классифицировать как:
Внутренние дубли – дубли страниц в пределах Вашего сайта.
Внешние дубли – соответственно часть Вашего контента, может присутствовать на сторонних сайтах.
Откуда берется дублированный контент?
После того как мы рассмотрели какие виды дублированного контента существуют предлагаю ознакомиться со схемой откуда берется дублированный контент.
Смотрите, все дубли которые появляются на главной странице сайта, на странице тегов,рубрик,архивов, в поиске, также в постраничной навигации можно отнести к нечетким внутренним дублям, так как только часть статьи дублируется, и весь контент размещен в пределах Вашего сайта.
А вот дубли отмеченные жирными стрелочкам – это внешние дубли, и они могут разделяться на четкие дубли (в результате кражи статьи) и нечеткие дубли (если статью Вы про анонсировали на сервисах анонсах или в социальных сетях.
Санкции поисковых систем в случае обнаружения дублей страниц.
Поисковые системы очень тщательно следят за наличием уникального контента на сайтах занимающих топовые места в результатах поисковой выдачи.
Санкции поисковых систем могут быть неутешительными, начиная от занижения позиций Вашего сайта в самих поисковых системах,и вплоть до полного выкидывания из индекса целых страниц Вашего сайта.
Как показано на схеме выше, если не избавляться от дублирования контента, тогда можно получить 9 копий одного и того же контента, и вследствие чего нарваться на санкции поисковых систем.А оно нам надо?Абсолютно нет! Следовательно нам необходимо найти дублирование контента, и исключить дубли страниц на сайте.
Как найти дублированный контент на сайте?
Вот,вот он вопрос,который я уже не раз видел в письмах приходящих ко мне на почту. Спешу поделиться одной технологией, при помощи которой я нашел дублированный контент на своем сайте.
Открываем поисковую систему, неважно Google или Yandex, и вводим часть предложения из Вашей статьи, желательно которая уже проиндексирована поисковыми системами.И смотрим, если в результатах поиска появляется только одна ссылка на Ваш сайт, значит проблемы дублирования на Вашем сайте нет.Так как я 2 месяца назад провел комплексную работу над сайтом, и позакрывал все дубли страниц,теперь в поисковой выдаче присутствует только одна ссылка на мой блог.
Ну а если у Вас не так, и в поисковой выдаче появляется 2 и больше ссылки,значит пора срочно переходить к следующему шагу и запрещать дублированный контент в файле robots.txt
Как избавиться от дублей страниц на сайте?
Переходим к самому интересному,сейчас я расскажу как я избавился от дублей страниц.Первым делом необходимо создать файл robots.txt .
Файл robots.txt необходим поисковым системам для того, что бы они знали какую информацию на Вашем сайте можно индексировать, а какую следует обходить стороной.
Создайте у себя на диске файл robots.txt и откройте его на редактирование.Добавьте вот эти строки:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Host: впишите сюда свой адрес сайта Sitemap: http://путь к вашему сайту/sitemap.xml.gz Sitemap: http://путь к вашему сайту/sitemap.xml
Это самый стандартный файл robots.txt для wordpress.Но я свой файл robots.txt немного модифицировал и исключил архивы,теги,страницы поиска,категории и рубрики директивой Disallow.
Директива Disallow говорит поисковым системам, что этот раздел не нуждается в индексировании, и исключает уже существующие страницы из поиска.
Теперь мой файл robots.txt выглядит так:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Disallow: /category Disallow: /page Disallow: /plugins Disallow: /archives Disallow: /step/..... Disallow: /go Disallow: /goto User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?* Disallow: /tag Disallow: /category Disallow: /page Disallow: /plugins Disallow: /archives Disallow: /go Disallow: /goto Disallow: /step/..... Host: wp.infohub.su Sitemap: http://wp.infohub.su/sitemap.xml.gz Sitemap: http://wp.infohub.su/sitemap.xml
После сохранения файла robots.txt загрузите по ftp на сервер в корень сайта.После загрузки он должен быть доступен по адресу http://адрес-сайта/robots.txt .Теперь для того что бы проверить осталась ли проблема дублирования контента, заходим на страничку где могут возникать дубли, например рубрики или категории.Например у меня категория Хостинг, и копируем ссылку на данную категория.И если Вы все еще не зарегистрировались в сервисе Яндекс.Вебмастер то очень срочно регистрируемся, добавляем свой сайт. Ну а если зарегистрированы переходим на вкладку Настройка индексирования->Анализ robots.txt
И нажимаем кнопку загрузить Robots.txt с сайта.
Нажимаем на кнопочку (добавить/скрыть) и добавляем адрес URL который мы будем проверять.Жмем проверить.
И наблюдаем результат:
Вот таким образом можно избавиться от дублей страниц на сайте.Кстати после закрытия от индексации дублей заметил не слабый рост посещаемости, а значит польза от моих действий есть.Спасибо за внимание, надеюсь статья для Вас полезна и актуальна.И в конце как обычно небольшое голосование.
Полезна ли для Вас статья о дублировании контента?