Google может рассматривать веб-страницы как дубликаты, если URL-адреса слишком похожи

867 просмотров

Джон Мюллер из Google делится подробностями о методе прогнозирования, который поисковая система использует для обнаружения дублированного контента.

Google использует метод прогнозирования для обнаружения дублированного контента на основе шаблонов URL, что может привести к ошибочной идентификации страниц как дубликатов.

Подпишись на наш Телеграм и читай все статьи и новости первым!

Чтобы предотвратить ненужное сканирование и индексирование, Google пытается предсказать, когда страницы могут содержать похожий или повторяющийся контент, на основе их URL-адресов.

Когда Google сканирует страницы с похожими шаблонами URL и обнаруживает, что у них одинаковое содержание, он может определить, что все другие страницы с этим шаблоном URL также имеют такое же содержание.

К сожалению, для владельцев сайтов это может означать, что страницы с уникальным содержанием будут списаны как дубликаты, потому что они имеют тот же шаблон URL, что и страницы, являющиеся фактическими дубликатами. Тогда эти страницы будут исключены из индекса Google.

Эта тема обсуждается во время видеовстречи Google Search Central SEO, записанной 5 марта. Владелец сайта Ручит Патель спрашивает Мюллера о своем веб-сайте мероприятия, где тысячи URL-адресов неправильно индексируются.

Одна из теорий Мюллера относительно того, почему это происходит, связана с методом прогнозирования, используемым для обнаружения дублированного контента.

Ответ Мюллера в разделе ниже.

Джон Мюллер из Google о прогнозировании повторяющегося содержания

У Google есть несколько уровней определения дублированного содержания на веб-страницах.

Один из них - это напрямую смотреть на содержимое страницы, а другой - предсказать, когда страницы будут дублироваться, на основе их URL-адресов.

«С нашей стороны обычно бывает несколько уровней, когда мы пытаемся понять, что на сайте есть дублированный контент. И во-первых, когда мы смотрим на содержимое страницы напрямую и видим, что эта страница имеет определенное содержимое, а та страница имеет другое содержимое, мы должны рассматривать их как отдельные страницы.
Другая вещь - это своего рода более широкий прогностический подход, который у нас есть, когда мы смотрим на структуру URL-адресов веб-сайта. В прошлом, когда мы смотрели на URL-адреса, которые выглядят так, как мы уже видели, имеют то же содержание, что и подобные URL. А затем мы, изучивши этот шаблон, скажем, что URL-адреса, которые выглядят так, совпадают с URL-адресами, которые выглядят вот так».

Мюллер продолжает объяснять причину, по которой Google делает это, чтобы сэкономить ресурсы при сканировании и индексировании.

Когда Google думает, что страница является дубликатом другой страницы, потому что у нее есть похожий URL, он даже не будет сканировать указанную страницу, чтобы увидеть, как на самом деле выглядит ее содержимое.

«Даже не глядя на отдельные URL-адреса, мы иногда можем сказать, что избавим себя от сканирования и индексации и просто сосредоточимся на этих предполагаемых или очень вероятных случаях дублирования. И я видел, как это происходит с такими вещами, как города.
Я видел, что это происходит с такими вещами, как автомобили - это еще один случай. Наши системы распознают, что то, что вы указываете в качестве названия города, не так актуально для фактических URL-адресов. И обычно мы узнаем такой шаблон, когда сайт предоставляет много одного и того же контента с альтернативными названиями».

Мюллер говорит о том, как метод прогнозирования Google по обнаружению дублированного контента может повлиять на веб-сайты событий:

«Итак, я не знаю, относится ли это к вашему сайту, с сайтом событий может случиться так, что вы возьмете один город, а вы возьмете город, который находится, может быть, в одном километре от вас, а страницы событий, которые вы показываете - точно такие же, потому что одни и те же события актуальны для обоих этих мест.
Или вы берете город, может быть, в пяти километрах отсюда, и снова показываете точно такие же события. И с нашей стороны это может легко закончиться ситуацией, когда мы скажем, что мы проверили 10 URL-адресов событий, и этот параметр, который выглядит как название города, на самом деле не имеет значения, потому что мы проверили 10 из них и он показал тот же контент.

И тогда наши системы могут сказать, что, может быть, название города в целом не имеет значения. И мы можем просто проигнорировать его».

Что может сделать владелец сайта, чтобы исправить эту проблему?

В качестве потенциального решения этой проблемы Мюллер предлагает искать ситуации, в которых есть реальные случаи дублирования контента, и максимально ограничивать это.

«Итак, что я попытался бы сделать в таком случае - посмотреть, есть ли у вас такого рода ситуации, когда есть сильное дублирование контента, и попытаться найти способы максимально ограничить это.
И это можно сделать, используя что-то вроде rel canonical на странице и сказав: "Это маленький город, который находится прямо за пределами большого города, я установлю каноническое значение для большого города, потому что он показывает точно такой же контент".

Так что действительно каждый URL-адрес, который мы сканируем на вашем веб-сайте и индексируем, можем видеть, что этот URL-адрес и его содержание уникальны, и для нас важно, чтобы все они были проиндексированы.

Или мы видим четкую информацию о том, что этот URL-адрес, который, как вы знаете, должен быть таким же, как другой. Возможно, вы настроили перенаправление или у вас есть настроенная относительная каноника, и мы можем просто сосредоточиться на этих основных URL-адресах и при этом понять, что городской аспект имеет решающее значение для ваших отдельных страниц».

Мюллер не рассматривает этот аспект проблемы, но стоит отметить, что за дублированный контент нет никаких штрафов или отрицательного сигнала ранжирования.

В лучшем случае Google не будет индексировать повторяющийся контент, но это не отразится негативно на сайте в целом.