Проверка дублированного контента: 7 правил

  1. Как создается дублированный контент?
  2. Типичные примеры дублированного контента
  3. Повторяющееся содержание Правило А
  4. Повторяющееся содержание Правило B
  5. Повторяющееся содержание Правило C
  6. Повторяющееся содержание Правило D
  7. Повторяющееся содержание Правило E
  8. Повторяющееся содержание Правило F
  9. Повторяющееся содержание Правило G

Найти проблемы с дублированным контентом уже сложно, а решение проблем - еще больше. Потому что чем менее точен анализ, тем больше ты тыкаешь в туман. Чтобы упростить процесс анализа и исправления, 7 правил должны обеспечить ясность.

Одинаковый контент является проблемой для поисковых систем. Почему поисковая система должна иметь один и тот же контент более одного раза в индексе? Для экономии ресурсов поисковые системы стараются не индексировать дублирующийся контент. Но что такое оригинал и что такое копия? В целом, Duplicate Content (сокращенно DC) приводит к местам размещения, поэтому следует избегать, чтобы поисковая система находила такой дублированный контент. Однако причина в другом: с одной стороны, контент может фактически дублироваться (например, товар в магазине, который содержится в нескольких категориях), но с другой стороны, для этого также могут быть чисто технические причины. Особенно, если на страницу можно попасть по нескольким адресам.

На рисунке показана логическая последовательность правил. Первые правила следуют друг за другом. Если все 4 правила не работают, есть три других правила, которые используют принцип ИЛИ.

Важное примечание: эти комментарии относятся только к дублирующемуся контенту на вашем собственном веб-сайте. Конечно, возможно расширение контента в Интернете. Однако устранение неполадок, связанных с проблемами DC, регулируется другими правилами, поскольку доступ к сторонним веб-сайтам осуществляется редко.

Однако устранение неполадок, связанных с проблемами DC, регулируется другими правилами, поскольку доступ к сторонним веб-сайтам осуществляется редко

С помощью программного обеспечения Forecheck Дублированный контент может быть определен быстро и легко. Результаты не всегда ясны и понятны. Поэтому 7 правил должны помочь сделать причину понятной. Это упрощает понимание проблемы и ее исправление. Первый шаг - объяснить, как Forecheck идентифицирует DC, чтобы вы лучше понимали каждый процесс. Следующие утверждения относятся к анализу и выводу данных в Forecheck. Все 7 правил определены и объяснены ниже.

Forecheck ищет каноническую ссылку на <head> всех страниц, скажем (X) HTML-документов. Если там никого не найдено, ищется заголовок HTTP. Если это не страница, то Forecheck просматривает только заголовок HTTP, например, документы PDF.

Правила AG объясняют результаты для каждой строки и подробно объясняются здесь. Во-первых, отдельные (столбцы) значения должны быть определены:

Каноническая ссылка (абсолютный URL) : URL канонических ссылок. Это всегда преобразуется в абсолютный URL, если URL является относительным. Это облегчает понимание влияния Canonical Link. Обратите внимание, поэтому, что ссылка в самом исходном коде может отличаться и относительно указана! Это поле подсвечивается, в зависимости от того, какие результаты оценки результатов.

Статус (Canonical): код статуса URL канонических ссылок. Если каноническая ссылка отсутствует, это поле будет пустым. Обратите внимание, что URL канонических ссылок должен быть проанализирован, чтобы код статуса мог отображаться здесь. В приведенном ниже примере URL канонических ссылок еще не проанализирован. Это указано в столбце Статус. Пока здесь находится «ожидающий решения», URL канонических ссылок еще не был проанализирован. Затем вам нужно продолжить выполнение анализа, пока индекс этого канонического URL не будет проанализирован.

Затем вам нужно продолжить выполнение анализа, пока индекс этого канонического URL не будет проанализирован

Роботы (Canonical): информация, как в поле Роботы дальше, но здесь для URL канонических ссылок

Существует множество потенциальных проблем с дублирующимся содержимым и множество способов ее устранения. Вот несколько советов для понимания проблемы и возможных решений.
Forecheck всегда сравнивает содержимое всех страниц. Forecheck может сравнивать только страницы в домене. В настоящее время нет идентичного контента в Интернете, но планируется. В настоящее время может быть определен только идентичный контент, не очень похожий контент.

Как создается дублированный контент?

В принципе, может быть много возможных причин для дублированного контента:

- Одна и та же страница доступна через другой URL (отличается, например, только параметром). пример:
www.beispiel.de/seo/suchbegriffe/
www.beispiel.de/seo/suchbegriffe/?lang=de
www.beispiel.de/seo/suchbegriffe/?p=print
www.beispiel.de/seo/suchbegriffe/?sess=78tg8dg7ew8igwedf

- Две страницы имеют одинаковое содержание (пример: статья в магазине включена в несколько категорий)
www.beispiel.de/herren/hosen/?artikel=67567
www.beispiel.de/jeans/stretch/?artikel=56563
Другой пример: страница для нескольких стран, но с одинаковым содержанием:
www.beispiel.de/DE-AT/press
www.beispiel.de/DE-DE/press
www.beispiel.de/DE-CH/press

Есть несколько подходов:

Исключить страницы из индексации (используя Meta-Tag или robots.txt). В принципе, это худшее решение, поскольку оно «уничтожает» популярность ссылок. Поскольку страницы, которые не проиндексированы, имеют входящие и исходящие ссылки. Исходящие ссылки не оцениваются, что снижает популярность ссылок на всех страницах в домене.

Настройка перенаправлений (на 301): Конечно, это имеет смысл, только если содержимое на самом деле одинаково.

В Инструментах для веб-мастеров исключить параметры. Здесь вы можете указать Google, что определенные параметры не влияют на содержимое, или просто изменить его. Это можно использовать с умом, но нужно проверить, действительно ли проблема решена. Вы можете воссоздать эти настройки в настройках Forecheck и проверить, как происходит индексация. Есть функция для исключения параметров при индексации. Обратите внимание, что это невозможно ретроспективно, но должно быть введено до начала анализа.

Присвойте папки разным целевым странам в папке «Инструменты для веб-мастеров»: если несколько папок имеют одинаковое содержимое (например, один раз для Германии, один раз для Австрии), а затем назначены разным целевым странам, они не будут считаться дублирующимся содержимым. В настоящее время вы не можете определить целевые страны папок в Forecheck, но вы можете ограничить анализ несколькими подпапками или исключить определенные подпапки, чтобы проверить это. Вы также можете найти эту опцию на вкладке Настройки.

Использование Canonical Link: запущенный в 2009 году основными поисковыми системами, этот вариант также является частью официального стандарта с 2012 года (RFC 6596). Это позволяет Google предоставлять информацию о том, какой URL является «оригиналом», а какой - дубликатом.

В принципе, нельзя установить общие правила, как решать дубликаты контента. Лучше всего, чтобы не было дублированного контента. Для этого нужно сначала изучить, как технические меры предотвращают формирование, прежде чем пытаться дать подсказки поисковым системам.

Как только поисковые системы начинают интерпретировать то, что они хотят проиндексировать, всегда существует риск того, что Google не будет индексировать страницы, которые, возможно, важны или содержат ссылки, которые не оцениваются. Даже если поисковые системы утверждают, что контролируют его, практика показывает, что избегание и решение этой проблемы часто значительно улучшает места размещения.

Типичные примеры дублированного контента

На следующем рисунке показан типичный пример страницы, доступ к которой можно получить по нескольким URL-адресам:

Каноническая ссылка не используется (желтые поля). Эта проблема может быть решена очень хорошо с помощью канонической ссылки.
Кроме того, Forecheck указывает, индексируется ли URL-адрес. Существует множество возможных комбинаций отдельных значений, поэтому это можно объяснить здесь только в качестве примера, когда Forecheck видит проблему как решенную (каноническая ссылка также зеленая).

Все URL с одинаковым содержимым имеют одинаковый канонический URL. Этот канонический URL-адрес также имеет тот же контент, поэтому он является частью URL-адресов с таким же контентом.

Тогда можно смело сказать, что канонические ссылки четко решают проблему для поисковой системы.

Вот еще один пример, который показывает, что часто данные не являются уникальными:

На следующем рисунке показано, что средний URL-адрес представляет собой проблему, поскольку каноническая ссылка здесь отличается от двух других URL-адресов. С другой стороны, этот URL исключен из индексации. Так что, если вы не будете рассматривать этот URL, проблема DC будет решена. Однако Forecheck был настроен таким образом, что Forecheck должен учитывать robots.txt, но игнорировать его.
Если вы измените настройку и скажете, что Forecheck должен учитывать robots.txt, а не игнорировать его, URL-адрес будет исключен из индексации. Тогда это не появилось бы здесь, и в этом случае средний URL не был бы включен в этот анализ. Тогда проблема DC будет решена, и канонические ссылки будут выделены зеленым цветом.
Данные оценки всегда должны просматриваться и оцениваться в контексте. Forecheck - это инструмент для сбора и анализа этих данных. Однако не всегда возможно найти четкое решение, так как существует множество факторов и способов решения проблемы дублированного контента.

Однако не всегда возможно найти четкое решение, так как существует множество факторов и способов решения проблемы дублированного контента

Правила должны помочь вам понять, как Forecheck оценивает данные для дублированного контента.
Следовательно, вы найдете ссылку на примененное правило для каждой строки в отчете дублированного контента.
В основном: Forecheck может оценивать только ту информацию, которая доступна. Поэтому, если в Инструментах Google для веб-мастеров была предоставлена ​​дополнительная информация для удаления отдельных параметров из URL-адресов, они также должны учитываться в Forecheck. Это возможно на вкладке «Настройки» в разделе «Обработка URL».

Правила также обрабатываются в их порядке, то есть начиная с правила A и заканчивая правилом G. Правило, которое применяется к строке в отчете, записывается рядом с ним. Возможно, что для строки будет использовано более одного правила, тогда будут определены все правила.

Сокращения: CL = Каноническая ссылка

Повторяющееся содержание Правило А

Если URL-адрес исключен из индексации (столбец Роботы URL-адреса), CL вообще не оценивается, поэтому ячейка отображается серым цветом.

Это верно для любой строки, где индексация запрещена, независимо от данных других строк в блоке идентичного содержимого.
Вы можете сказать Forecheck, что анализ не должен игнорировать всю информацию об индексировании в Robotx.txt или в роботах мета-тегов.
Тогда URL, которые исключены из индексации, также не будут проиндексированы. Тогда они даже не появятся в отчете Duplicate Content.
Настройки для данных роботов можно изменить на вкладке «Настройки» в разделе «Общие».

Повторяющееся содержание Правило B

(применяется только если правило А не работает)

Если URL-адрес CL исключен из индексации, существующий CL выделен оранжевым цветом, он больше не будет проверяться.
Тот факт, что CL исключен из индексации, можно узнать по красной ячейке «Роботы (канонические)» (крайний правый столбец на рисунке).

Повторяющееся содержание Правило C

(работает только если правила A и B не работают)

Если CL содержит URL, который не является частью блока с тем же содержимым, он будет выделен желтым цветом. Этот случай означает, что URL-адрес CL не имеет того же содержимого, что и все URL-адреса в этом блоке, поэтому все URL-адреса, оставленные в столбце URL, принадлежат этому блоку. Поэтому Forecheck не может решить, является ли этот результат правильным или неправильным. Здесь следует проверить вручную, если содержание CL на самом деле также является каноническим содержанием. Между прочим, CL может также ссылаться на внешний URL. Тогда Forecheck в любом случае не может проверить, является ли содержимое одинаковым, потому что содержимое внешних URL-адресов не полностью проверено Forecheck.

Повторяющееся содержание Правило D

(работает только если правила от А до С не работают)

Если CL не содержит URL, ячейка выделяется желтым цветом. Здесь не может быть решено, правильно это или неправильно. Но если в блоке есть как минимум 2 пустых CL, как на рисунке, CL не решит проблему дублированного контента. Поскольку обработка строк выполняется индивидуально, ячейки впоследствии не откладываются красным. Существует вероятность того, что проблема с дублированным контентом может быть решена другими способами, такими как настройки Инструментов Google для веб-мастеров.

Следующие правила не проверяются, пока не будут проверены правила AD. Следующие правила вступают в силу при определенных условиях и могут применяться параллельно в зависимости от комбинации данных в блоке.
Они также выполняются только для тех строк, где правила AD не работают!

Повторяющееся содержание Правило E

Условие: в блоке все строки имеют CL или не более одной строки не имеет CL.

Обратите внимание, что оцениваются только строки блока, для которых правило AD не применяется!

Обратите внимание, что оцениваются только строки блока, для которых правило AD не применяется

Если все строки имеют CL, они должны быть идентичны. Если CL отличаются друг от друга, информация не является уникальной.
Если в строке нет CL, все остальные CL должны ссылаться на URL с отсутствующим CL. Только тогда информация станет понятной.
Кроме того, CL должен быть включен в блок как URL (во втором столбце слева).
В приведенном выше примере все строки имеют CL, они одинаковы и указывают на URL первой строки в блоке.
Если бы CL первой строки в блоке отсутствовал, блок все равно был бы в порядке, потому что информация уникальна.

Если бы CL первой строки в блоке отсутствовал, блок все равно был бы в порядке, потому что информация уникальна

На картинке выше, третья строка сверху имеет другой URL. Это отмечено желтым в соответствии с правилом C, так как этот URL не является частью блока, а не URL-адресом в блоке во втором.
Столбец слева встречается. Здесь Forecheck не может решить, является ли информация правильной или нет. Само собой разумеется, что CL строки 3 необходимо изменить так, чтобы все CL в
Блок одинаков.

Само собой разумеется, что CL строки 3 необходимо изменить так, чтобы все CL в   Блок одинаков

Теперь на изображении есть 3 строки, которые указывают на URL, который не является частью блока. Поэтому эти 3 строки после правила C выделены желтым цветом. Для оставшихся двух строк Правило Е.
Потому что осталось 2 строки, одна из которых пустая. Оба выделены зеленым цветом, поскольку они в принципе могут решить проблему всего блока. Для этого 3 желтых депонированных линии должны были бы
быть исправлено.

Для этого 3 желтых депонированных линии должны были бы   быть исправлено

На рисунке есть только одна строка, где URL-адрес CL не является частью блока, поэтому последняя строка выделяется желтым цветом. Для оставшихся 3 строк больше одной пусто,
Таким образом, все строки выделены оранжевым цветом, чтобы сделать ошибку видимой. Здесь тоже не может быть распознано, что могло бы решить проблему дублированного контента.

Здесь тоже не может быть распознано, что могло бы решить проблему дублированного контента

В последнем примере к правилу E есть комбинация еще большего количества правил. Правило A обращается ко второй и последней строке, поскольку URL-адрес блока исключен из индексации. Первая и третья строки имеют URL, который не является частью блока, поэтому их нельзя найти во втором столбце слева. Поэтому эти две строки выделены желтым цветом. Оставшиеся две строки зеленого цвета, поскольку оба CL одинаковы, а URL-адреса также являются частью блока.

Повторяющееся содержание Правило F

Условие: если в блоке более одного пустого CL, все строки в блоке будут выделены оранжевым, так как это ошибка.

Обратите внимание, что оцениваются только строки блока, для которых правило AD не применяется!

Обратите внимание, что оцениваются только строки блока, для которых правило AD не применяется

В приведенном выше примере последняя строка в блоке относится к URL-адресу, который не является частью всего блока, то есть URL-адрес CL не включен во второй столбец слева. Согласно правилу C этот CL затем отмечается желтым цветом. Из оставшихся 3 строк только одна имеет CL, поэтому все 3 CL выделены оранжевым цветом.

Повторяющееся содержание Правило G

Условие: все CL заполнены, но не указывают на один и тот же CL, поэтому все CL выделены оранжевым, так как это ошибка.

Обратите внимание, что оцениваются только строки блока, для которых правило AD не применяется!

Обратите внимание, что оцениваются только строки блока, для которых правило AD не применяется

В приведенном выше примере все CL заполнены, но они указывают на разные URL. Примечание. Все URL-адреса CL также являются URL-адресами блока, поскольку, если бы CL не был частью блока в качестве URL-адреса, этот CL-код затем выделился бы желтым цветом в соответствии с правилом C.
Следует отметить, что это правило применяется независимо от того, относятся ли CL друг к другу или образуют цепочку. Все эти случаи рассматриваются как ошибки. CL всегда должен решать проблему дублированного контента напрямую и однозначно. Кроме того, поисковые системы не будут следовать CL несколько раз, как перенаправления, чтобы проверить, предоставляет ли информация решение.

Как создается дублированный контент?
Почему поисковая система должна иметь один и тот же контент более одного раза в индексе?
Но что такое оригинал и что такое копия?
Как создается дублированный контент?
De/seo/suchbegriffe/?
De/seo/suchbegriffe/?
De/seo/suchbegriffe/?
De/herren/hosen/?
De/jeans/stretch/?
Stylish-Portal.infO 2011
При копирование материала активная ссылка на сайт!
Copyright 2004-2016 © www.zone55.ru. All rights reserved.