Спонсор поста — джип гранд чероки
Происхождение дублированного контента в интернете может быть различным. Один и тот же документ физически на одних и тех же серверах может отличаться технически — разные форматы, кодировки, разбавлен картинками.

дублированный контент

Большое количество документов в сети активно копируется и редактируется — ленты новостей, различного рода документация, прайсы, FAQ. Публикации ( в блогосфере посты) могут быть скопированы с нарушением авторских прав и отсинонимизорованы с целью сделать их уникальными для поисковиков. Для чего это надо манимейкерам, вы прекрасно знаете.

Кроме того, индексация поисковиками страниц, генерируемых при помощи баз данных и различных движков порождает еще один распространенный класс малоотличающихся документов: форумы, страницы с описаниями товаров…

С полными повторами (с тупым копипастом) особых проблем нет: поисковикам достаточно сохранять в индексе контрольную сумму текста (что это такое, спросите в комментариях) и игнорировать все остальные тексты с такой же контрольной суммой. Уточню, что для каждого уникального текста существует свое уникальное значение контрольной суммы. Но этот метод не срабатывает для выявления легкого рерайта. Я бы даже сказал очень легкого рерайта — замена синонимами, вставка междометий, наречий и т.д.

Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание.

шингл

Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия — весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте.

Развитие этого алгоритма позволяет определять процент перекрытия текстов и выявлять его источники. Это особенно актуально для блоггеров, посты которых вывешиваются на сплогах.

На вопрос, почему Yandex не всегда адекватно находит первоисточник,  я могу ответить лишь одной фразой — нет ничего абсолютно совершенного. То что я описал выше — это идеал, к которому надо стремиться. На практике все сложнее. Если соберетесь это исправить, с меня пиво, баня и кальян :roll:. А так же ссылка в блогролле. Думаю к тому моменту она будет еще весомее :arrow:.

К чему этот пост. А к тому, как правильно рерайтить тексты. Синонимайзеры поисковики уже не принимают. А вот разбавление текста словами прокатывает очень даже хорошо. Помните, я писал про полезные скрипты от seoboxer.ru. Самое время ими пользоваться. Не всегда читабельные человеком, результаты работы должны хорошо приниматься поисковиками. Кто попробует, пусть расскажет в коментах, потом сделаю обзор.

Терехов.

Видео на сегодня — необычный способ приготовления попкорна.

Постовые

Качественная женская одежда опт украина
Эффективное похудение после родов
Вся Недвижимость Одессы в одном месте

Ну а теперь смотрим видео.