Определение дублированного контента
Спонсор поста – джип гранд чероки
Происхождение дублированного контента в интернете может быть различным. Один и тот же документ физически на одних и тех же серверах может отличаться технически – разные форматы, кодировки, разбавлен картинками.
Большое количество документов в сети активно копируется и редактируется – ленты новостей, различного рода документация, прайсы, FAQ. Публикации ( в блогосфере посты) могут быть скопированы с нарушением авторских прав и отсинонимизорованы с целью сделать их уникальными для поисковиков. Для чего это надо манимейкерам, вы прекрасно знаете.
Кроме того, индексация поисковиками страниц, генерируемых при помощи баз данных и различных движков порождает еще один распространенный класс малоотличающихся документов: форумы, страницы с описаниями товаров…
С полными повторами (с тупым копипастом) особых проблем нет: поисковикам достаточно сохранять в индексе контрольную сумму текста (что это такое, спросите в комментариях) и игнорировать все остальные тексты с такой же контрольной суммой. Уточню, что для каждого уникального текста существует свое уникальное значение контрольной суммы. Но этот метод не срабатывает для выявления легкого рерайта. Я бы даже сказал очень легкого рерайта – замена синонимами, вставка междометий, наречий и т.д.
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание.
Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия – весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте.
Развитие этого алгоритма позволяет определять процент перекрытия текстов и выявлять его источники. Это особенно актуально для блоггеров, посты которых вывешиваются на сплогах.
На вопрос, почему Yandex не всегда адекватно находит первоисточник, я могу ответить лишь одной фразой – нет ничего абсолютно совершенного. То что я описал выше – это идеал, к которому надо стремиться. На практике все сложнее. Если соберетесь это исправить, с меня пиво, баня и кальян
. А так же ссылка в блогролле. Думаю к тому моменту она будет еще весомее
.
К чему этот пост. А к тому, как правильно рерайтить тексты. Синонимайзеры поисковики уже не принимают. А вот разбавление текста словами прокатывает очень даже хорошо. Помните, я писал про полезные скрипты от seoboxer.ru. Самое время ими пользоваться. Не всегда читабельные человеком, результаты работы должны хорошо приниматься поисковиками. Кто попробует, пусть расскажет в коментах, потом сделаю обзор.
Видео на сегодня – необычный способ приготовления попкорна.
Постовые
Качественная женская одежда опт украина
Эффективное похудение после родов
Вся Недвижимость Одессы в одном месте
Ну а теперь смотрим видео.






