Определение дублированного контента
Спонсор поста — джип гранд чероки
Происхождение дублированного контента в интернете может быть различным. Один и тот же документ физически на одних и тех же серверах может отличаться технически — разные форматы, кодировки, разбавлен картинками.
Большое количество документов в сети активно копируется и редактируется — ленты новостей, различного рода документация, прайсы, FAQ. Публикации ( в блогосфере посты) могут быть скопированы с нарушением авторских прав и отсинонимизорованы с целью сделать их уникальными для поисковиков. Для чего это надо манимейкерам, вы прекрасно знаете.
Кроме того, индексация поисковиками страниц, генерируемых при помощи баз данных и различных движков порождает еще один распространенный класс малоотличающихся документов: форумы, страницы с описаниями товаров…
С полными повторами (с тупым копипастом) особых проблем нет: поисковикам достаточно сохранять в индексе контрольную сумму текста (что это такое, спросите в комментариях) и игнорировать все остальные тексты с такой же контрольной суммой. Уточню, что для каждого уникального текста существует свое уникальное значение контрольной суммы. Но этот метод не срабатывает для выявления легкого рерайта. Я бы даже сказал очень легкого рерайта — замена синонимами, вставка междометий, наречий и т.д.
Для решения этой задачи Андрей Бродер в 1997 году придумал название и довел до ума алгоритм «шинглов» (от латинского shingles, что в переводе означает черепица или чешуйки»). Вот его примерное описание.
Для каждого десятисловия (количество слов можно варьировать) рассчитывается контрольная сумма (шингл). Десятисловия идут «внахлест», с перекрыванием друг друга, чтобы ничего не потерять. А затем из всего множества контрольных сумм отбираются только те, которые делятся на одно и то же число, для примера 25. Ясно, что повтор даже одного десятисловия — весомый признак дублирования контента. Если же повторов больше половины, то с определенной вероятностью, близкой к единице, можно утверждать, что найдена копия (в манимейкерстве копипаст) со всеми вытекающими. Ведь один совпавший шингл в выборке соответствует примерно 25 совпашим десятисловиям в полном тексте.
Развитие этого алгоритма позволяет определять процент перекрытия текстов и выявлять его источники. Это особенно актуально для блоггеров, посты которых вывешиваются на сплогах.
На вопрос, почему Yandex не всегда адекватно находит первоисточник, я могу ответить лишь одной фразой — нет ничего абсолютно совершенного. То что я описал выше — это идеал, к которому надо стремиться. На практике все сложнее. Если соберетесь это исправить, с меня пиво, баня и кальян . А так же ссылка в блогролле. Думаю к тому моменту она будет еще весомее
.
К чему этот пост. А к тому, как правильно рерайтить тексты. Синонимайзеры поисковики уже не принимают. А вот разбавление текста словами прокатывает очень даже хорошо. Помните, я писал про полезные скрипты от seoboxer.ru. Самое время ими пользоваться. Не всегда читабельные человеком, результаты работы должны хорошо приниматься поисковиками. Кто попробует, пусть расскажет в коментах, потом сделаю обзор.
Видео на сегодня — необычный способ приготовления попкорна.
Постовые
Качественная женская одежда опт украина
Эффективное похудение после родов
Вся Недвижимость Одессы в одном месте
Ну а теперь смотрим видео.
На днях встретил по 2-х словному запросу в топ-10 минимум 5 сайтов с одной и той же статьей 🙂
Rulaf — каким поисковиком пользовался, какой запрос делал, были ли на сайтах с дублирование ссылки на первоисточник? Расскажи пожалуйста поподробнее 💡
поисковик Яндекс, запрос — трехмерное прототипирование
регион- Москва
на сайтах вроде нет ссылок на первоисточник
Rulaf — запрос довольно специфичный, равно как и релевантная информация. Оба сайта (которые я нашел с одинаковым контентом) в топе достаточно авторитетны и скорее всего попали в индес достаточно давно. Поэтому и оказались в выдаче. Думаю, этим все и объясняется.
я тоже часто ищу сочинение, или реферат — всё скопипащено друг у друга, источники не указаны, высшые позиции занимают сильнейшие в SEO 🙂
в выдаче еще 2-3 сайта с той же статьей
Rulaf — не суть. Суть в том, что довольно специализированный запрос и соответствующий ему редкий контент 😕
да синонимайзер хорошая штуковина, но есть еще и тематики которые индексируются на ура обычным копипастом.
интересный софт у seoboxer, думаю скоро приобрету, посколько сатам нужно что то новое
Спасибо, информация весьма интересная. У SeoBoxer синонимайзер конечно оригинальный, но, думаю, это не панацея, наверняка алгоритмы поисковиков научатся распознавать дубли и в текстах которые прошли через него.
Хотя, бытует мнение, что дублированный текст не такое уж и зло, например многие прогоняют одну и ту же статью по каталогам статей (не размножая), и вроде не склеивается (пока).
мы для размножения текста используем:
Синонимизатор — http://wordsyn.ru/ 75$
Размножитель — http://terrnight.ru/?page_id=2 20$
Если в сочетание то получается очень не плохо.
В принципе тестировал много синонимизатор (в основном конечно бесплатные версии, но и пробывал работать с несколькими платными)думаю wordsyn наиболее удачный.
Странно порой яндекс считает первоисточник — это факт, бывает так что кто то скопирует один в один и поменяет одно слово и окажется в топе, не смотря на то, что скопипастил он текст с довольно известной газеты, у гугла все проще — учитывается время публикации и PR сайта чем он выше тем тем большее доверие он предсталяет для гугла, следовательно если например лента взяла тескт у какого то блоггера, скорее всего она будет первоисточником в глазах гугла 🙂
А еще гугл любит деньги, кто пользуется рекламой через него тот и первоисточник :)) Ну это грубо говоря.
Лично сам пользуюсь только ручками при рерайте текста. Смысл остается один и тот же а вот уникальность он приобретает это уже хорошо. Когда куча сайтов конечно тяжело но когда их немного то проще. Лучше меньше да дольше.
ну и правильно не стоит, автоматизировать то что технике пока не под силу…после этого рандома получается какая то каша, аналогичино, тому как переводит порой промт 💡
Infato — когда делаете сайты «пачками», без автоматизации не обойтись. Но каждый выбирает сам, делать один хороший проект «ручками» или много автоматизированно 😎
С этим я не спорю…лучше делать былые проекты и на долгосрочную перспективу, впрочем каждый сам решаает, что для него лучше
Но ведь все что вы говорите о том что яндекс такто такто относится к копипасту, синонимизированному контенту — это же все догадки, конкретики нет никакой, только после многочисленных экспериментов можно что то утверждать и то невсегда такое уместно, потому что ВСЕМИ ЛЮБИМЫЙ ЯНДЕКС меняет свои алгоритмы с каждым АПом. Поправте меня если не так. 😮
Стас — все правильно. Я привел лишь базовый алгоритм определения дублированного контента. Скорее всего в Yandex подобный алгоритм взят за основу и очень хорошо доработан. Детали, естественно, не разглашаются.Кстати говоря, я как то встречал свои статьи на других ресурсах со ссылкой на меня (по ссылкам в админке блога). Через день-два ссылки из админки пропадали, видимо чужие страницы с моим контентом вылетали из индекса и не показывались в поисковиках.
У меня такой вопрос. Через какое время уникальную статью с сайта можно размещать на других сайтах ( в том числе добавление в закладки ), что бы поисковик ( Гугл, Яндекс ) не обозначил её как первоисточник ?
Антон Воронин, думаю через неделю будет самое то. В републикации обязательно указывать ссылку на первоисточник.
Как я понимаю в закладках она по умолчанию прописывается?
Антон Воронин, не совсем понял вопрос
Когда делаешь закладку на добром бобре) ты же ставишь сразу ссылку на первоисточник?
Значит в этом случае она есть по умолчанию.
Опробовала много разных программ для рерайта текстов, составила общее впечатление. Подобные тексты для серьезного блога который направлен на продажи, использовать нельзя. Посетители либо поймут, что текст создан программой, либо подумают что у автора не все в порядке с головой и соответственно лучше покинуть данный сайт
А вообще в некоторых случаях когда нет возможности написать свой конетент, можно закрывать сайт или блог от поисковиков. Такое бывает в случае когда текст предоставлен на языке отличном от русского и английского. У меня был такой блог для продажи одного коллекционного товара, тексты нашла на нескольких разных ресурсах, поменяла немного структуру и разбавила картинками. Разместила в блоге и закрыла его от поисковиков. Потенциальным покупателям не так важно что текст копированный, им важно купить товар подешевле и получить в установленные сроки. А касаемо поисковиков которые не видели мой блог, так я не вижу в той ситуации в них смысла. Потому как в любом случае в ТОП не попасть. Спрашивается, а зачем тогда им вообще видеть мой сайт? Другое дело тематические форумы и группы, где я захожу и пишу интересный пост со ссылкой на этот блог, там все оказывается к месту и по существу.