Релевантность — как она рассчитывается поисковыми системами Интернет
Сегодняшней публикацией начинаю цикл теоретических статей, посвященных расчету релевантности документов ресурсов сайтов поисковыми системами Интернет! Сегодня расскажу об общих принципах ранжирования поисковых систем, а так же приведу классификацию факторов ранжирования, приведу общую формулу расчета значения релевантности.
Алгоритмы ранжирования ПС не являются секретными сведениями. Кроме того, в сети периодически происходит публикация тех или иных особенностей алгоритмов ПС. Характерный пример этого – ежегодный Российский семинар по Оценке Методов Информационного Поиска (РОМИП). Этот семинар – инициатива по созданию плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией. Общий алгоритм текстового ранжирования Яндекса, представленный на РОМИП, описан тут.
Факторы, влияющие на ранжирование, делятся на статические и динамические. Статические факторы не зависят от запроса к ПС, например авторитетность страницы, который еще называют PageRank. (не путать с тулбарным PR Google). Динамические факторы зависят от текста запроса и подразделяются на внутренние (организация документа) и внешние (ссылочное ранжирование).
Факторы ранжирования поисковых систем
- Статические факторы ранжирования — авторитетность страницы
- ВИЦ – взвешенный индекс цитирирования Yandex
- PageRank – авторитетность страницы Google (не путать с тулбарным PageRank)
- Динамические факторы ранжирования
- Внешние факторы — ссылочное ранжирование
- Внутренние факторы — внутренняя оптимизация
- Собственные факторы ранжирования — собственные каталоги ресурсов
- Yandex-каталог http://yaca.yandex.ruYaca
- Каталог Google http://www.google.com/dirhp
Число факторов ранжирования и их значимость различны в альтернативных ПС и постоянно меняется с течением времени.Это связано с постоянным развитием самих ПС и развитием алгоритмов поиска. Условную формулу для вычисления показателя релевантности можно представить следующим образом источник.
, (1)
где – итоговое значение релевантности документа
запросу
;
– значение релевантности кода документа
запросу
— показатель качества внутренняя оптимизация;
– релевантность текста ссылок с других документов на документ
запросу
; этот показатель для краткости можно назвать ссылочной релевантностью.
– показатель авторитетности страницы
относительно запроса
;
– некоторая монотонно неубывающая функция; допускают упрощение, что
;
– некоторые коэффициенты, позволяющие аппроксимировать формулу релевантности под каждую ПС.
Однако формула (1) не учитывает собственных факторов ранжирования ПС, к которым относятся собственные каталоги ресурсов поисковых систем. Условную формулу для расчета показателя релевантности с учетом собственных факторов ранжирования ПС можно представить следующим образом.
, (2)
где ,
,
– некоторые аппроксимирующие коэффициенты, для каждой ПС свои;
– релевантность собственных факторов ранжирования ПС.
В данной статье я описал факторы ранжирования ПС, привел их классификацию, привел общую формулу для расчета значения релевантности. В следующих статьях цикла теории SEO я подробнее остановлюсь на каждом факторе ранжирования более подробно.
Терехов
Постовой! Хакасия в интернете
В качестве видео дополнения предлагаю посмотреть ролик, в котором наглядно продемонстрировано определение видимости сайта в поисковиках при помощи программы site-auditor.
Интересно, и почему это ни кто ни писал до этого про то что есть четкое понятие релевантности…
Fewal — это материалы моей диссертационной работы! Вот и решил поделиться своими наработками в блогосфере! По поводу четкости — это не совсем так. Я привел лишь обобщенную формулу, которая может быть применима для большого количества поисковых систем. В каждом конкретном случае свои нюансы. Это всего лишь теоретический базис, который позволяет дать общее представление о ранжировании документов в поисковых системах!
Terehoff, так держать! 🙂
Скажи нам, какая тема твоей диссертации?
Интересный пост. Вечером буду изучать более подробно, может быть даже подискутируем 🙂
Devaka — вот тебя Akismet не любит 😀 ! Тема диссертации будет точно ясна примерно через месяц! Сегодняшнее название примерно звучит так: «Организация многоальтернативного поиска в современной информационной среде в условиях избыточного дублирования и постоянного роста количества информационных ресурсов». Пока что так видится. В практическом применении понятие под понятием «информационная среда» используется сеть интернет, которая по сути дела является огромнейшей открытой информационной средой масштаба планеты!
Ну прям матанализ какой-то
Kareg — а ты думал, каким образом работают поисковики — думаешь просто так! Прочитал одну статью, как человек хотел устроиться работать в Yandex. После собеседования он просто офигел и выдал — я не смогу работать с теми, кто за обедом спокойно разговаривает о первом замечательном пределе 😆 ! Информационный поиск — это прежде всего наука!
а что за код комментария в статье?
/!—[if !vml]—
/!—[endif]—
?
Заменил угловые скобки на слеши.
О, в статье только один восклицательный знак! Прогресс 🙂
Моторокер — не совсем понял про код комментария.
>а что за код комментария в статье?
>/!–[if !vml]–
>/!–[endif]–
>?
>Заменил угловые скобки на слеши.
Формула — это хорошо:), но вот только самое главное в этой формуле — функции и подбор (или выбор) коэффициентов, он куда важнее внешней формы (типа линейная комбинация факторов таких-то умножить на фактор такой-то). Будет что-то раскрывающее эти факторы «вглубь»?
Анастасия, значения коэффициентов — это ключи к разгадке алгоритма поисковой системы. Их никто не скажет, можно лишь попытаться подобрать в процессе эксперимента. В последующих статьях цикла теории SEO я подробнее оставнолюсь на каждом факторе ранжирования и теоретической формуле его расчета. Подписывайся на RSS и не пропустишь обновления, которое будет на этой неделе 💡
Я и не знала, что с факторами ранжирования все так запущено:)) Да, непростое это дело — электронная коммерция и раскрутка сайтов. Желаю Вам успешной защиты диссертации! Спасибо за информацию!
Анна — спасибо и Вам Анна. Буду рад видеть вас на своем блоге!
За статью спасибо, желаю удачи с диссертацией!
Хоть и немного опоздал с комментом 🙂
Argon — на днях будет новая статья из цикла теория SEO. Подписывайтесь на RSS чтобы не опаздывать 😀
Уже подписался 💡 .
Эту статью я периодически просматриваю и частично использую в своей работе уже 2-3 года (точной даты выхода не помню). Что же такого вы в неё привнесли кроме банального копипаста?
BloggerSeo — формула (2) — это моя модернизация первоисточника. В последующих статьях данного цикла вы найдете еще немало дополнений. Кроме того, эта статья не совсем первоисточник. В сети есть еще информация на эту тему.
помогите раскрутить http://www.politeconomics.org.ua
как поднять Тиц моего сайта http://www.politeconomics.org.ua?
То что эта статья не истинный первоисточник я знаю, и ваша модернизация на самом деле ничего особенно нового не привносит. Глубже копать нужно ) (попробуйте сопоставить формулы и реальные данные — тогда поймете о чем я говорю)
BloggerSeo — я не претендую на научную новизну в рамках академии наук. Я всего лишь опубликовал статью по мотивам своей диссертации. Много там нового или нет, это уже другой вопрос. Я нашел материал, решил его немного дополнить и опубликовал со ссылкой на первоисточник. Я выслушал выше мнение, оно полезно для меня, будем работать дальше. У вас ко мне еще есть вопросы? 🙂
007R — отпиши по мылу из контактов, поговорим 😎
На моей памяти — это первая диссертационная работа, которая, по моим ощущениям, будет иметь смысл и будет интересна.
Легко работать с теми, кто за обедом спокойно разговаривает о первом замечательном пределе? 😆
Подобные формулы уже видел в инете — они далеко не новы. А вот тема диссертации действительно интересно — хотелось бы поглубже познать работы поисковиков (возможно даже в альтернативе). В интернете с диссертацией можно будет ознакомиться? =)
Только есть и более актуальная информация в статье http://www.apollo-8.ru/klassifikatsiya-algoritmov-ranzhirovaniya как раз написано про Спектр «сам Спектр является гибридным методом, т.к. условно говоря, на входе модель ранжируется по Поточечному подходу, а на выходе, при построении итоговой выдачи, список формируется по Списочному подходу».
[…] так же прочитать по теме: как раскрутить сайт, расчет релевантности поисковыми системами, внутренние факторы ранжирования. Я думаю, эти посты […]
[…] […]
вы