Trololo beautiful russian brides for marriage.

1240123601_aligarxiПрежде всего хотелось бы сказать спасибо всем тем, кто поздравлял меня в твиттере, по телефону, в аську и другими способами. Я долго я шел к этому дню, но немного расскажу предысторию.

Наукой я заинтересовался на 4м курсе университета и так мы познакомились с моим научным руководителем, у которого я писал диплом и к которому потом поступил в аспирантуру. Сначала наши исследования были направлены на прогнозирование и заниматься я должен был бы прогнозированием, если бы не одно НО. Этим НО стал интернет. И было это примерно два года назад.

Я полез в интернет, стал изучать продвижение сайтов, потом узнал принцип заработка на партнерских программах, и всякие прогнозы стали мне малоинтересны. Даже больше, я завел свой блог и мне стало еще интереснее копаться в интернет и совсем неинтересно в прогнозировании. Опять-таки, было одно НО. Я поступил на бесплатную очную форму обучения, места в которой были расписаны на несколько лет вперед для своих. Как мне это удалось, непринципиально, но было бы очень некрасиво взять все и бросить на полпути.

И тут мой руководитель пообщавшись со мной про все эти интернеты, предложил поработать в области информационного поиска, а именно в области повышения пертинентности (не путать с релевантностью) информационного поиска – соответствия информационной потребности пользователя с найденной информацией. Ну и понеслась.

Так появилась категория теория сео, так появились посты релевантность — как она рассчитывается поисковыми системами, пост про ссылочное ранжирование, пост про авторитетность страницы, рассказ про внутренние факторы ранжирования и как они могут быть рассчитаны. Эти посты были написаны как раз по материалам моей диссертации. И вы знаете, что называется, поперло. Мне стало интересно писать диссертацию дальше. А наработки по прогнозам мы в итоге красиво притянули за уши к информационному поиску. Чуть ниже расскажу как.

Собственно суть диссертационной работы. Для повышения пертинентности мы предлагаем в ответ на один запрос получать выдачу нескольких источников (мы использовали поисковые системы yandex, google, поиск по каталогу dmoz.org, поиск yandex среди сайтов, расположенных в dmoz, поиск google среди сайтов, расположенных в dmoz). Источников у нас было пять таким образом. Кстати говоря, выдача отличалась, в некоторых  случаях заметно.

Потом мы всю эту кипу документов объединяли в одну кучу и переранжировали в том числе на основании этой формулы релевантности. Алгоритмов переранжирования (переупорядочивания) можно было придумать множество, например выводить пользователю только три верхние позиции из каждого источника, или сортировать на основании степени доверия к поисковой системе.

А дальше то как раз было самое интересное. Принудительным образом (например плагинчик для firefox) мы заставляли пользователя сделать оценку удовлетворенности его информационной потребности от просмотренного документа. Естественно, эти оценки мы сохраняли и тем самым собирали интересную статистику. Эти данные мы обрабатывали, усредняли и как раз прогнозировали. Если прогноз улетал вниз, что означало с итоге по среднему значению низкую пертинентность поиска, то принималось решение о смене алгоритма переранжирования. Если же все было в пределах нормы, то система продолжала работать в штатном режиме.

Все это было описано с большим количеством формул, была разработана меотдика экспертной оценки пертинентности, были придуманы показатели для сравнения выдачи нескольких источников. Было много всего сделано. Не думаю, что конкретные детали не будут очень  интересны основной массе читателей этого блога, поэтому выкладывать их смысла не вижу. Кто захочет подробнее ознакомиться, пишите на мыло.

Ну и несколько слов про то, как это было. Я приехал в Москву накануне и случайно попал в офис Яндекса на улице Льва Толстого на #poseedelki про стартапы. Есть отчет про это дело на форуме стартаперов. У меня было ощущение, что нелегкая не зря меня занесла в яндекс и на защите мне это пригодится. Так и было. Когда мне намекнули, что уже есть немало сервисов, которые используют несколько источников для поиска и в чем вообще соль, я ответил как то так: “Вы знаете, я вчера был в Яндексе и мне там рассказывали, что их поиск самый лучший; недавно был на конференции в Казани и гуглоиды рассказывали что у них просто хороший поиск каким они его делают”. Тем самым было снято недовольство и некое напряжение в аудитории, где происходила защита, и мы продолжили дальнейшую дискуссию с ответами на вопросы.

Еще раз всем спасибо за поддержку, жизнь снова поменялась в интересную сторону. Теперь у меня будет гораздо больше времени для интернетов.

Кстати говоря, вчера было очень много интересных событий: день рождения Михаила Шакина, ап выдачи яндекса, день варенья серча, положительное решение о добавлении блога в Яндекс-каталог, да и много чего еще, я думаю. Ну а вечером по традиции 200 км из Москвы до Рязани за рулем, которые пролетели довольно бодро.  Кроме того, я думаю, что на следующей неделе окончательно сдам все дела в оффлайне и уволюсь от дяди. Но про это я думаю будет отдельный пост, когда все произойдет.  Удачных выходных, несмотря на то что сегодня и завтра рабочие дни.

Терехов.

Сегодня хотел бы вам предложить интересное видео про остров дельфинов.

Постовой – блог про фриланс.