На прошлой неделе случилось невероятное. После долгого
молчания, когда интернет-общественность уже окрестила «Апорт» полуживым
проектом, поисковая система вдруг неожиданно очнулась от спячки и объявил об
обновлении серверного парка.
В связи с этим неожиданным событием «Вебпланета» взяла
небольшое интервью у Евгения Батяшина, менеджера проекта «Апорт».
На скольких серверах теперь живет поисковая система «Апорт»,
после обновления серверного парка?
В целом, в поисковой системе «Апорт» задействовано более 50
высокопроизводительных серверов. В эту цифру входят:
• front-end серверы, принимающие и обрабатывающие запросы от
пользователей;
• поисковые серверы, на которых хранится база «Апорт», по
которой ведется поиск документов;
• индексирующие серверы, которые производят обновление базы
документов;
• серверы поиска и индексации по дополнительным базам
«Апорта»: поиска по знакомствам от «Омена», портальным новостям Рол.Ру,
товарам, энциклопедии «Кругосвет», рефератам от Реферат.Ru, поиска по
импортируемым новостям с других сайтов (новости Апорт.Ру), поиска по каталогу
«Апорт», по вакансиям и др. — всего более двух десятков дополнительных баз;
• комплекс из нескольких серверов, обеспечивающих ряд
внутренних сервисов «Апорта»: работу с подсчетом индекса цитирования сайтов,
обработку добавляемых сайтов в базу «Апорта», систему фильтрации сайтов в базе
и удаление поискового спама из базы, работу со статистикой поиска, обновление
базы географического таргетинга, etc.
Хочется отметить, что зависимость качества поиска от объема
базы и аппаратных ресурсов далеко не прямая — качественный поиск обеспечивается
не только наличием большого количества серверов, но и программной частью
поисковой машины.
Сколько сейчас документов известно «Апорту»?
На данный момент в поисковой системе «Апорт»
проиндексировано более миллиона сайтов, суммарный объем проиндексированных
документов превышает 2 Тб. Дальнейший рост размера базы и увеличение количества
кластеров в поисковой машине будет соответствовать увеличению содержимого
Рунета.
Какова скорость индексации?
Общий объем входящего трафика индексирующих серверов в
среднем составляет около 60 Гб в сутки.
Использование более мощных аппаратных ресурсов вкупе с
подключением технологии фильтрации базы от поискового спама позволило сократить
время появления вновь регистрируемого ресурса в результатах поиска. Время от
регистрации сайта до появления его в результатах поиска, в принципе, зависит от
большого количества параметров (таких как индекс цитируемости сайта, структуры
кластера, в котором индексируется данный сайт, и т.п.), но в целом можно
отметить, что введенные изменения, безусловно, сократили этот параметр.
Сколько поисковых запросов система может обрабатывать
одновременно?
В настоящее время максимальное время обработки запроса
поисковой системой «Апорт» не превышает 100 мс, а среднее время обработки равно
78 мс. В сутки в среднем на поисковую систему приходит около 750 тысяч
запросов, то есть, около 9 запросов в секунду. При этом стоит отметить, что
поисковая система обладает возможностью изменять внутренние параметры поиска в
зависимости от текущей нагрузки, что позволяет избегать ситуации с
перегруженностью поисковых серверов, и в тоже время, в случае наличия свободных
аппаратных ресурсов, выдавать расширенные результаты поиска. В настоящее время
имеется достаточный запас аппаратных ресурсов, что позволяет без увеличения
времени поиска производить расширение как объема базы, так и увеличение
функциональных возможностей поиска.
Можете рассказать более подробно о новой системе фильтрации
поискового спама, о которой говорится в пресс-релизе?
Более подробная информация по новой системе появится через
некоторое время.
Михаил Костин, один из главных разработчиков «Апорта»,
некоторое время назад перешел на работу в Mail.Ru. Кто теперь занимается
разработкой «Апорта», иначе говоря, кто теперь главный разработчик поисковой
системы?
Сейчас главным разработчиком системы является Алексей Боков.
До перехода в РОЛ он занимался разработками в области компиляторов языков
программирования в одной из российских процессинговых компаний.
На рынке существует мнение, что время прежнего «Апорта» —
как ни крути — прошло, и оно уже никогда не вернется. За несколько лет «Апорт»
растерял былые позиции, и вернуться на прежний уровень будет очень и очень
сложно.
РОЛ использовал и использует свои основные ресурсы для
развития главного бизнеса — доступа в Интернет. Задача вступить в конкурентную
борьбу с ведущими поисковыми машинами Рунета у нас никогда не стояла, это
скорее вопрос к «Гуглу». Апорт не потерял свои позиции, он просто не рос так,
как росли «Яндекс» и «Рамблер». Тем не менее, у нас достаточно крепкое ядро
аудитории. Мы благодарны пользователям за то, что они понимают качество поиска
«Апорта» без дополнительного маркетингового бюджета со стороны РОЛ.
|