Как устроена поисковая система?

Fima Korolev

the-device-search-engines

Всем привет! Сегодня мы рассмотрим такой интересный вопрос, как устроена поисковая система. Ведь это основа основ и именно с таких базовых вопросов, как по мне, должен начинать свое обучение грамотный SEO-специалист. Для удобства я прошу обратить внимание на схему ниже, которая показывает путь работы поисковой системы, начиная с запроса пользователя.

устройство поисковых систем, как устроена поисковая система google, как работает поисковая система, современные поисковые системы, принцип работы поисковых систем

Устройство поисковых систем

Итак, давайте разберем подробно.

Пользователь

Здесь 4 небольших подпункта

  • Проблема
  • Компьютер пользователи
  • Персонализация поиска
  • Настройка страницы результатов поиска

У пользователи есть какая-то проблема и он надеется решить ее с помощью поисковой системы. Системе не всегда удается решить эту проблему, но качество поиска улучшается с каждым годом. Также у системы есть сам компьютер пользователя, который служит некой точкой сбора информации о самом пользователе. Например, может собираться информация об истории поиска. Наверняка, вы сталкивались с тем, когда ищите в Яндексе нужный вам товар, например, обувь, а потом видели баннеры с этой обувью на другом сайте. То есть система запоминает то, что вы искали и показывает контекстную рекламу на других сайтах.

Персонализация поиска - подстройка результатов поиска под задачи и проблемы конкретного человека. Это означает, что результаты выдачи за вашим компьютером и компьютером вашего брата (жены, мамы, девушки) будут индивидуальными. Например, если вы чаще сидите на сайтах развлекательного характера, то в выдаче приоритет будет отдаваться сайтам развлекательной тематики. Если человек любит читать новости на сайте медиахолдинга РБК, то в поиске при запросе схожих тем сайт РБК будет в ТОПе. Настройка страницы результатов поиска включает в себя настройку разного количества страниц, показываемых в поиске, включение одного или сразу нескольких регионов, включение семейного поиска и тд. Самый важный пункт здесь – проблема пользователя, потому что не все SEO-специалисты это понимают.

Необходимо продвигать сайты не под запросы, а под проблемы пользователей!

Разумеется, необходимо предварительно изучить и сгруппировать эти проблемы, а уже потом создавать уникальные страницы под каждую проблему. Но об этом мы поговорим позже.

Поисковая строка

У поисковой системы есть подсказки и живой поиск.

Подсказки – это тот случай, когда поисковая система стремится угадать, что хочет пользователь, еще до того, как пользователь ввел запрос окончательно. Нужно это, в первую очередь, для экономии времени пользователя и повышения общей комфортности работы с системой.

адресная строка браузера это, поисковая строка это, что такое адресная строка

Адресная строка браузера

Живой поиск в данный момент работает практически во всех поисковых системах и служит своего рода неким революционным продолжением подсказок. Что же это такое?

Живой поиск — это когда пользователь вводит запрос и поисковая система уже по мере ввода запроса показывает результаты выдачи. Как вы наверно понимаете, такой подход позволяет экономить еще больше времени и приводит к большей удовлетворенности пользователя.

Обработка запроса

Допустим, пользователь ввёл запрос. Теперь системе нужно понять, что именно хочет получить пользователь. Какими инструментами пользуется поисковая система?

  1. Региональность. Определяется по IP пользователя Можно задавать вручную (указывается в настройках), либо задавать в самом поиске (окна екатеринбург).
  2. Типы запроса. Запросы бывают разные, информацию об этом смотрите чуть ниже.
  3. Спектр изучает распределение проблем пользователей. Например, если человек вводит запрос “яблоко”, неизвестно, хочет он узнать калорийность яблока или понять смысл фразы “яблоко раздора”. Спектр вычисляет, какое количество (%) пользователей действительно хочет выяснить калорийность яблока, а какое – понять смысл “яблока раздора”. И на основе этого определяет выдачу так, какое количество сайтов отвечает на 1 вопрос, а какое — на второй. Допустим, если в выдаче на запрос ЯБЛОКО всего три релевантных страницы про “калорийность яблока”, то при продвижении страницы «калорийность яблока» на запрос “яблоко” вы не сможете увеличить количество страниц с 3 до 4, так как спектр уже определил, что всего должно быть три релевантных страницы на вопрос “калорийность яблока” и вы будете конкурировать с этими тремя страницами в выдаче. Надеюсь, понятно объяснил.
  4. Колдунщики – это специальные модули, которые выводятся при определенных запросах. Например, когда вы хотите узнать погоду, курс доллара или информацию о фильме.
Поисковые колдунщики

Поисковые колдунщики

  1. Машинное обучение. У поисковых систем есть специальные люди, именуемые асессорами, которые в соответствии с инструкцией просматривают вручную страницы и определяют их релевантность. Они определяют, насколько сайт/страница актуален, много ли на нем спама, как точно он отражает информацию по тому или иному запросу и тд. В соответствии с тем, насколько баллов асессор оценил сайт (страницу), машинное обучение может скорректировать алгоритм и, соответственно, выдачу и повысить/понизить тот или иной сайт по определенному запросу. Машинное обучение создает по каждому запросу свою уникальную формулу, в соответствии с которой определяется выдача.
  2. Опечатачник. Здесь всё просто – если вы ошиблись в слова “молоко” и написали “малоко”, поисковая система исправит ошибку и покажет результаты по запросу “молоко”. То же самое правильно действует, если вы забыли переключить раскладку.
  3. Синонимы и аббревиатуры. Например, если вы ввели “купить машину”, система также покажет результаты по “купить авто”. Если вы ввели в запросе аббревиатуру, система покажет в выдаче и полные названия.
Рекомендую к прочтению:  Система контекстной рекламы Google AdSense

Тип запроса

Запросы могут быть:

  • Транзакционный, навигационный, информационный
  • Односмысловой, многосмысловой
  • Новостной, информационный

Навигационный запрос – тип запроса, когда мы хотим узнать, куда идти, что-то найти на карте, куда-то сходить. Ответом системы послужит карта, адрес или каталог организации.

Транзакционный запрос – это когда мы хотим что-то приобрести, заказать или купить. В выдаче будут сайты, где можно что-то купить, скачать, заказать.

Информационный запрос – это, соответственно, сайты с информацией, где мы можем что-то узнать, почитать и тд.

Односмысловой и многосмысловой – это как раз тот тип запрос, который может толковаться по разному. Например, наш пример с яблоком (яблоко раздора или калорийность яблока, шина летняя или шина медицинская).

Новостной запрос – когда показываются новости, а информационный – просто информация. Как система определяет, что запрос новостной? Например, произошло наводнение в США. Никто не искал до этого информацию о наводнениях, но тут вдруг значительно увеличилось количество запросов о наводнениях в США, следовательно система определяет это, как новостной запрос и подмешивают в результаты выдачи информацию с новостных сайтов.

В действительности, классификаций запросов гораздо больше и это лишь основные. Запросы могут быть женскими-мужскими, конкурентными или не конкурентными, точными или не точными и тд. Более подробно о типах запросов мы поговорим в следующих статьях.

Матрица результатов поиска

Когда пользователь вводит запрос, он видит какие-то сайты и ссылки. На языке SEO-шника правильней говорить, что по каждому запросу система формирует матрицу результатов поиска. То есть сначала формируется матрица и только потом она заполняется сайтами. Например, по запросу Х в ТОП10 в одном месте будет контекстная реклама сверху и справа, чуть ниже адреса организаций, далее идут сайты, в сниппетах будет располагаться какая-то информация, например телефон и время работы (если есть). Также может быть добавлен Яндекс.Маркет.

В целом, матрица результатов поиска состоит из:

  • Яндекс.Маркет
  • Контекстная реклама
  • Яндекс.Адреса
  • Пресс портрет
  • Новости
  • Сниппеты
  • Кеш документов
  • Кеш поиска

Пресс-портрет – это автоматически созданные дайджесты о человеке по материалам СМИ. Пресс-портрет может отображаться, когда вы ищите каких известных людей. Больше информации здесь: https://yandex.ru/blog/company/14422 Новости в матрице означают, что в поиск могут подмешиваться как обычные информационные ресурсы, так и новостные сайты.

Сниппеты – это тема отдельной статьи. Сниппет формируется приблизительно из 14 элементов (как у Яндекса, так и Гугла) и на каждый из них можно воздействовать.

Кеш документов означает, что в поиск могут попасть документы, которые сейчас недоступны по какой-то причине (документ удалили, вебмастер не оплатил хостинг). Поисковая система ранее имела доступ к этому документу (странице) и сохранила к себе в базу данных копию этой страницы. И теперь, если происходит запрос, релевантный сохраненной странице, система может показать его в выдаче.

Рекомендую к прочтению:  Файл .htaccess

Кеш поиска означает, что система сохраняет результаты выдачи по определенным запросам, если не было никаких изменений. Например, по запросу “купить телефон Х” выдача не изменяется с течением времени и для экономии ресурсов поисковой системы лучше загрузить копию результатов выдачи из кеша, в то время как результаты выдачи новостей разумней формировать каждый раз, так как это очень изменчивая среда.

Аналитика

Поисковая система может на основе поведения пользователе вести некоторую аналитику и изменять результаты выдачи. Аналитика возможна на основе:

  • Поведение пользователей на результатах выдачи
  • Переходы по ссылкам
  • Персональная статистика пользователей

Аналитика поведения пользователей на результатах выдачи.

Например, изменять результаты выдача на основании того, как пользователь вёл себя, когда ему показывались те или иные сайты.

Более наглядно. Например, вы ищите, где бы заказать пиццу. Вводите запрос и идете на первый сайт. Там вам узнаете, что ждать надо 2 часа и уходите. Далее заходите на второй сайт. Что это означает для системы? Это значит, что скорее всего вы не удовлетворены первым сайтом. В зависимости от того, как настроена поисковая система, если еще несколько десятков (сотен или тысяч) человек повели себя также – зашли на первый сайт, через некоторое время ушли с него и перешли на второй, – система поднимает второй сайт на первой место, а в то время как сайт, который был на первом месте, понижается в выдаче на несколько позиций.

Аналитика при переходе по ссылкам.

Допустим, пользователь ввёл запрос, получил какую-то выдачу, перешел на первый сайт, через некоторое время закрыл. Перешел на второй сайт – закрыл. Так же повторилось с третьим и четвертым сайтом. После этого пользователь изменяет ранее набранный запрос. Такое же поведение повторилось еще у нескольких сотен пользователей. Что же это означает? Это означает, что выдача нерелевантна и не отображает той информации, которую хочет увидеть пользователь. Поэтому поисковая система проводит внутри себя аналитику и корректирует выдачу под определенные запросы. Разумеется, учитываются многие факторы, а не просто “открыл сайт – закрыл”. Поисковая система учитывает, сколько времени пользователь провел на сайте, на что кликал, какие запросы были введены ранее и так далее.

Персональная статистика пользователей.

Мы об этом упоминали в начале части. Система собирает информацию о пользователе – какие сайты посещал, на какие сайты кликал, какие сайты предпочитает посещать и на основании этого персонализируется выдача. Поэтому результаты выдача у вас и вашего соседа по одному и тому же запросу может быть разная.

Документы и индексация

Какие документы распознает поисковая система?

Я выделил следующие типы:

  • Веб-страницы
  • PDF, DOC, XLS, TXT…
  • Архивы (.rar, .zip)
  • Видеофайлы
  • Картинки
  • Новости (специально выделил, так как новости сканируются отдельным новостным ботом)
  • Блоги, микроблоги
  • Профили пользователей в социальных сетей

Ок, мы поняли, как поисковая система проводит аналитику и какие документы распознаются системой, как же попасть в поиск, то есть быть проиндексированным?Попасть в индекс можно следующими путями:

  • Переход робота по ссылке. Ссылки могут разные: по внутренней ссылке (внутри сайта), по внешней ссылке (с чужого сайта на ваш), ссылки из Твиттера, из блога и тд.
  • Функция AddURL. У Яндекс.Вебмастер, ровно как и остальных поисковых систем, есть опция оповещения, что появился новый сайт или новая страница, которую необходимо проиндексировать. Это особенно полезно для молодых ресурсов, которые имеют малое количество посещений. Например, чтобы оповестить Яндекс, до недавнего времени, нужно добавить ссылку здесь – https://webmaster.yandex.ru/addurl.xml, сейчас это встроенная функция “Переобход страниц” Яндекс.Вебмастера.
  • Яндекс.Метрика, Яндекс.Бразуер или Яндекс.Бар. Если в процессе серфинга Я.Бар нашел уникальные страницы, он добавит их в очередь на обход и велика вероятность, что в скором времени робот посетит нужную вам страницу и добавит в индекс.
  • Liveinternet
  • Sitemap.xml – с помощью можно сообщить системе, какие страницы нужно добавить в индекс
Рекомендую к прочтению:  Как правильно пользоваться wordstat

это основные, но есть и другие, менее важные.

Фильтрация

После того, как был найден уникальный контент (сайт, страница, информация), система принимает решение, индексировать его или нет. Это зависит от определенных параметров. Прежде всего, состоит ли сайт под фильтром АГС. Другой параметр – Яндекс нашел страницу, которая находится на 10 уровне вложенности и система понимает, что эта страница никогда не будет найдена, она не отвечает ни на один запрос, поэтому нет смысла её индексировать. Другими словами, такая страница обладает очень низким статистическим весом.

Также фильтрацию не проходят страницы со следующим содержанием:

  • Спам – страницы, не несущие смысловой нагрузки
  • Вирусы – страницы с содержанием вирусов
  • Ошибки – страницы с содержанием ошибок
  • Не важные страницы – например в Интернет-магазине это может быть раздел “О нас”, “Наша миссия”, хотя иногда и эти страницы попадают в индекс. Если сайт является фотогалереей, то иногда для каждой фотографии создается отдельная html-страница. Система это фильтрует и не добавляет их в индекс.
  • Дубликаты – если вебмастер создал дубликаты страниц на сайте, например одна и та же страница доступна через протокол http и https, с/без www, с/без знаком “/” (слеш) на конце УРЛ и т.д. Дубликатов одной страницы можно сделать с десяток или несколько десятков, поэтому всегда смотрите за этим и по возможности удаляйте их.

Фильтрация – это тема отдельной статьи, я решил просто это упомянуть для общего понимания.

Как функционирует робот-паук от поисковой системы?

Прежде всего надо понимать, что робот-паук обладает неким краулинговым бюджетом. Для владельца страницы краулинговый бюджет – это сколько страниц может быть скачано за один обход. Дело в том, что в Интернете миллиарды страниц и документов, и ввиду ограниченности ресурсов поисковая система не скачивает все подряд (да и нет в этом смысла). Вместо этого робот-паук определит приоритетность тех или иных страниц на сайте, определит их вес и скачает часть из них. Если робот понял, что сайт большой, а краулинговый бюджет был выделен маленький, он может быть увеличен и при следующем заходе робот скачает бОльшее количество страниц.

Если при первом заходе робот проиндексировал небольшое количество страниц, а при втором заходе увидел, что количество страниц значительно добавилось (или изменилось), бюджет тоже может быть увеличен. Если какие-то страницы были обновлены, мы можем уведомить робота об этом через мета-данные или через файл sitemap.xml. Если некоторые страницы обладают небольшим статическим весом, робот их не будет индексировать и специальное уведомление через файл sitemap.xml будет очень кстати, хотя и не всегда помогает.

Также для поисковых систем можно писать инструкции через файл robots.txt, система их учитывает и на основании этого определяется поведение робота на сайте. Например, можно закрыть от индексации определенные страницы или ссылки.

Давайте поговорим чуть подробней об инструкциях для поисковых систем. Они бывают следующими:

  • robots.txt – можем указывать, какие страницы индексировать, какие нет, какие страницы являются копиями, можно задавать скорость обхода роботом нашего сайта, дать ссылку на sitemap.xml и тд.
  • sitemap.xml – список страниц, который необходимо проиндексировать. Главная ошибка при заполнении этого файла – добавить абсолютно все страницы. Это неверно – необходимо добавлять только те страницы, которых еще нет в индексе или которые обновились.
  • meta-данные – это теги noindex и nofollow.
  • http-протокол – задавать коды ответа. Если стоит код 200 – добавлять в индекс, код 410 – удалить из индекса.

TEXT.RU - 100.00%


-->

2 комментариев »

  1. Сергей:

    Интересная статья, поскольку пытаюсь определить все факторы на которые ссылается яндекс при ранжировании сайта.

  2. ConferencBuilder:

    Картинка со схемой очень размытая ничего не понятно.

Оставить комментарий

Ваш email не будет опубликован. Обязательные поля отмечены *

Что-то типа КАПЧИ :) *

Вы можете использовать это HTMLтеги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">