Как работают поисковые системы? Сниппет и индексация страниц
Приветствую всех читателей блога seoklad.net. А вы никогда не задумывались о том,»Как работают поисковые системы?», «Что такое сниппет?», интересно?
Тогда читайте статью до конца!
СОДЕРЖАНИЕ:
- Что такое сниппет?
- Основные принципы работы поисковиков
- Способы прямых и обратных индексов
- Модель ранжирования
- Асессоры. Оценка качества работы формулы
- Сколько страниц может проиндексировать Яндекс?
- Отношение Яндекса к сайтам, не находящемся в зоне RU,SU,UA
Я решил написать полезную всем статью как начинающим, так и «бывалым» пользователям Интернета, блогерам. Как многие уже знают, что основная доля трафика идёт с Яндекса и Гугла, и следовательно, чтобы этот трафик шёл к нам, нужно подружиться с ними, узнать «чем они дышат».
Что такое сниппет?
Так что же такое сниппет для сайта и почему для оптимизатора его содержимое очень важно?
Сниппет — это описание статьи, которое находится под ссылкой на найденный документ.
Если текст из ссылки на статью берётся из мета -тега Title, то сниппет формируется автоматически из статьи ( берутся куски, отдельные фразы), в зависимости от поискового запроса. Какие фрагменты статьи брать — решает поисковик, специально разработанный алгоритм. Интересно ещё и то, что при разных поисковых запросах сниппеты будут разные!
Из вышесказанного можно сделать вывод, что сниппет нужен для того, чтобы можно было понять какую информацию несёт страница статьи в зависимости от поиска, не переходя на неё.
Также содержимое тега Description иногда может быть использовано в качестве сниппета. Это может произойти, если слова в поисковом запросе совпадут с ключевыми словами в дискрипшене.
Для того, чтобы заполнить содержимое тега Description, Title, используйте плагин All in One SEO Pack, как с ним работать я писал здесь.
Основные принципы работы поисковиков
Цель оптимизации — поднять статью в топ выдачи поисковых систем, т.е. сделать страницу релевантной данному поисковому запросу.
Это и есть работа оптимизаторов. Пока алгоритмы поисковых систем не совершенны, оптимизаторы будут «помогать» поисковикам поднять страницу в топ. Но зачастую такая «помощь» мешает алгоритму сделать выдачу, релевантную данному запросу.
Вот оптимизаторы и стараются улучшить релевантность страниц, путём внутренней и внешней оптимизации, чтобы их продвигаемый запрос вышел в топ Яндекса и Google.
Но прежде чем оптимизировать те или иные страницы сайта по нужный нам запрос, необходимо знать как работают поисковики, чтобы в дальнейшем знать их поведение от того или иного изменения.
Конечно, весь принцип работы поисковиков мы разобрать не сможем, так как многая информация не доступна обычному оптимизатору и не подлежит разглашению, но основные принципы мы разберем.
Итак, приступим. В чём же всё — таки заключается принцип работы поисковых систем? Принцип работы у всех поисковых систем одинаковый: собирается информация со всевозможных страниц, особым образом обрабатывается, чтобы можно было удобно вести поиск. Ну, это если совсем в общих чертах.
Давайте внесём такой термин как документ.
Документ — это страница сайта. При этом документ должен иметь свой url (уникальный адрес), также хеш — ссылки не приводят к появлению нового документа.
А теперь остановимся на способах (алгоритмах) поиска информации в собранной поисковиками базе страниц сайтов (документов).
Способы прямых и обратных индексов
Метод прямого индекса (поиска) — это метод простого перебора страниц, которые хранятся в базе. Этим методом можно найти информацию наверняка, все мелкие детали, ничего не пропустив. Но оптимальным его нельзя назвать, так как он не предназначен для поиска информации с большим объёмом данных, потому что поиск займёт слишком длительное время.
Поэтому для работы с большим объёмом данных был разработан способ инвертированных (обратных) индексов. Также следует добавить, что этот способ используют все крупные поисковые системы в мире.
При использовании способа обратных индексов документы преобразовываются в текстовые файлы, которые содержат список всех слов, имеющихся в документе.
Слова в этих файлах располагаются по алфавиту, рядом с ними в виде координат указаны места расположения их на странице. Кроме этого имеются и другие параметры, которые определяют значение этих слов.
Всё это расположение немного напоминает список терминов в технической литературе, который расположен на последней странице. Там написан термин и указана страница, где его можно найти. Всех слов этот список не включает, но как пример, я думаю понятен. Вот так строятся индекс-файлы с помощью инвертированных индексов.
Поисковики ищут информацию не в прямых индексах (они нужны для составления сниппетов), а в обратных индексах, обработанных ими документов (вебстраниц), об этом мы с вами говорили в начале статьи.
На данный момент алготритм обратных индексов используется всеми поисковыми системами, так как позволяет ускорить процесс поиска информации, в отличие от алгоритма прямых индексов. Следует заметить, что при преобразовании документа в индекс-файл, неизбежны потери информации, за счёт искажений при преобразовании.
Модель ранжирования
Поиск по обратным индексам осуществляется при помощи математической модели ранжирования, которая упрощает процесс обнаружения нужных вебстраниц (по введённому запросу) и упрощает определение релевантности всех документов, найденных по этому запросу. Соответственно чем больше найденный документ соответствует определённому запросу, тем он релевантнее, а следовательно, выше должен стоять в поисковой выдаче.
Задача математической модели ранжирования заключается в поиске страниц в своей базе обратных индексов, которые соответствуют определённому запросу, затем сортировка их по релевантности данному запросу в порядке убывания.
Простая логическая модель ранжирования (поиск по фразе) нам не подойдёт, так как в Интернете огромное количество вебстраниц, имеющих какую-либо фразу и выдаваемых на рассмотрение пользователю.
Следует заметить, что математическая модель не идеальна в плане сортировки страниц по определённому запросу (по релевантности) и этим неплохо пользуются оптимизаторы, оказывая влияние на ранжирование документов в поисковой выдаче.
Математическая модель ранжирования относится к классу векторных моделей, где используется такое понятие как вес документа относительно заданного пользователем запроса.
Для расчёта веса документа по заданному запросу в базовой векторной математической модели ранжирования используются 2 параметра: частота, с которой в документе встречается данное слово (TF — term frequency) и то, насколько редко встречается данное слово во всех страницах, известных поисковой системе (IDF — inverse document frequency).
А умножив эти параметры друг на друга, получим вес документа (вебстраницы) по данному поисковому запросу.
Конечно, кроме этих двух параметров TF и IDF поисковики используют ещё множество коэффициентов, но суть остаётся прежней: чем чаще слово из поиска встречается на странице и чем реже на всех остальных проиндексированных вебстраницах поисковиком, тем вес её будет больше. Но здесь следует заметить, что слишком частое количество повторений поискового слова в документе может быть расцениваться спамом.
Асессоры. Оценка качества работы формулы
Как вы уже поняли, что формирование поисковой выдачи по тем или иным запросам производится по формуле. Но над формулой должен производиться контроль как и над самой математической моделью ранжирования.
Вот именно для контроля математической модели ранжирования и существуют люди — асессоры, которые просматривают поисковую выдачу определённой поисковой системы (которая их наняла) и оценивают качество работы формулы.
Асессоры вносят замечания, а люди, которые отвечают за за настройку математической модели ранжирования уже, в свою очередь, редактируют формулу, в результате чего поисковик работает более качественно.
Основные критерии оценки работы формулы:
- Точность выдачи поисковой системы — процент документов, соответствующих запросу (релевантных). Т.е. чем меньше страниц, не соответствующих запросу присутствует — тем лучше.
- Полнота выдачи поисковой системы — это отношение релевантных вебстраниц по данному запросу к общему количеству релевантных документов, находящихся в коллекции (совокупности страниц, находящихся в поисковой системе). Например, если во всей коллекции релевантных страниц больше, чем в поисковой выдаче, то это означает неполноту выдачи. Это произошло из-за того, что некоторая часть релевантных вебстраниц попала под фильтр.
- Актуальность выдачи поисковой системы — это соответствие вебстраницы тому, что написано в сниппете. Например, документ может сильно отличаться или вовсе не существовать, но в выдаче присутствовать. Актуальность выдачи напрямую зависит от того, как часто сканирует поисковый робот документы из своей коллекции.
Сбор коллекции (индексация страниц сайта) осуществляется специальной программой — поисковым роботом. Поисковый робот получает список адресов для индексации, копирует их, далее содержимое скопированных вебстраниц отдаёт на обработку алгоритму, который преобразует их в обратные индексы.
Поисковый робот, также может переходить по ссылкам с вебстраниц, которые находятся в списке индексации и индексировать их. Таким образом можно сделать вывод, что робот ведёт себя как обычный пользователь.
Сколько страниц может проиндексировать Яндекс?
Яндекс, как никто другой, заинтересован, чтобы пользователь получал разнообразную информацию. Но Яндекс допускает в выдаче второго документа с того же Интернет — ресурса. Это является исключением из правил, но если страница уж очень «хороша» или по-другому релевантна, то и исключение можно сделать. Поэтому возможен случай, когда две страницы одного и того же сайта попадут в топ по определённому поисковому запросу. Вот так.
Яндекс старается индексировать равномерно все сайты, но как быть, если нужно проиндексировать не одну, а сто, тысячу, или несколько десятков тысяч страниц?
Для этого Яндекс поставил ограничение на количество документов, которое может быть проиндексировано с одного сайта.
Так для доменов второго уровня, максимальное число страниц, которое Яндекс может проиндексировать находится в диапозоне от 100 до 150 тысяч (в зависимости от отношения к данному домену).
Для доменов третьего уровня от 10 до 30 тысяч вебстраниц.
А что делать, если вам нужно будет проиндексировать, например, 500000 страниц? Я думаю, единственным выходом будет создание множества поддоменов.
Поддомены для домена второго уровня выглядят так: seo.seoklad.net. Их количество, которое может проиндексировать Яндекс находится в диапозоне от 200 до 1000. Поэтому этим способом можно загнать несколько миллионов страниц сайта.
Отношение Яндекса к сайтам, не находящемся в зоне RU,SU,UA
В первую очередь, если вы только создали домен, Яндекс индексирует русскоязычные домены, это домены в зонах ru, su, ua. Все остальные домены индексируются не ранее чем через месяц.
Доменная зона только влияет на время, которое потребуется, до начала первой индексации страницы. На частоту индексации доменная зона влияния не оказывает.
Вот приблизительно как работает поисковая система в плане частоты индексации:
- Робот находит страницу, индексирует её, заходит на неё на следующий день.
- Робот сравнивает её с тем, что было вчера и если не находит отличий, то зайдёт на неё через три дня.
- И если на этот раз изменений в странице робот не найдёт, то зайдёт на неё через неделю и т.д.
Ну вот и всё, что я хотел вам рассказать (итак много получилось), теперь вы знаете как работают поисковые системы.