Несколько слов о том, как работают роботы поисковых машин


Оглавление (нажмите, чтобы открыть):

Несколько слов о том, как работают роботы поисковых машин

Как работают поиcковые машины ? Одним из замечательных свойств Интернет является то, что существуют сотни миллионов web-ресурсов, ожидающих и готовых быть представленными нам. Но плохо то, что есть те же миллионы страниц, которые, даже будучи нам нужны, не предстанут перед нами, т.к. просто неизвестны нам. Как узнать, что и где можно найти в интернет? Обычно для этого мы обращаемся к помощи поисковых машин.

Поисковые интернет машины представляют собой специальные сайты в глобальной сети, которые сделаны так, чтобы помочь людям отыскать во всемирной паутине нужную им информацию. Есть различия в способах, которыми поисковые машины выполняют свои функции, но в целом есть 3 основных и одинаковых функции:

— все они «обыскивают» интернет (или какой то сектор интернет) — на основе заданных ключевых слов;
— все поисковики индексируют слова, которые они ищут и места, где они их находят;
— все поисковики позволяют пользователям искать слова или комбинации из ключевых слов на основе уже проиндексированных и занесенных в свои базы данных web-страниц.

Самые первые поисковики индексировали до нескольких сотен тысяч страниц и получали 1,000 — 2,000 запросов в день. Сегодя топовые поисковики проиндексировали и индексируют в непрерывном режиме сотни миллионов страниц, обрабатывают десятки миллионов запросов в день. Ниже будет рассказано о том, как же работают поисковики и каким образом они «складывают» все кусочки найденной информации так, чтобы суметь ответить на любой интересующий нас вопрос.

Когда люди говорят о поисковых интернет машинах, они в действительности имеют в виду поисковые машины World Wide Web. Прежде, чем Web стал наиболее видимой частью интернет, уже существовали поисковые машины, которые помогали людям найти в сети информацию. Программы под названием «gopher» и «Archie» умели индексировать файлы, размещенные на разных серверах, подсоединенных к интернет Internet и многократно снижали временные затраты на поиск нужных программ или документов. В конце 80-х годов прошлого века синонимом «умения работать в интернет» было умение использовать gopher, Archie, Veronica и т.п. поисковые программы. Сегодня большинство интернет пользователей ограничивают свой поиск только всемирной сетью, или WWW.

Перед тем, как ответить вам где найти нужный документ или файл, это файл или документ должен быть уже когда то найден. Чтобы найти информацию о сотнях миллионах существующих WEB-страниц, поисковая машина применяет специальную программу-робот. Эта программа еще называется спайдер («spider», паук) и служит для построения списка слов, найденных на странице. Процесс построения такого списка называется web-краулинг (Web crawling). Чтобы далее построить и зафиксировать «полезный» (имеющий значение) список слов, поисковый паук должен «просмотреть» массу других страниц.

Как же начинает любой паук (spider) свое путешествие по сети ? Обычно стартовой точкой являются наиболее крупные мировые сервера и очень популярных web-страницы. Паук начинает свой путь с такого сайта, индексирует все найденные слова и продолжает свое движение далее, по ссылкам на другие сайты. Таким образом, робот-паук начинает охватывать все большие «куски» web-пространства. Google.com начинался с академического поисковика. В статье, описывающей как была создана эта поисковая машина, Сергей Брин и Лауренс Пейдж (основатели и владельцы Google) привели пример, как быстро работают гугловские пауки. Их несколько и обычно поиск начинается с использованием 3-х пауков. Каждый паук поддерживает до 300 одновременно открытых соединений с web-страницами. При пиковой загрузке, с использованием 4-х пауков, система Гугл способна обработать 100 страниц в секунду, генерируя траффик около 600 килобайт/сек.

Чтобы обеспечить пауков необходимыми для обработки данными, раньше Google располагал сервером, который занимался только тем, что «подбрасывал» паукам все новые и новые URL. Чтобы не зависеть от интернет сервис провайдеров в части серверов доменных имен (DNS), транслирующих url в IP адрес, Google обзавелся собственным сервером DNS, сведя все временные затраты на индексацию страниц до минимума.

Когда Google робот посещает HTML страницу, он принимает во внимание 2 вещи:

— слова (текст) на странцие;
— место их расположения (в какой части body страницы).

Слова, расположенные с служебных разделах, таких как title, subtitles, meta tags и др. помечались как особо важные для пользовательских поисковых запросов. Google паук был построен так, чтобы индексировать каждое подобное слово на странице, за исключением междометий типа «a,» «an» и «the.». Другие поисковики имеют несколько другой подход к индексации.

Все подходы и алгоритмы поисковиков в конечном итоге направлены на то, чтобы заставить роботов пауков работать быстрее и эффективнее. К примеру, некоторые поисковые роботы отслеживают при индексации слова в title, ссылках и до 100 наиболее часто используемых на странице слов и даже каждое из слов первых 20 строк текстового содержания страницы. Таков алгортим индексации, в частности, у Lycos.

Другие поисковики, такие как AltaVista, идут в другом направлении, индексируя каждое отдельное слово странциы, включая «a,» «an,» «the» и други неважные слова.

Метатеги позволяют владельцу web-страницы задавать ключевые слова и понятия, которые определяют суть её содержания. Это очень полезный инструемнт, особенно когда эти ключевые слова могут повторяться до 2-3 раз в тексте страницы. В этом случае мета-теги могу «направить» поисковый робот к нужному выбору ключевых слов для индексации страницы. Существует вероятность «накрутки» мета-тегов сверх популярными поисковыми запросами и понятиями, никак не связаннными с содержанием самой старницы. Поисковые роботы умеют бороься с этим, путем, например, анализа корреляции мета-тегов и содержимого web-страницы, «выкидывая» из рассмотрения те мета-теги (соответственно ключевые слова) , которые не соответствуют содержимому страниц.

Все это касается тех случаев, когда владелец web-ресурса действительно желает быть включенным в поисковые результаты по нужным поисковым словам. Но нередко случается так, что владелец совсем не желает быть проиндексированным роботом. Но такие случаи не относятся к теме нашей статьи.

Как только пауки закончили свою работу по нахождению новых web-страниц, поисковые машины должны разместить всю найденную информацию так, чтобы было удобно в дальнейшем ею пользоваться. Здесь имеют значение 2 ключевых компонента:

— информация, сохраненная вместе с данными;
— метод, которым эта информация проиндексирована.

В простейшем случае, поисковик мог бы просто разместить слово и URL адрес, где оно находится. Но это сделало бы поисковик совсем примитивным инструментом, так как нет никакой информации о том, в какой части документа находится это слово (мета-тегах, или в обычном тексте), используется ли это слово один раз или многократно и содержится ли оно в ссылке на другой важный и близкий по теме ресурс. Другими словами, такой способ не позволит ранжировать сайты, не обеспечит представление пользователям релевантных результатов и т.д.

Чтобы предоставить нам полезные данные, поисковики сохраняют не только информацию из слова и его URL адрес. Поисковик может сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову «вес», что далее поможет выдавать поисковые листинги (результаты) на основе весового ранжирования по данному слову, с учетом его местонахождения (в ссылках, мета тегах, титуле страницы и т.п.). У каждого коммерческого поисковика есть своя формула для вычисления «веса» ключевых слов при индексации. Это одна из причин, почему по одному и тому же поисковому запросу поисковики выдают совсем разные результаты.

Следующий важный момент при обработке найденной информации — её кодирование с целью уменьшения объема дискового пространства для её сохранения. Например, в оригинальной статье Google описано, что для хранения весовых данных слов используется 2 байта (по 8 бит каждый) — при этом учитывается вид слова (большими или прописными буквами), размер самих букв (Font-Size) и др. информация, которая помогает ранжировать сайт. Каждый такой «кусочек» информации требует 2-3 бита данных в полном 2-байтном наборе. В результате громадный объем информации удается сохранять в очень компактном виде. После того, как информация «сжата», пора приступать к индексации.

Цель индексация одна: обеспечить максимально быстрый поиск нужной информации. Существуют несколько путей для построения индексов, но самый эффективный — это построение хеш-таблиц (hash table). При хешировании используется определенная формула, с помощью которой каждому слову присваивается некое численное значение.

В любом языке существуют буквы, с которых начинается гораздо больше слов, чем с остальных букв алфавита. К примеру, слов на букв «M» в разделе английского словаря значительно больше, чем на букву «X». Это означает, что поиск слова, начинающегося с самой популярной буквы потребует больше времени, чем любое другое слово. Хешинг (Hashing) уравнивает эту разницу и уменьшает среднее время поиска, а также разделяет сам индекс от реальных данных. Хеш таблица содержит хеш-значения вместе с указателем на данные, соответствующие этому значению. Эффективная индексация + эффективное размещение вместе обеспечивают высокую скорость поиска, даже если пользователь задаст очень сложный поисковый запрос.

Поиск, основанный на булевских операторах («and», «or», «not») — это буквенный поиск — поисковик получает поисковые слова ровно так, как они введены. Это может вызвать проблему, когда, например, введенное слово имеет множество значений. «Ключ,» например, может означать «средство для открытия двери», а может означать «пароль» для входа на сервер. Если вас интересует только одно значение слова, то вам, очевидно, будут не нужны данные по его второму значению. Можно, конечно, построить буквальный запрос, который позволит исключить вывод данных по ненужному значению слова, но было бы неплохо, если бы поисковик смог сам помочь вам.

Одна из областей исследований в области алгоритмов будущих поисковых машин — это концептуальный поиск информации. Это такие алгоритмы, кгда для нахождения релевантных данных используется статистический анализ страниц, содержащих данное поисковое ключевое слово или фразу. Ясно, что такой «концептуальной поисковой машине» потребуется гораздо больший объем для хранения данных о каждой странице и больше времени для обработки каждого запроса. В настоящее время многие исследователи работают над этой проблемой.

Не менее интенсивно ведутся работы и в области разработки поисковых алгоритмов на основе запросов естественного языка (Natural-Language query).

Как работают роботы (spiders) поисковых машин

Эта статья вовсе не является попыткой объяснить, как работают поисковые машины вообще (это know-how их производителей). Однако, по моему мнению, она поможет понять как можно управлять поведением поисковых роботов (wanderers, sp >Первой причиной того, что я решился написать эту статью, явился случай, когда я исследовал файл логов доступа к моему серверу и обнаружил там следующие две строки:

lycosidae.lycos.com — — [01/Mar/1997:21:27:32 -0500] «GET /robots.txt HTTP/1.0» 404 —
lycos >то есть Lycos обратился к моему серверу, на первый запрос получил, что файла /robots.txt нет, обнюхал первую страницу, и отвалил. Естественно, мне это не понравилось, и я начал выяснять что к чему.

Оказывается, все «умные» поисковые машины сначала обращаются к этому файлу, который должен присутствовать на каждом сервере. Этот файл описывает права доступа для поисковых роботов, причем существует возможность указать для различных роботов разные права. Для него существует стандарт под названием Standart for Robot Exclusion.

По мнению Луиса Монье (Louis Monier, Altavista), только 5% всех сайтов в настоящее время имеет не пустые файлы /robots.txt если вообще они (эти файлы) там существуют. Это подтверждается информацией, собранной при недавнем исследовании логов работы робота Lycos. Шарль Коллар (Charles P.Kollar, Lycos) пишет, что только 6% от всех запросов на предмет /robots.txt имеют код результата 200. Вот несколько причин, по которым это происходит:

  • люди, которые устанавливают Веб-сервера, просто не знают ни об этом стандарте, ни о необходимости существования файла /robots.txt.
  • не обязательно человек, инсталлировавший Веб-сервер, занимается его наполнением, а тот, кто является вебмастером, не имеет должного контакта с администратором самой «железяки».
  • это число отражает число сайтов, которые действительно нуждаются в исключении лишних запросов роботов, поскольку не на всех серверах имеется такой существенный трафик, при котором посещение сервера поисковым роботом, становится заметным для простых пользователей.

Формат файла /robots.txt.

Файл /robots.txt предназначен для указания всем поисковым роботам (sp >Если робот Lycos не нашел своего описания в /robots.txt — он поступает так, как считает нужным. Как только робот Lycos «увидел» в файле /robots.txt описание для себя — он поступает так, как ему предписано.

При создании файла /robots.txt следует учитывать еще один фактор — размер файла. Поскольку описывается каждый файл, который не следует индексировать, да еще для многих типов роботов отдельно, при большом количестве не подлежащих индексированию файлов размер /robots.txt становится слишком большим. В этом случае следует применять один или несколько следующих способов сокращения размера /robots.txt:

  • указывать директорию, которую не следует индексировать, и, соответственно, не подлежащие индексированию файлы располагать именно в ней
  • создавать структуру сервера с учетом упрощения описания исключений в /robots.txt
  • указывать один способ индексирования для всех agent_id
  • указывать маски для директорий и файлов

Записи (records) файла /robots.txt

Общее описание формата записи.

Описание параметров, применяемых в записях /robots.txt

[. ]+ Квадратные скобки со следующим за ними знаком + означают, что в качестве параметров должны быть указаны один или несколько терминов.

Например, после «User-Agent:» через пробел могут быть указаны один или несколько agent_ > [. ]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть указаны ноль или несколько терминов.

Например, Вы можете писать или не писать комментарии.

[. ]? Квадратные скобки со следующим за ними знаком ? означают, что в качестве параметров могут быть указаны ноль или один термин.

Например, после «User-Agent: agent_ >..|.. означает или то, что до черты, или то, что после.

WS один из символов — пробел (011) или табуляция (040)

NL один из символов — конец строки (015) , возврат каретки (012) или оба этих символа (Enter)

User-Agent: ключевое слово (заглавные и прописные буквы роли не играют).

Параметрами являются agent_ >Disallow: ключевое слово (заглавные и прописные буквы роли не играют).


Параметрами являются полные пути к неиндексируемым файлам или директориям

# начало строки комментариев, comment string — собственно тело комментария.

agent_ > path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексированию.

Расширенные комментарии формата.

Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_ > Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_ > Каждый поисковый робот будет определять абсолютный URL для чтения с сервера с использованием записей /robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.

В примере 1 файл /robots.txt содержит две записи. Первая относится ко всем поисковым роботам и запрещает индексировать все файлы. Вторая относится к поисковому роботу Lycos и при индексировании им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные — разрешает. Таким образом сервер будет проиндексирован только системой Lycos.

В примере 2 файл /robots.txt содержит две записи. Первая разрешает поисковым роботам Copernicus и Fred индексировать весь сервер. Вторая — запрещает всем и осебенно роботу Rex индексировать такие директории и файлы, как /tmp/, /tea-time/, /top-cat.txt, /traverse.this и т.д. Это как раз случай задания маски для директорий и файлов.

В примере 3 — одна запись. Здесь всем роботам запрещается индексировать директорию /spiders/not/here/, включая такие пути и файлы как /spiders/not/here/really/, /spiders/not/here/yes/even/me.html. Однако сюда не входят /spiders/not/ или /spiders/not/her (в директории ‘/spiders/not/’).

Некоторые проблемы, связанные с поисковыми роботами.

Незаконченность стандарта ( Standart for Robot Exclusion ).

К сожалению, поскольку поисковые системы появились не так давно, стандарт для роботов находится в стадии разработки, доработки, ну и т.д. Это означает, что в будущем совсем необязательно поисковые машины будут им руководствоваться.

Эта проблема не слишком актуальна для российского сектора Internet, поскольку не так уж много в России серверов с таким серьезным трафиком, что посещение их поисковым роботом будет мешать обычным пользователям. Собственно, файл /robots.txt для того и предназначен, чтобы ограничивать действия роботов.

Не все поисковые роботы используют /robots.txt.

На сегодняшний день этот файл обязательно запрашивается поисковыми роботами только таких систем как Altavista, Excite, Infoseek, Lycos, OpenText и WebCrawler.

Использование мета-тегов HTML.

Начальный проект, который был создан в результате соглашений между программистами некоторого числа коммерческих индексирующих организаций (Excite, Infoseek, Lycos, Opentext и WebCrawler) на недавнем собрании Distributing Indexing Workshop (W3C) , ниже.

На этом собрании обсуждалось использование мета-тегов HTML для управления поведением поисковых роботов, но окончательного соглашения достигнуто не было. Были определены следующие проблемы для обсуждения в будущем:

  • Неопределенности в спецификации файла /robots.txt
  • Точное определение использования мета-тегов HTML, или дополнительные поля в файле /robots.txt
  • Информация «Please visit»
  • Текущий контроль информации: интервал или максимум открытых соединений с сервером, при которых можно начинать индексировать сервер.

Этот тег предназначен для пользователей, которые не могут контролировать файл /robots.txt на своих веб-сайтах. Тег позволяет задать поведение поискового робота для каждой HTML-страницы, однако при этом нельзя совсем избежать обращения робота к ней (как возможно указать в файле /robots.txt).

robot_terms — это разделенный запятыми список следующих ключевых слов (заглавные или строчные символы роли не играют): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.

NONE — говорит всем роботам игнорировать эту страницу при индексации (эквивалентно одновременному использованию ключевых слов NOINDEX, NOFOLLOW).

ALL — разрешает индексировать эту страницу и все ссылки из нее (эквивалентно одновременному использованию ключевых слов INDEX, FOLLOW).

INDEX — разрешает индексировать эту страницу

NOINDEX — неразрешает индексировать эту страницу

FOLLOW — разрешает индексировать все ссылки из этой страницы

NOFOLLOW — неразрешает индексировать ссылки из этой страницы

Если этот мета-тег пропущен или не указаны robot_terms, то по умолчанию поисковый робот поступает как если бы были указаны robot_terms= INDEX, FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое слово ALL, то робот поступает соответственно, игнорируя возможно указанные другие ключевые слова.. Если в CONTENT имеются противоположные по смыслу ключевые слова, например, FOLLOW, NOFOLLOW, то робот поступает по своему усмотрению (в этом случае FOLLOW).

Если robot_terms содержит только NOINDEX, то ссылки с этой страницы не индексируются. Если robot_terms содержит только NOFOLLOW, то страница индексируется, а ссылки, соответственно, игнорируются.

phrases — разделенный запятыми список слов или словосочетаний (заглавные и строчные символы роли не играют), которые помогают индексировать страницу (т.е. отражают содержание страницы). Грубо говоря, это те слова, в ответ на которые поисковая система выдаст этот документ.

text — тот текст, который будет выводиться в суммарном ответе на запрос пользователя к поисковой системе. Сей текст не должен содержать тегов разметки и логичнее всего вписать в него смысл данного документа на пару-тройку строк.

Предполагаемые варианты исключения повторных посещений с помощью мета-тегов HTML

Некоторые коммерческие поисковые роботы уже используют мета-теги, позволяющие осуществлять «связь» между роботом и вебмастером. Altavista использует KEYWORDS мета-тег, а Infoseek использует KEYWORDS и DESCRIPTION мета-теги.

Индексировать документ один раз или делать это регулярно?

Вебмастер может «сказать» поисковому роботу или файлу bookmark пользователя, что содержимое того или иного файла будет изменяться. В этом случае робот не будет сохранять URL, а броузер пользователя внесет или не внесет это файл в bookmark. Пока эта информация описывается только в файле /robots.txt, пользователь не будет знать о том, что эта страница будет изменяться.

Мета-тег DOCUMENT-STATE может быть полезен для этого. По умолчанию, этот мета-тег принимается с CONTENT=STATIC.

Как исключить индексирование генерируемых страниц или дублирование документов, если есть зеркала сервера?

Генерируемые страницы — страницы, порождаемые действием CGI-скриптов. Их наверняка не следует индексировать, поскольку если попробовать провалиться в них из поисковой системы, будет выдана ошибка. Что касается зеркал, то негоже, когда выдаются две разные ссылки на разные сервера, но с одним и тем же содержимым. Чтобы этого избежать, следует использовать мета-тег URL с указанием абсолютного URL этого документа (в случае зеркал — на соответствующую страницу главного сервера).

Источники

    Charles P.Kollar, John R.R. Leavitt, Michael Mauldin, Robot Exclusion Standard Revisited , www.kollar.com/robots.html

Релятивисты и позитивисты утверждают, что «мысленный эксперимент» весьма полезный интрумент для проверки теорий (также возникающих в нашем уме) на непротиворечивость. В этом они обманывают людей, так как любая проверка может осуществляться только независимым от объекта проверки источником. Сам заявитель гипотезы не может быть проверкой своего же заявления, так как причина самого этого заявления есть отсутствие видимых для заявителя противоречий в заявлении.

Это мы видим на примере СТО и ОТО, превратившихся в своеобразный вид религии, управляющей наукой и общественным мнением. Никакое количество фактов, противоречащих им, не может преодолеть формулу Эйнштейна: «Если факт не соответствует теории — измените факт» (В другом варианте » — Факт не соответствует теории? — Тем хуже для факта»).

Максимально, на что может претендовать «мысленный эксперимент» — это только на внутреннюю непротиворечивость гипотезы в рамках собственной, часто отнюдь не истинной логики заявителя. Соответсвие практике это не проверяет. Настоящая проверка может состояться только в действительном физическом эксперименте.

Эксперимент на то и эксперимент, что он есть не изощрение мысли, а проверка мысли. Непротиворечивая внутри себя мысль не может сама себя проверить. Это доказано Куртом Гёделем.

Понятие «мысленный эксперимент» придумано специально спекулянтами — релятивистами для шулерской подмены реальной проверки мысли на практике (эксперимента) своим «честным словом». Подробнее читайте в FAQ по эфирной физике.

Поисковый робот сайтов

Содержание

Первые поисковые роботы и индексация

Прежде чем понять, что такое роботы пауки поисковых систем и как это работает, нужно разобраться в том, что такое современная поисковая система. Свою популярность интернет начал набирать в 90е на территории стран СНГ.


Поисковая система того времени искала точные слова или словосочетания в тексте. Это доставляло массу неудобств, так как русский язык имеет занятную особенность. Одно и то же понятие можно сформулировать в 10-20 вариантах и получится одно и то же.

Все люди разные и мышление у каждого свое. Разработчик сайта не мог на то время прописывать по 20-30 точных фраз на странице, которые возможно моги бы использоваться для поиска данного материала.

Соответственно пользователь часто не мог найти интересующий его материал только потому, что его формулировка проблемы не совпадала с формулировкой в тексте.

Следует отметить, что тогда не было такой жесткой конкуренции и сайт продвигались совсем иначе. Раскруткой сайтов занималось очень мало людей, тогда эта область еще не была поставлена на конвейер, которым он является сейчас.

Это было просто не нужно, очень мало людей имело домашний компьютер и еще меньшее число позаботилось о подключении интернета. Любой магазин в сети был больше похож на объявление, приклеенное на столб, чем на то, что мы видим сейчас в интернете.

Все это очень тормозило развитие поисковых систем и всей кибер индустрии. К слову сказать, тогда уже были роботы поисковых машин и индексация. Вы уже понимаете, что выводилось в результатах поискового запроса.

Теперь следует объяснить, как именно были устроены первые самые простейшие поисковые роботы.

Для того чтобы просканировать текст нужно время. Сейчас это кажется смешным, текст стал настолько легким и незначительным в глазах современных компьютеров, что сложно представить себе машину, которая бы работала над ним несколько минут.

Однако так и работали компьютеры той эпохи. Значит, сканировать все тексты и материалы по запросу невыгодно по времени. В индекс заносились только заглавные названия и названия страниц.

Вот и объяснение, почему нельзя было разместить 20-30 вариантов с формулировками запроса. Так вот, задачей поискового робота являлась сканирование по запросу заглавных названий и названий страниц.

Сейчас поисковые роботы и индексация запущены в постоянную работу на мощнейших серверах, тогда же все работало по принципу «каждый сам за себя». Любой поиск совершался силами персонального компьютера, на котором был сделан запрос.

Пожалуй, в заключение рассказа о первых поисковых роботах можно добавить только то, что сайт глазами поискового робота выглядел как 2 строчки печатного текста.

Тогда поиск был не таким распространенным, сайты искали на досках объявлений, каталогах сайтов и по рекламе, а так же по рекомендации друзей и знакомых.

Каталоги сайтов – это один из тех реликтов, которые существую и сейчас, они заслуживают более подробного писания, позднее вы поймете, почему они больше не актуальны. Поисковые запросы того времени выглядели следующим образом:

  • «бесплатная игра»
  • «общение и знакомства»
  • «грустный стих»
  • «последние новости»

Поисковой робот Google

Приблизительно в 2003 году начал активно набирать обороты проект Google. То, на что сегодня молятся практически все люди, работающие в сфере SEO. Можно сказать, что если бы не Google, то не было бы никакого SEO, но об этом позднее.

Итак, в 2003 году уже существовали поисковые системы, которые гораздо более тщательно обрабатывали информацию и предлагали пользователю качественный поиск не только по названия страниц и заголовкам, а по самому тексту.

Тогда алгоритмы поиска работали, настолько криво, что никому и в голову не приходило пытаться их обмануть. На тот момент персональный компьютер уже не был роскошью, однако до современной популярности интернета было еще очень далеко.

Объем интернет аудитории рос с каждым днем, и многие предприимчивые люди сделали ставку на интернет бизнес.

Поиск текста в то время все еще работал по принципу точного вхождения, тогда незаметная компания Google начала свое восхождение на Олимп.

Этот сервис предлагал пользователю поиск информации по фразе, однако при поиске не учитывался падеж, в котором стояли слова. Код поискового робота Google для сайтов анализировал слова по значению и не учитывал падежи.

Такой тип поиска сразу же принес популярность этой поисковой системе. Чуть позже разработчики переделали алгоритм работы поискового робота так, что он начал использовать синонимизацию, стараясь найти наиболее подходящие тексты для пользователя.

На этом этапе развития, компания Google, уже была мировым лидером в сфере поиска. Случилось это из-за того, что в итоге пользователь, использовав любую формулировку, получал нужную ему информацию.

В то время началось изменение стандартной формулировки поисковых фраз.

Они начинали приобретать сегодняшний вид:

  • «бесплатные онлайн игры»
  • «сайт знакомств»
  • «грустные стихи»
  • «новости»

Можно наглядно проследить изменения в формулировке. Учитывая, что такие формулировки не очень характерны для описаний, поисковый робот Google, прекрасно справлялся с поставленной задачей.

В то время разгорался костер поисковой оптимизации, люди начали зарабатывать на сайтах. Конечно, всегда были специалисты, которые занимались продвижением интернет ресурсов, однако тогда начиналось более-менее массовое движение.

Люли стали интересоваться, как именно происходит ранжирование в поисковой выдаче, приходил ли поисковый робот на их сайт и это породило целый пласт науки о SEO. Эта область занималась изучением того, как роботы поисковых систем выполняют индексацию.

С тех пор о науке SEO продвижения написано большое количество материала, созданы специализированные сервисы и программы для улучшения влияния на поисковых роботов, которые можно скачать в интернете.

Задачей изучений было определение наиболее короткого пути к вершине списка поисковой выдачи. Уже тогда пользователи в первую очередь обращали внимание на верх страницы и первые результаты. Началась борьба за «топ».

Это была лишь тень сегодняшнего соперничества интернет ресурсов.

Поисковой робот Яндекс

На примере этой замечательной поисковой системы можно объяснить, что происходило с алгоритмами поиска в более позднее время. Яндекс занимал неплохие позиции и быстро вырос. Одним из самых популярных поисковых систем до эпохи Google, был такой сервис, как Рамблер.

Он был корифеем поиска, на его глазах поднялись Гугл и Яндекс. Когда то владельцам Рамблер было предложено купить за смешную сумму маленький интернет проект, но они отказались. Тем маленьким проектом был Яндекс.

Буквально за несколько лет эти два гиганта перегнали Рамблер, оставив его далеко позади. Возникает логический вопрос, почему же Гугл не вытеснила поисковый робот Яндекс, что же в нем особенного, как узнать как видит сайт поисковый робот, какими глазами, видят ли роботы iframe, где найти статистику заходов робота на сайт? Следует отметить, что размер этих двух поисковиков нельзя сравнивать, корпорация Google намного больше Яндекса. Однако на территории СНГ эти два конкурента почти на равных.

Яндекс вовремя понял, что универсальность – это не их конек. Попытки занять рынки других стран не увенчались успехом. В критический момент было принято решение развиваться в России и странах СНГ. Поисковый робот Яндекс делал упор на поиске в заданных регионах.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней.

В интернете существует много видов поисковых запросов, однако весомую долю среди них занимают те, которые актуальны для определенной области или региона. Именно на это определение и был заточен поисковый робот Яндекс.

Это и сделало его таким популярным на территории России.

Приведем пример того, какие бывают региональные запросы:

  • покупка чего-либо;
  • заказ услуг;
  • общение и знакомства;
  • доски объявлений;
  • новостные ресурсы.

Это далеко не все запросы, которые имеют актуальность только в определенном регионе. Яндекс сделал русский сегмент интернета непохожим на другие. Россия – это самая большая страна в мире, она разделена на регионы и имеет довольно большие территории.

Все это сделало возможным создание сайтов и продвижение их только в определенных областях, так как в других местах страны некоторые материалы неактуальны. Во многом на это повлияла система Яндекс, разделив интернет по участкам.

Почему же такая система не работает в других странах, почему там популярен Гугл? Эта система так же умеет определять местонахождения человека, отправившего запрос, его IP адрес, однако он не настолько много уделяет внимания местоположению.


Еще один пример, во Франции поисковые запросы совершаются на французском, а не английском, это преобладающий язык. А значит, язык в других странах является определяющим для поиска, вряд ли кто-то будет пользоваться поиском на Французском языке в Англии или же наоборот.

Если такое случиться, то пользователь сможет просмотреть сайты, которые относятся к стране с наибольшей популярностью языка.

Так и происходит поиск в других странах. Российский интернет является исключением, так как по языковому критерию невозможно разбить по регионам актуальные сайты.

Так что пока Яндекс более актуален для России, чем гугл, возможно, когда то этот гигант вытеснит всех конкурентов, но пока что не стоит бояться такого.

Роботы поисковых систем очень изменились за то время, в них добавилось много интересных нюансов в алгоритме поиска.

Вот список основных навыков поисковых роботов за последующие несколько лет:

  • анализ уникальности текста;
  • проверка информативности текста;
  • выделение ключевых слов по их количеству;
  • вычисление «веса» страниц;
  • обработка показателей отказа.

Эти показатели работали на то, чтобы максимально эффективно вычислить вычислить поисковому роботу как часто пользователь видит и читает текст, какова его информативность. Однако, все это не работало так, как было задумано. В то время поисковые системы попали в эру роботизированных текстов.

Это значит, что практически все популярные запросы выдавали не полезную информацию, а технически правильно написанный материал. Самое интересное, что такой текст очень редко был информативным и полезным.

С этим нужно было что-то делать, в разное время вводились некоторые изменения. Например, поисковый робот Google, была интегрирована система вычисления и подсчета показателей отказа.

Это значит, что поисковая система начала производить ранжирование с учетом того, насколько долго человек проводил времени на конкретной странице. Этот показатель вычисляется и сейчас.

Самым серьезным нововведением того времени было введение систем PageRank и тИЦ, от Google и Яндекс соответственно. Смысл этого значения состоял в том, чтобы вычислить вес страниц по принципу цитируемости.

Яндекс объясняет введение этой системы тем, что в научном сообществе существует показатель, который определяет актуальность научной работы. Называется этот показатель «Индекс цитируемости».

В зависимости от того, насколько много в различных работах ссылаются на данный текст, вычисляется их актуальность. Так роботы поисковых систем научились вычислять вес страниц путем сканирования входящих ссылок.

Это перевернуло мир SEO и поставило понятие раскрутки сайта в новую параллель. Теперь контента было недостаточно, чтобы вывести сайт в топ. Ему требовались внешние ссылки и грамотная система внутренней перелинковки.

Внутренняя перелинковка позволяла перебросить вес с одних страниц, на другие. Это стало очень удобным инструментом при управлении своего сайта.

Статейный маркетинг является эффективным способом привлечения целевой аудитории на сайт.

Что такое онлайн-консультант и кому он необходим? Узнайте об этом в нашей статье.

Вам нужно проверить, свободен ли домен? Воспользуйтесь сервисом, описанным здесь.

Уважаемые посетители, сохраните эту статью в социальных сетях. Мы публикуем очень полезные статьи, которые помогут Вам в вашем деле. Поделитесь! Жмите!

Современные поисковые роботы и индексация

Как мы видим, поисковой робот, который работал по этим алгоритмам, выдавал по запросу технические тексты, которые были не интересны пользователю.

Но аналога поисковой системы Google не было, она не теряла своей популярности, и ее разработчики поступили очень грамотно, переделав алгоритм поиска под нужды пользователя. На данный момент все существовавшие тогда уловки для работы с текстом, стали недействительными.

На данный момент поисковый робот Google для сайтов намного меньше уделяет вниманию анализу текста. Все усилия поисковика направлены на отсеивание технического материала, который создавался под поисковых роботов.

Анализируется много пунктов, не все они известны на данный момент, так как поисковые системы предпочитают держать такую информацию в тайне. Это нужно, чтобы не возникало подобных кризисов.

Такое развитие повлекло за собой множество изменений в SEO бизнесе. Во время кризиса роботизированных текстов все усилия оптимизаторов были направлены на то, чтоб сделать текст максимально комфортным для робота.

На данный же момент, алгоритмы поиска таковы, что больше нет смысла рассчитывать текст на робота. Гораздо больше результатов приносит материал, который интересен пользователю.

Достаточно провести минимальную оптимизацию, вводя в текст ключевые слова и сделать текст уникальным. Этого достаточно для поисковой системы, эти способы нужны скорее не для того, чтоб обмануть робота, а с той целью, чтоб облегчить ему задачу индексирования.

Следует отметить, что поисковый робот Google для сайтов, и сейчас учитывает «вес страниц» при ранжировании. Это один из самых основных показателей, который зарекомендовал себя за годы службы, нет причин думать, что он станет неактуальным.

Многие показатели анализа текста перестали учитываться или же им стало уделяться минимум внимания. Еще один интересный момент в работе поисковика Google.

Как уже говорилось выше, учитывается показатель отказов, это немного нарушает права пользователя об информационной анонимности, но такой способ позволяет реально определить качество сайта и данной страницы в частности.

Вот пример нескольких моментов, которые могут привести к повышению показателя отказов:

  • неактуальность материала;
  • долгая загрузка сайта;
  • технические проблемы с работой сервера;
  • большое количество рекламы;
  • слишком яркий дизайн сайта, который буквально «выжигает» глаза.

За время работы поисковых систем, оптимизаторы пытались приручить роботов. Однако, только начав приручать, он снова менялся и уже не хотел работать со старым материалом. Такие попытки были всегда, и наблюдать их можно будет, пока существует интернет.

Все из-за того, что понять робота можно, его анализ, запросы и требования к материалу гораздо проще, чем у человека. Их всегда будут пытаться разгадать. Однако всегда будут люди, которые будут создавать сайты для пользователей и в итоге они получат свое признание.

Хоть этот путь долг и тернист, а развитие ресурса таким путем очень долгое, но оно в любом случае будет долгосрочным, так как роботы поисковых систем всегда будут искать именно такой материал. Следует отметить, что такая конкуренция это хорошо.

Если бы поисковик сдал позиции, то мы бы не получали нужной информации через него. А если бы оптимизаторы сложили руки, то интернет перестал бы быть такой большой бизнес площадкой, и в нем бы не было многих материалов, так как на добровольной основе ресурсы развивались бы намного медленнее.

Как работает поисковая машина

Поисковые системыможно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных . При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Некоторые предприятия сами присылают данные о себе, и к ним агентам приезжать не приходится. Иными словами, справочная служба имеет две функции: создание и постоянное обновление данных в базе и поиск информации в базе по запросу клиента.

Аналогично, поисковая машина состоит из двух частей: так называемого робота (или паука), который обходит серверы Сети и формирует базу данных поискового механизма.

База робота в основном формируется им самим (робот сам находит ссылки на новые ресурсы) и в гораздо меньшей степени — владельцами ресурсов, которые регистрируют свои сайты в поисковой машине. Помимо робота (сетевого агента, паука, червяка), формирующего базу данных, существует программа, определяющая рейтинг найденных ссылок.

Принцип работы поисковой машины сводится к тому, что она опрашивает свой внутренний каталог (базу данных) по ключевым словам, которые пользователь указывает в поле запроса, и выдает список ссылок, ранжированный по релевантности.

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренними ресурсами (а не пускается в путешествие по Сети, как часто полагают неискушенные пользователи), а внутренние ресурсы, естественно, ограниченны. Несмотря на то что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Поэтому всегда существует вероятность, что искомый ресурс просто неизвестен конкретной поисковой системе.

Эту мысль наглядно иллюстрирует рис. 25. Эллипс 1 ограничивает множество всех Web-документов, существующих на некоторый момент времени, эллипс 2 — все документы, которые проиндексированы данной поисковой машиной, а эллипс 3 — искомые документы. Таким образом, найти с помощью данной поисковой машины можно лишь ту часть искомых документов, которые ею проиндексированы.

Рис. 29Схема, поясняющая возможности поиска

Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет. Увеличение внутренних ресурсов поисковой машины не может полностью решить проблему, поскольку скорость обхода ресурсов роботом конечна.


При этом считать, что поисковая машина содержит копию исходных ресурсов Интернета, было бы неправильно. Полная информация (исходные документы) хранится отнюдь не всегда, чаще хранится лишь ее часть — так называемый индексированный список, или индекс, который гораздо компактнее текста документов и позволяет быстрее отвечать на поисковые запросы.

Для построения индекса исходные данные преобразуются так, чтобы объем базы был минимальным, а поиск осуществлялся очень быстро и давал максимум полезной информации. Объясняя, что такое индексированный список, можно провести параллель с его бумажным аналогом — так называемым конкордансом, т.е. словарем, в котором в алфавитном порядке перечислены слова, употребляемые конкретным писателем, а также указаны ссылки на них и частота их употребления в его произведениях.

Очевидно, что конкорданс (словарь) гораздо компактнее исходных текстов произведений и найти в нем нужное слово намного проще, нежели перелистывать книгу в надежде наткнуться на нужное слово.

Построение индекса

Схема построения индекса показана на рис. 30. Сетевые агенты, или роботы-пауки, «ползают» по Сети, анализируют содержимое Web-страниц и собирают информацию о том, что и на какой странице было обнаружено.

Рис. 30 Роботы-пауки просматривают информационное наполнение Web-страниц и создают базу, на основе которой производится поиск

При нахождении очередной HTML-страницы большинство поисковых систем фиксируют слова, картинки, ссылки и другие элементы (в разных поисковых системах по-разному), содержащиеся на ней. Причем при отслеживании слов на странице фиксируется не только их наличие, но и местоположение, т.е. где эти слова находятся: в заголовке (title), подзаголовках (subtitles), в метатэгах (meta tags)или в других местах. При этом обычно фиксируются значимые слова, а союзы и междометия типа «а», «но» и «или» игнорируются. Метатэги позволяют владельцам страниц определить ключевые слова и тематику, по которым индексируется страница. Это может быть актуально в случае, когда ключевые слова имеют несколько значений. Метатэги могут сориентировать поисковую систему при выборе из нескольких значений слова на единственно правильное. Однако метатэги работают надежно только в том случае, когда заполняются честными владельцами сайта. Недобросовестные владельцы Web-сайтов помещают в свои метатэги наиболее популярные в Сети слова, не имеющие ничего общего с темой сайта. В результате посетители попадают на незапрашиваемые сайты, повышая тем самым их рейтинг. Именно поэтому многие современные поисковики либо игнорируют метатэги, либо считают их дополнительными по отношению к тексту страницы. Каждый робот поддерживает свой список ресурсов, наказанных за недобросовестную рекламу.

Очевидно, что если вы ищете сайты по ключевому слову «собака», то поисковый механизм должен найти не просто все страницы, где упоминается слово «собака», а те, где это слово имеет отношение к теме сайта. Для того чтобы определить, в какой степени то или иное слово имеет отношение к профилю некоторой Web-страницы, необходимо оценить, насколько часто оно встречается на странице, есть ли по данному слову ссылки на другие страницы или нет. Короче говоря, необходимо ранжировать найденные на странице слова по степени важности. Словам присваиваются весовые коэффициенты в зависимости от того, сколько раз и где они встречаются (в заголовке страницы, в начале или в конце страницы, в ссылке, в метатэге и т.п.). Каждый поисковый механизм имеет свой алгоритм присваивания весовых коэффициентов — это одна из причин, по которой поисковые машины по одному и тому же ключевому слову выдают различные списки ресурсов.

Слова в любом тексте в информационном отношении весьма неравнозначны. И дело не только в том, что текст содержит много вспомогательных элементов предлогов или артиклей (напр., в англоязычных текстах). Часто для сокращения объема индексных регистров и ускорения самого процесса индексации вводятся так называемые стоп-листы. В эти стоп-листывносятся слова, которые не несут смысловой нагрузки (например, предлоги или некоторые вводные слова). Но при использовании стоп-листов необходима определенная осторожность. Например, занеся в стоп-лист, неопределенный артикль английского языка «а», можно заблокировать нахождение ссылки на «витамин А».

Поскольку страницы постоянно обновляются, процесс индексирования должен выполняться постоянно. Роботы-пауки путешествуют по ссылкам и формируют файл, содержащий индекс, который может быть довольно большим. Для уменьшения его размеров прибегают к минимизации объема информации и сжатию файла. Имея несколько роботов, поисковая система может обрабатывать сотни страниц в секунду. Сегодня мощные поисковые машины хранят сотни миллионов страниц и получают десятки миллионов запросов ежедневно.

При построении индекса решается также задача снижения количества дубликатов — задача нетривиальная, учитывая, что для корректного сравнения нужно сначала определить кодировку документа. Еще более сложной задачей является отделение очень похожих документов (их называют «почти дубликаты»), например таких, в которых отличается лишь заголовок, а текст дублируется. Подобных документов в Сети очень много — например, кто-то списал реферат и опубликовал его на сайте за своей подписью. Современные поисковые системы позволяют решать подобные проблемы.

Современная поисковая система содержит в себе несколько подсистем.

§ web-агенты. Осуществляют поиск серверов, извлекают оттуда документы и передают их системе обработки.

§ Система обработки. Индексирует полученные документы, используя синтаксический разбор и стоп-листы (где, помимо прочего, содержатся все стандартные операторы и атрибуты HTML).

§ Система поиска. Воспринимает запрос от системы обслуживания, осуществляет поиск в индексных файлах, формирует список найденных ссылок на документы.

§ Система обслуживания. Принимает запросы поиска от клиентов, преобразует их, направляет системе поиска, работающей с индексными файлами, возвращает результат поиска клиенту. Система в некоторых случаях может осуществлять поиск в пределах списка найденных ссылок на основе уточняющего запроса клиента (например, recall в системе altavista). Задание системе обслуживания передается WEB-клиентом в виде строки, присоединенной к URL, наример, http://altavista.com/cgi-bin/query?pg=q&what=web&fmt=/&q=plug+%26+play, где в поле поиска было записано plug & play)

Следует иметь в виду, что работа web-агентов и системы поиска напрямую независимы. WEB-агенты (роботы) работают постоянно, вне зависимости от поступающих запросов. Их задача — выявление новых информационных серверов, новых документов или новых версий уже существующих документов. Под документом здесь подразумевается HTML-, текстовый или nntp-документ. WEB-агенты имеют некоторый базовый список зарегистрированных серверов, с которых начинается просмотр. Этот список постоянно расширяется. При просмотре документов очередного сервера выявляются URL и по ним производится дополнительный поиск. Таким образом, WEB-агенты осуществляют обход дерева ссылок. Каждый новый или обновленный документ передается системе обработки. Роботы могут в качестве побочного продукта выявлять разорванные гиперсвязи, способствовать построению зеркальных серверов.

Поиск по индексу

Поиск по индексузаключается в том, что пользователь формирует запрос и передает его поисковой машине. В случае когда у пользователя имеется несколько ключевых слов, весьма полезно использование булевых операторов.

Текст, в пределах которого проверяется действие логических операторов, называется единицей поиска. Это может быть предложение, абзац или весь документ. В разных поисковых системах могут использоваться различные единицы поиска. Например, можно искать документы, в которых два слова — «электрический» и «счетчик» — находятся одновременно в пределах предложения или в пределах всего документа. Соответственно поиск в пределах предложения возможен для тех систем, которые имеют в индексе подробный адрес.

Поисковые машины- это роботизированные системы (Search Engines). Специальная программа-робот, которую называют паук (spider) или ползун (crawler), постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами. Важными показателями качества поисковой машины являются объем базы данных (количество документов), скорость обхода Сети (с этим связана скорость обновления информации в базе данных), алгоритм индексации (только по ключевым словам Web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML — заголовкам, ссылкам, подписям к изображениям и др.), а также дополнительные возможности (расширенный поиск, поиск похожих документов, ограничение области поиска), удобный пользовательский интерфейс и справочная система.

Мощная поисковая машина обходит всю сеть за несколько дней. При этом составляется весьма свежий и довольно подробный индекс — опись доступных ресурсов. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что в индекс могут попасть дубликаты (один и тот же документ на разных сайтах, в разных кодировках). Поисковые машины индексируют фреймы покадрово, не индексируют редиректы, а иногда и скрипты. Кроме того, часть интернета для поисковых машин закрыта. Это информация, доступ к которой осуществляется по паролю, а также базы данных, доступ в которые осуществляется по запросу из формы (а не по ссылке).

(в пределах предложения)

(в пределах документа)

Яндекс Rambler Апорт! AltaVista Google
Зона поиска,объем базы данных Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам. Русская часть Интернета. Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3 Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео. Специализи-рованный поиск по университе-там США, Apple, Linux, BSD
Объем базы на начало 2001 года Более 31 миллионов документов Более 12 миллионов документов Более 14 миллионов документов Более 250 миллионов документов 1,25 миллиарда страниц
Тип индексации полнотекстовая индексация полнотекстовая индексация полнотекстовая индексация и индексация по ссылкам полнотекстовая индексация полнотекстовая индексация и индексация по ссылкам
Наличие дополнительных сервисов Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.). Система объединяет поисковую машину и рейтинг-классификатор Top100 Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.) Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.) Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц.
Синтаксис языка поиска
логическое И пробел или & (в пределах предложения)&&(в пределах документа) AND, &, пробел между словамипо умолчанию И, AND, &,+, пробел между словами по умолчанию AND, & (только при сложном поиске) по умолчанию для всех слов поиска
логическое ИЛИ | OR, | ИЛИ, OR, | OR (по умолчанию при простом поиске), | (только при сложном поиске) OR
бинарный оператор И-НЕ не используется заменяется префиксным оператором «-» (AND — пробел по умолчанию); НЕ, NOT AND NOT, ! (только при сложном поиске) заменяется префиксным оператором «-«
префиксы обязательных (+) и запрещенных (-) слов +, — не используются +, — +, — (только при простом поиске) +, —
группирование слов ( ) ( ) ( ) ( ) не используется
расстояние между ключевыми словами при поиске /(n m) — в словах, &&/(n m) — в предложениях (- назад, + вперед) при расширенном поиске — выдача документов только с минимальным расстоянием между словами сл2(. ), с2(. ), w2(. ), [2. ] (- назад, + вперед) NEAR (в пределах10 слов, только при сложном поиске) не используется
поиск фразы » « нет » «, ‘ ‘ » « » «, ‘ ‘, -..-
символы замены части слова нет *, ? (замена любого символа) * (только в конце слова) * нет
ограничение по языку документа выбор: любой, кириллица, латиница выбор: любой, русский, английский выбор: русский, английский выбор из 25 языков выбор из 25 языков
морфология все склонения и спряжения по умолчанию, ! (поиск точной словоформы) # (все формы слов), @ (однокоренные слова) ! (указание нормальной формы) нет нет
поиск по датам есть есть есть есть нет
ограничение поиска по полям Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в текстах ссылок, в названиях скриптов, объектов и апплетов. Поиск похожих документов. Сужение поиска на выбранные сайты. Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов. Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок. Сужение поиска на выбранные сайты. Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок, в названиях скриптов, объектов и апплетов Поиск в ссылках и Поиск похожих документов. Сужение поиска на выбранные сайты.
Возможности расширенной формы, качество помощи
настройка расширенной формы настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова по документу, заголовку, изображению,дате, 5 разделам (сайты, МР3, картинки, товары, новости) по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр. ограничения по сайту, языку, ссылкам
настройка вывода результатов задание числа результатов на странице, всех элементов формы вывода задание числа результатов на странице, формы вывода задание формы выдачи задание числа результатов на странице, всех элементов формы вывода задание числа результатов на странице, всех элементов формы вывода
ранжирование результатов поиска сортировка по релевантности или дате сортировка по релевантности или дате по популярности сайта по терминам, указанным в SORT по цитируемости (ссылок на страницу с других страниц)
итеративный поиск (в результатах поиска) Да. Выполняется с помощью установки флажка Да. Выполняется с помощью переключателя области поиска Да. Выполняется с помощью установки флажка Да. Выполняется с помощью SORT BY нет
качество раздела помощи имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях краткий раздел HELP подробный справочник по языку запросов, есть много русских синонимов для основных операторов самый большой из рассмотренных в этой таблице учебник on-line по языку запросов очень ограниченный раздел HELP
семейный фильтр есть нет нет есть нет

Синтаксис языка запросовв разных поисковых системах может отличаться, обычно в справочных данных на поисковом сервере приводится информация о синтаксисе запросов. В качестве примера в табл. приводится синтаксис языка запросов, принятый в поисковой машине Yandex.

Таблица 5. Синтаксис языка запросов при строгом поиске

Синтаксис Что означает оператор Пример запроса
Пробел или & Логическое И (в пределах предложения) Лечебная физкультура
&& Логическое И (в пределах документа) Рецепты && (плавленый сыр)
I Логическое ИЛИ Фото I фотография I снимок I фотоизображение
+ Обязательное наличие слова в найденном документе (работает также в применении к стоп-словам) +Быть или +не быть
() Группирование слов (Технология I изготовление) (сыра I творога)
Оператор И НЕ (в пределах документа) Банки

закон

Оператор И НЕ (в пределах документа) Путеводитель по Парижу

(агентство I тур)

/(n m) Расстояние в словах (

назад +вперед)

Поставщики /2 кофе музыкальное /(-2 4) образование вакансии

/+1 студентов

> (эквивалентно красная /+1 шапочка)
&&/(n m) Расстояние в предложениях (-назад +вперед) Банк && /1 налоги

Многие поисковые системы имеют режим «расширенный поиск». Например, в наиболее популярной на сегодня поисковой системе Google (www.google.com) этот режим дает возможность искать документы на определенном языке, измененные в определенное время или представленные в определенном формате, например Word-документ или презентацию Power Point.

После того как пользователь передал запрос поисковой системе, она обрабатывает синтаксис запроса и сравнивает ключевые слова со словами в индексе. После этого составляется список сайтов, отвечающих запросу, они ранжируются по релевантности и формируется результат поиска, который и выдается пользователю.

Несмотря на то что человек человеку всегда лучше объяснит, что же он ищет, нельзя сказать, что современные поисковые машины — это примитивные системы, которые, кроме как найти некоторую последовательность символов, ничего не могут. Напротив, существуют, например, поисковые системы позволяющие решать проблему различных словоформ. А это далеко не тривиальная задача. Если мы ищем документ по ключевому слову «стол», то, вероятно, документ, содержащий фразу «столы для кухни» — это то, что нам нужно. Однако «стол» и «столы» для системы, осуществляющей формальное сравнение, — это разные слова. Поиск, учитывающий словоизменения, называется морфологическим поиском.

Сайт с нуля

Создание сайта. Продвижение сайта. Заработок на сайте.

Что такое поисковые роботы?

Поисковые роботы, иногда их называют «пауки» или «кроулеры» (crawler) — это программные модули, занимающиеся поиском web-страниц. Как они работают? Что же они делают в действительности? Почему они важны?

Эти специальные программы, на самом деле, обладают лишь базовыми функциями, похожими на те, которыми обладали одни из первых браузеров, в отношении того, какую информацию они могут распознать на сайте. Как и ранние браузеры, роботы попросту не могут делать определенные вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте.

Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда, зайдя на страницу «Submit a URL», вы регистрируете очередную web-страницу в поисковике — в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Придя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google’s «Googlebot». Другие более скрытые, как, например, Inktomi’s «Slurp». Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться браузерами, которыми управляют люди.


Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы вашего web-сайта?

Когда поисковый робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы. Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель осуществляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть бессилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.

Поисковый робот

Принцип работы

Поисковый робот — это программа браузерного типа. Он постоянно сканирует сеть: посещает проиндексированные (уже известные ему) сайты, переходит по ссылкам с них и находит новые ресурсы. При обнаружении нового ресурса робот процедур добавляет его в индекс поисковика. Поисковый робот также индексирует обновления на сайтах, периодичность которых фиксируется. Например, обновляемый раз в неделю сайт будет посещаться пауком с этой частотой, а контент на новостных сайтах может попасть в индекс уже через несколько минут после публикации. Если на сайт не ведет ни одна ссылка с других ресурсов, то для привлечения поисковых роботов ресурс необходимо добавить через специальную форму (Центр вебмастеров Google, панель вебмастера Яндекс и т.д.).

Виды поисковых роботов

Пауки Яндекса:

  • Yandex/1.01.001 I — основной бот, занимающийся индексацией,
  • Yandex/1.01.001 (P) — индексирует картинки,
  • Yandex/1.01.001 (H) — находит зеркала сайтов,
  • Yandex/1.03.003 (D) — определяет, соответствует ли страница, добавленная из панели вебмастера, параметрам индексации,
  • YaDirectBot/1.0 (I) — индексирует ресурсы из рекламной сети Яндекса,
  • Yandex/1.02.000 (F) — индексирует фавиконы сайтов.

Пауки Google:

  • Робот Googlebot — основной робот,
  • Googlebot News — сканирует и индексирует новости,
  • Google Mobile — индексирует сайты для мобильных устройств,
  • Googlebot Images — ищет и индексирует изображения,
  • Googlebot Video — индексирует видео,
  • Google AdsBot — проверяет качество целевой страницы,
  • Google Mobile AdSense и Google AdSense — индексирует сайты рекламной сети Google.

Другие поисковики также используют роботов нескольких видов, функционально схожих с перечисленными.

Технологии | Поисковая оптимизация: как читают тексты интернет-пользователи и роботы

Ната­лья Бара­но­ва

Всего материалов: 583

Поисковая оптимизация: как читают тексты интернет-пользователи и роботы

Как видят веб-стра­ни­цы люди и поис­ко­вые систе­мы? Отли­ча­ет­ся ли их образ чте­ния и чем? Какие эле­мен­ты нуж­но исполь­зо­вать в ста­тье, что­бы она была понят­ной и удоб­ной для про­смот­ра? Отве­ты на эти вопро­сы кор­ре­спон­ден­ту Теп­ли­цы предо­ста­вил началь­ник отде­ла мар­ке­тин­га интер­нет-агент­ства «Адван­ти­ка» Евге­ний Кузь­ми­чёв.

Привычки пользователя

Люди чита­ют тек­сты по-раз­но­му. Кто-то вни­ма­тель­но вчи­ты­ва­ет­ся в текст, изу­ча­ет его от пер­вой до послед­ней строч­ки, дру­гие лишь про­смат­ри­ва­ют изоб­ра­же­ния. По мне­нию Евге­ния Кузь­ми­чё­ва, имен­но кар­тин­ки и заго­лов­ки ста­но­вят­ся глав­ной при­чи­ной, поче­му поль­зо­ва­тель задер­жи­ва­ет взгляд на тек­сте. «Яркая визу­аль­ная инфор­ма­ция все­гда вос­при­ни­ма­ет­ся быст­рее и луч­ше. Часто поль­зо­ва­те­ли, уви­дев­шие вызы­ва­ю­щую кар­тин­ку, реша­ют про­чи­тать текст, кото­рый нахо­дит­ся рядом с ней и, ско­рее все­го, пред­став­ля­ет инте­рес», – отме­тил экс­перт.

Заго­лов­ки – еще одна деталь, кото­рая может «заце­пить». По мне­нию Кузь­ми­чё­ва, про­фес­си­о­наль­ные копи­рай­те­ры и мар­ке­то­ло­ги часто исполь­зу­ют кри­ча­щие заго­лов­ки, кото­рые застав­ля­ют узнать подроб­но­сти из тек­ста, про­чи­тать опи­са­ние.

Выявить еди­ный про­цесс чте­ния у интер­нет-поль­зо­ва­те­лей почти невоз­мож­но. Даже один и тот же чело­век может читать текст по-раз­но­му в зави­си­мо­сти от вре­ме­ни суток и настро­е­ния. Но чита­те­ля нуж­но вести, зама­ни­вать фор­мой, удоб­ной и понят­ной струк­ту­рой ста­тьи. Сде­лать все, что­бы упро­стить про­цесс чте­ния.

Евгений Кузьмичёв выделил несколько элементов, которые сильно влияют на желание прочитать текст

  1. Яркий заго­ло­вок.
  2. Ввод­ный абзац, кото­рый увле­ка­ет чита­те­ля и застав­ля­ет читать даль­ше.
  3. Основ­ная суть тек­ста (пре­иму­ще­ства това­ра или услу­ги, опи­са­ние собы­тия) долж­на быть лако­нич­ной, без лиш­ней «воды».
  4. Текст раз­бит на неболь­шие абза­цы (опти­маль­ным счи­та­ет­ся абзац, состо­я­щий из 4–6 строк).
  5. Пред­ло­же­ния отно­си­тель­но корот­кие, не име­ют мно­же­ства вто­ро­сте­пен­ных чле­нов и смыс­ло­вых частей.
  6. Пере­чис­ле­ния оформ­ле­ны в виде удоб­ных для чте­ния спис­ков.
  7. Кон­траст­ный цвет тек­ста, удоб­ный шрифт, не слиш­ком мел­кий и не слиш­ком круп­ный кегль.
  8. Отсут­ствие грам­ма­ти­че­ских, пунк­ту­а­ци­он­ных и иных оши­бок.

К при­ме­ру, нали­чие спис­ков в ста­тье упро­ща­ет зада­чу чита­те­ля – про­чи­тав несколь­ко пунк­тов, он смо­жет понять смысл все­го тек­ста. Это брос­кий эле­мент в тек­сте, кото­рый чита­тель начи­на­ет изу­чать про­из­воль­но, имен­но пото­му, что он выде­лен на фоне все­го тек­ста.

Вот что видит поль­зо­ва­тель, кото­рый зашел на стра­ни­цу сай­та Теп­ли­цы. Скрин­шот с сай­та te-st.ru

А это напи­са­но в коде сай­та, кото­рый и видит поис­ко­вой робот.

Что видят роботы

Поис­ко­вые робо­ты видят стра­ни­цы и тек­сты не так, как поль­зо­ва­те­ли. «В отли­чие от поль­зо­ва­те­ля, поис­ко­вик «про­чи­та­ет» весь текст на стра­ни­це, если он не закрыт от индек­са­ции. У него нет воз­мож­но­сти пере­ду­мать после пер­во­го скуч­но­го абза­ца и закрыть неин­те­рес­ную стра­ни­цу», – уточ­нил Евге­ний Кузь­ми­чёв.

По сло­вам экс­пер­та, рань­ше робо­ты раз­ли­ча­ли отдель­ные сло­ва и фра­зы, мог­ли уло­вить коли­че­ство исполь­зо­ва­ния каж­до­го сло­ва в тек­сте, но при этом было почти без­раз­лич­но, чита­ют ли они исто­рию о друж­бе или инструк­цию по ремон­ту гене­ра­то­ра. «Любой текст для поис­ко­ви­ка – это набор сим­во­лов и тегов. Даже если текст не раз­бит на абза­цы, выде­лен нечи­та­е­мым цве­том или име­ет мас­су про­пу­щен­ных запя­тых, он будет вос­при­нят и про­чи­тан», – отме­тил Кузь­ми­чёв.

В послед­ние пару лет Google и Яндекс исполь­зу­ют новые тех­но­ло­гии на осно­ве улуч­шен­ных алго­рит­мов чте­ния и вос­при­я­тия тек­стов.

«Поис­ко­вые робо­ты отлич­но уме­ют опре­де­лять «скры­тый» текст (напри­мер, белые бук­вы на белом фоне), грам­ма­ти­че­ские ошиб­ки, излиш­нюю заспам­лен­ность и мно­же­ство дру­гих фак­то­ров, кото­рые «меша­ют» поль­зо­ва­те­лю полу­чать инфор­ма­цию. Несо­мнен­но, это нега­тив­но отра­жа­ет­ся на пози­ци­ях сай­та в поис­ко­вой выда­че», – объ­яс­нил ново­вве­де­ния Кузь­ми­чёв.

Более того, раз­ви­тие ней­рон­ных сетей поз­во­ли­ло пони­мать смысл целых пред­ло­же­ний, абза­цев и в неко­то­рых слу­ча­ях даже цело­го тек­ста. То есть для поис­ков стал важен имен­но семан­ти­че­ский смысл. Таким обра­зом устро­е­ны алго­рит­мы «Палех» у Яндек­са и RankBrain у Google.

Сей­час глав­ная цель модер­ни­за­ции алго­рит­мов – пока­зать поль­зо­ва­те­лю толь­ко полез­ный кон­тент. По сло­вам экс­пер­та, поис­ко­вые робо­ты все бли­же к тому, что­бы «видеть» текст, как чело­век: учи­ты­вать фор­ма­ти­ро­ва­ние, визу­аль­ное оформ­ле­ние, гра­мот­ность и смысл напи­сан­но­го.

Что­бы узнать, как поис­ко­вые боты видят текст, мож­но вос­поль­зо­вать­ся спе­ци­аль­ны­ми инстру­мен­та­ми, напри­мер, от Google «Посмот­реть как Googlebot».


Поисковые роботы Текст научной статьи по специальности « Автоматика. Вычислительная техника»

Похожие темы научных работ по автоматике и вычислительной технике , автор научной работы — Маркова Т.И., Захарова К. В.,

Текст научной работы на тему «Поисковые роботы»

Маркова Т.И., Захарова К. В.

Алгоритм работы поисковых роботов

Трудно представить сегодня Интернет без информационно-поисковых систем (ИПС). ИПС это стартовая точка для всех пользователей Интернет. Когда пользователю нужно найти сайт определенной тематики, можно зайти на web-сайт ИПС ввести несколько ключевых слов, и через сотые доли секунды поисковая система выдаст результаты, которые будут подходить запросу пользователя.

Одной из основных частей классической ИПС является поисковый робот («вебпаук», паук, спайдер, краулер) — специальная программа, которая является составной частью поисковой системы и предназначается для обхода страниц Интернета, чтобы занести информацию о них (ключевые слова) в базу поисковика.

По своей сути сам поисковый робот, в наибольшей степени, напоминает обычный браузер. Он сканирует содержимое web-страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Роботы не понимают фреймов, Flash-анимаций, изображений или JavaScript-ов. Они не могут зайти в разделы, защищенные паролем, и не могут нажимать на кнопочки, которые есть на сайте. В процессе индексирования динамических адресов URL они могут работать очень медленно, вплоть до полной остановки и бессильны перед JavaScript-навигацией.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.

Иногда web-мастер хочет скрыть содержание некоторых страниц и сделать их недоступными для индексации. Ограничить индексацию сайта можно с помощью файла robots.txt (это файл, который указывает поисковому роботу, какие файлы и папки можно индексировать, а какие нет), однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.

Disallow: /cgi/ # запрет индексации папки cgi

Большинство пользователей интернет ищут информацию о нужных товарах и услугах, прибегая к помощи ведущих поисковых систем, таких как Yandex, Rambler, Google, Aport. Эти поисковики дают сайту 60%, 17%, 15%, 2% посетителей -соответственно. При этом почти 90% всех пользователей довольствуются результатами выдачи первой «десятки» по заданным запросам, и только 10% пользователей идут на

вторую страницу и менее 3% далее. Именно поэтому владельцам сайта так важна оптимизация их сайта для попадания его в «десятку» выдачи по запросу, и особенно Яндекса.

Перед тем как представить алгоритм работы поисковой системы, рассмотрим виды поисковых роботов (таблица 1).

Таблица 1 — Виды поисковых роботов

Название Назначение Примечание

Национальный поисковый робот (главный поисковый робот) Сбор информации с одного национального домена и web-ресурсов, принятых к индексации в базу данных поисковой системы (пример: .ru, .su). В локальных поисковых системах.

Глобальный поисковый робот Сбор информации с национальных web-ресурсов. Может быть один или несколько. В глобальных поисковых системах.

Индексатор картинок Отвечает за индексацию графики. Наблюдает *

Индексатор аудио- и видеофайлов Отвечает за индексацию аудио-и видеофайлов. Наблюдает *

Робот-зеркальщик Определяет зеркала web-ресурсов.

Ссылочный робот Отвечает за подсчет числа ссылок на ресурсе. PageRank, Индекс цитирования и т.д.

Робот-оформитель Отвечает за оформление результатов, выдаваемых поисковой системой. Например, обращающийся к web-странице по ссылке «Найденные слова» и выделяющий слова запроса в ее тексте. У Yandex — робот-подсветчик.

Проверяющий робот Проверяет наличие web-ресурса в базе данных поисковой системы и количество проиндексированных документов.

Робот-стукач Один или несколько роботов, определяющих, доступен ли в данный момент ресурс, на который стоит ссылка в соответствующем сервисе. Если не доступен в течение некоторого времени, то он удаляется из базы данных. ** Иначе — «агент стукач» ***

Робот-шпион Ищет ссылки на web-ресурсы, которых нет в базе данных поисковой системы. Поисковая система стремится увеличивать свою базу данных автоматически.

Быстрый робот Проверяет дату последнего обновления. Работает в автоматическом режиме.

Робот-исследователь Предназначен для отладки алгоритма работы поисковой Запускается в ручном режиме. Может быть

Название Назначение Примечание

системы или исследования конкретных web-ресурсов. объединен с роботом-смотрителем.

Робот-смотритель Предназначен для перепроверки полученных результатов. Запускается в ручном режиме. Может быть объединении с роботом-исследователем.

* Графику, аудио- и видеофайлы поисковые роботы не распознают. Могут определить количество, размер, дату создания и тип файла. Поэтому просто наблюдают за файлами таких типов.

** Некоторые поисковые системы через какое-то время перепроверяют доступен ли web-ресурс. Как только ресурс начинает отвечать, он автоматически появляется в результатах поиска. А некоторые поисковые системы, при недоступности web-ресурса, исключают его.

*** Существует целый ряд роботов, основная задача которых — периодическая автоматическая проверка определенных web-ресурсов с последующим сбором информации.

Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда регистрируется очередная web-страница в поисковике, в очередь для просмотра сайтов роботом добавляется новый URL. Даже если не регистрировать страницу, множество роботов найдут сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на эту страницу. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Приходя на сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

«Остроумность» в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Также есть возможность просмотреть, какие страницы сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Лог-файл — это файл, содержащий системную информацию о работе сервера и информацию о действиях пользователя. Эта информация используется для анализа и оценки сайтов и их посетителей. Идентифицируя роботов, будет видно, когда они посетили сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google’s «Googlebot». Другие более скрытые, как, например, Inktomi’s «Slurp». Другие роботы так же могут встречаться в логах, и не исключено, что нельзя будет их сразу идентифицировать; некоторые из них могут даже оказаться браузерами, которыми управляют люди.

Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы web-сайта?

Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель осуществляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если попасть в базу данных, роботы будут навещать периодически сайт для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.


Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если сайт «упал» или на сайт идет большое количество посетителей, робот может быть бессилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован. В большинстве случаев, роботы, которые не смогли достичь страниц, попытаются сделать это позже, в надежде на то, что сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда владельцы сайта просматривают «логи». Они могут посещать страницы, но «логи» утверждают, что кто-то использует Microsoft браузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).

В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.

Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.

Существуют роботы, которые проверяют баз данных на наличие нового содержания; проверяют старое содержимое базы; проверяют, не изменились ли ссылки; загружают целые сайты для просмотра и так далее.

По этой причине чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.

В заключение можно отметить, что:

— алгоритм любой поисковой системы создают люди, следовательно, в нем могут быть ошибки как технические, так и обусловленные субъективностью ранжирования результатов;

— можно разработать сколько угодно специализированных поисковых роботов, но конечную оценку качества результатов запросов поисковой системы дают ее пользователи;

— технически невозможно гарантировать занятие web-ресурсом конкретного рейтинга в поисковых системах по нескольким ключевым словам или фразам. Можно лишь прогнозировать усредненный рейтинг для широкого круга ключевых слов или фраз, соответствующих предлагаемым web-ресурсом товарам и услугам, или достаточно близких по тематике.

10 перспективных поисковых роботов для улучшения SEO

Выполните тщательную SEO проверку своего сайта для улучшения ранжирования в поиске.

Поисковая оптимизация — это непрерывный процесс улучшений, существует множество онлайн-инструментов для анализа вашего сайта и предоставления необходимой информации, с которых хорошо начинать этот процесс.

Однако, если вам необходимо более детально изучить различные элементы SEO, тогда стоит рассмотреть возможность использования более продвинутых, комплексных инструментов.

Что такое веб-краулер?

Краулер – это программа/скрипт, позволяющий автоматически просматривать сайт. Его еще называют веб-паук или веб-робот. Многие известные сайты используют спайдеринг как средство предоставления актуальных данных.

Выгоды от использования поискового робота:

  • вы можете контролировать процесс получения данных, интервал проверки;
  • он работает в фоновом режиме, как правило не влияя на производительность сайта;
  • не требует каких-то предварительных знаний;
  • возможны массовая проверка и редактирование.

Давайте рассмотрим некоторые из лучших поисковых роботов:

Ahrefs

Ahrefs – это хорошо известный инструмент SEO, который предоставляет лучшие и очень точные данные для профессионалов цифрового маркетинга.

По сравнению с другими инструментами он имеет наиболее значимый индекс обратных ссылок. Используя этот инструмент, вы можете проверить SEO своих конкурентов и улучшить свои стратегии.

Давайте посмотрим на некоторые показатели Ahrefs:

  • 6 миллиардов веб-страниц обрабатываются ежедневно;
  • 12 триллионов интернет-ссылок проверяется;
  • 200 миллионов доменов отслеживается;
  • 5,9 миллиарда ключевых слов.

Огромные цифры, не так ли?

Свойства

  • аналитический отчет о конкурентном поиске;
  • изучение обратных ссылок;
  • отслеживание ранжирования;
  • веб-мониторинг;
  • интенсивное изучение ключевых слов;
  • дает комплексный анализ SERP (search engine result page);
  • проверка сайта;
  • проверка «сломанных» ссылок;
  • и многое другое.

Facebook, LinkedIn, Shopify, Uber и другие используют Ahrefs.

SEMrush

Комплексное маркетинговое программное обеспечение, которое предназначено исключительно для SEO, анализа социальных сетей, трафика и контента.

SEMrush — это программа, которую используют все блоггеры для оптимизации своих сайтов и создания благоприятного впечатления на пользователей. Она может помочь вам извлечь максимальную выгоду от своего сайта с помощью таргетирования по ключевым словам и очень полезного анализа конкурентов вплоть до их обратных ссылок.

Свойства

  • поиск и исправление технических неисправностей;
  • создание надежного списка ключевых слов;
  • создание хорошо структурированных элементов контента;
  • привлечение большего трафика;
  • отслеживание и анализ отчетов;
  • поиск негативного SEO.

Для того, чтобы понять, как работает SEMrush, вы можете начать с 7-дневной пробной версии.

SEO Spider

Spider от Screaming Frog – это скачиваемое программное обеспечение для macOS, Windows, Ubuntu, доступное как в бесплатной, так и в платной версии.

Бесплатная версия может обрабатывать не более 500 страниц.

Свойства

  • обнаружение дублирующегося контента;
  • обзор роботов и других директив;
  • интеграция с Google-аналитикой;
  • способность находить «сломанные» ссылки;
  • исследование элементов страницы для каждого проверенного URL;
  • возможность указания кодов состояния HTTP;
  • обработка заданного перечня URL;
  • регулярные обновления.

SEO spider — мощный и гибкий инструмент, позволяющий осуществлять сбор информации как на маленьких, так и на больших сайтах.

Sitebulb

Sitebulb совмещает высококачественный анализ и визуализацию данных. Это удобное для пользователей приложение на Windows и Mac.

Пользователям больше не нужно беспокоиться о нестандартных электронных таблицах или дорогостоящих программных продуктах.

Свойства

  • сотни готовых рекомендаций, которые выделяют важные проблемы и показывают, на чем стоит сосредоточиться;
  • графики и диаграммы, помогающие разобраться в данных;
  • всесторонние отчеты, предоставляющие уникальную и содержательную информацию для каждой области;
  • мощный внутренний поисковый механизм;
  • визуализация охватывает все – от мельчайших подробностей до самого основного;
  • возможность диагностировать проблемы, связанные со структурой сайта.

Попробуйте 14-дневную бесплатную версию Sitebulb.

Seomator

Seomator — это инструмент для мониторинга и аудита как технических, так и архитектурных характеристик веб-сайта, отправляющий после проверки полный аналитический отчет на вашу почту и указывающий при этом области, нуждающиеся в улучшении.


Он принимает во внимание внешнюю и внутреннюю оптимизацию, характеристики скорости загрузки сайта, удобство использования на мобильных устройствах и качество контента, а затем предоставляет все эти данные в консолидированном и структурированном отчете.

Свойства

  • предоставляет предупреждения и рекомендации;
  • ограниченное количество URL;
  • идеально подходит для небольших и средних SEO агентств;
  • включает ребрендинг собственных SEO отчетов;
  • встраиваемый виджет отчетов подходит для интеграции с поставщиками SEO, что позволяет их клиентам загружать отчеты со своего сайта напрямую.

Seomator находит более 65 типов проблем.

DeepCrawl

DeepCrawl — это управляемый облачный краулер, который помогает анализировать ваш сайт, понимать технические причины для повышения эффективности SEO.

Свойства

  • регулярный мониторинг сайта;
  • оптимизация архитектуры сайта и UX;
  • помощь в определении приоритетов и информировании об ошибках;
  • восстановление после санкций в Panda и Penguin.

Попробуйте DeepCrawl и узнайте, как он может помочь вашему онлайн-бизнесу.

OnCrawl

OnCrawl — это поисковый робот, работающий через веб-интерфейс и анализирующий логи для качественного аудита и ежедневного мониторинга.

Он предоставляет подробную картину влияния SEO на различные атрибуты веб-сайта. Пользовательский интерфейс довольно привлекательный и формирует понятное представление о многих вещах.

Свойства

  • позволяет отслеживать активность роботов поисковых систем, чтобы понять как они воспринимают веб-сайт;
  • возможности анализатора логов помогают понять, как Google взаимодействует с сайтом и дают представление о потенциальных улучшениях сайта;
  • оценивает качество контента, чтобы помочь вам улучшить его по мере необходимости;
  • помогает устранить дублирующий контент с сайта;
  • мониторинг производительности сайта и внутренних ссылок для поиска неработающих ссылок;
  • помогает лучше понять органический трафик.

14-дневная бесплатная пробная версия доступна без предоставления данных кредитной карты.

Raventool

Raventool предназначен для управления SEO и рекламными кампаниями.

С помощью этого инструмента ваша организация может моментально проводить исследования и анализ, отслеживать поисковые системы и сотрудничать с другими членами команды.

Свойства

  • автоматическое индексирование и подготовка маркетинговых отчетов;
  • доступ к некоторым представителям данных, включая Google-аналитику;
  • подробные, легко генерируемые PDF-файлы;
  • удобная организация представления информации.

Raven подготовил подробную документацию для изучения всех его инструментов.

Serpstat

Комплексный раразвивающийся инструмент для PPC, контент-маркетинга и SEO. Serpstat предоставляет все необходимое усовершенствования развития.

  • изучение SERP;
  • исследование ключевых слов, обратных ссылок, текста, конкурентов;
  • отслеживание ранжирования;
  • проверка сайта.

Serpstat также предлагает API для отслеживания местоположения, ключевых слов и др.

Список не будет полным, если не включить в него Moz.

Это один из популярных инструментов SEO для проведения исследований, оптимизации, совершенствования и проверки.

Moz предлагает 30-дневную пробную версию.

Заключение

Выбор краулера сводится к задаче нахождения наиболее подходящего инструмента именно для вашей работы и в рамках вашего бюджета. Большинство из перечисленных сервисов предлагают несколько бесплатных дней для того, чтобы изучить их и понять, подходят ли они вам.

Как работают поисковые роботы

Читать нас

Поисковые системы | Социальные сети Новости и обсуждения Google, Яндекс, Rambler, Yahoo, Aport, VK, OK, Twitter, Facebook, YouTube.

Ссылки сообщества
Социальные группы
Изображения и альбомы
Пользователи
Поиск по форуму
Поиск по метке
Расширенный поиск
Найти все сообщения с благодарностями
К странице.
Страница 1 из 3 1 2 3 >

Роботы поисковой системы, иногда их называют или (crawler) — это программные модули, занимающиеся поиском web-страниц. Как они работают? Что же они делают в действительности? Почему они важны?

Учитывая весь шум вокруг поисковой оптимизации и индексных баз данных поисковиков, вы, наверное думаете, что роботы должно быть великие и могущественные существа. Неправда. Роботы поисковика обладают лишь базовыми функциями, похожими на те, которыми обладали одни из первых броузеров, в отношении того, какую информацию они могут распознать на сайте. Как и ранние броузеры, роботы попросту не могут делать определенные вещи. Роботы не понимают фреймов, Flash анимаций, изображений или JavaScript. Они не могут зайти в разделы, защищенные паролем и не могут нажимать на все те кнопочки, которые есть на сайте. Они могут «заткнуться» в процессе индексирования динамических адресов URL и работать очень медленно, вплоть до остановки и безсилием над JavaScript-навигацией.

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда, зайдя на страницу «Submit a URL», вы регистрируете очередную web-страницу в поисковике — в очередь для просмотра сайтов роботом добавляется новый URL. Даже если вы не регистрируете страницу, множество роботов найдет ваш сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на ваш. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Прийдя на ваш сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

«Остроумность» в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Вы можете просмотреть, какие страницы вашего сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Идентифицируя роботов, вы увидите, когда они посетили ваш сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google’s «Googlebot». Другие более скрытые, как, например, Inktomi’s «Slurp». Другие роботы так же могут встречаться в логах и не исключено, что вы не сможете сразу их идентифицировать; некоторые из них могут даже оказаться броузерами, которыми управляют люди.

Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать вам агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы вашего web-сайта?

Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде вашей страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель существляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если вы уже попали в базу данных, роботы будут навещать вас периодически для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если ваш сайт упал или на сайт идет большое количество посетителей, робот может быть безсилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован, что зависит от частоты его посещения роботом. В большинстве случаев, роботы, которые не смогли достичь ваших страниц, попытаются позже, в надежде на то, что ваш сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда вы просматриваете логи. Они могут посещать вас, но логи утверждают, что кто-то использует Microsoft броузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).

В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.

Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.

Собственно, роботы не используются поисковиками лишь для вышеизложенного. Существуют роботы, которые проверяют баз данных на наличие нового содержания, навещают старое содержимое базы, проверяют, не изменились ли ссылки, загружают целые сайты для просмотра и так далее.

По этой причине, чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.

Мастер Йода рекомендует:  Наиболее простой язык программирования для новичков - PHP или Python
Добавить комментарий
25.02.2009, 00:30 #1