2.1. Обзор поисковые систем (машины) и каталогов
Поисковые машины - это роботизированные системы (Search Engines). Специальная программа-робот, которую называют паук (spider) или ползун (crawler), постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных.
Все поисковые машины, предназначенные для сети Интернет, имеют более или менее схожие принципы работы. Компактные копии документов, известных серверам поисковых систем, хранятся на локальном диске. Каждая из "искалок" опрашивает свой внутренний каталог по ключевым словам или фразам, которые Вы указываете при определении сценария поиска. Различие состоит лишь в объёме просматриваемой информации и алгоритме поиска, плюс, в наличии дополнительных сервисов (например, встроенных тематических каталогов или рейтинга индексируемых страниц). Невероятно распространено заблуждение, что во время поиска по Вашему запросу избранная "искалка" обходит миллионы известных ей адресов и сверяет соответствие ключевых слов содержимому "свежих" гипертекстов. Не так! Поиск ведется в базе локальной машины, а в ответ на Ваш запрос выдаются подходящие адреса во всех концах Паутины. Безусловно, поисковая машина ведёт постоянный опрос узловых адресов в Сети, пополняя собственную базу данных. Однако, не огорчайтесь, если любимая поисковая машина не обнаружила свежей информации, о существовании которой Вам достоверно известно, или выдала устаревший несуществующий адрес. Ведь, если бы "искалка" при каждом запросе опрашивала всю Сеть, боюсь, Вы никогда бы не получили результата поиска. В значительной степени, доступность документа для поисковой системы зависит от его автора. В его власти использовать в гипертексте наиболее запрашиваемые ключевые слова, разместить документ на доступном для основных поисковых машин сервере и не забыть заявить о себе поисковым службам международной сети Интернет.
Поскольку поисковые машины существуют в Интернете, в основном, за счёт публикуемой рекламы, как правило, самые популярные системы поиска могут предоставить Вам наилучшие возможности. Для рядового юзера услуги поисковых серверов, как правило, предоставляются бесплатно. Достаточно лишь указать адрес поисковой системы в рабочей строке браузера или обратиться к ней через каталог закладок.
2.1.1. Обзор поисковые систем (машины)
Таблица 2.1.
Сводная таблица по ведущим поисковым машинам
|
|
Яндекс |
Rambler |
Апорт! |
AltaVista |
|
|
Зона поика, объем базы данных |
Русская часть Интернета. Поиск по страницам сайтов из раздела каталога, по регионам. Специальный поиск по новостям, товарам, картинкам. |
Русская часть Интернета. |
Русская часть Интернета. Специализи-рованный поиск по новостям, товарам, картинкам, MP3 |
Специализи-рованный поиск по новостям, товарам, развлечениям, аудио (MP3) и видео. |
Специализи-рованный поиск по университетам США, Apple, Linux, BSD |
|
Объем базы на начало 2001 года |
Более 31 миллионов документов |
Более 12 миллионов документов |
Более 14 миллионов документов |
Более 250 миллионов документов |
1,25 миллиарда страниц |
|
Тип индексации |
полнотекстовая индексация |
полнотекстовая индексация |
полнотекстовая индексация и индексация по ссылкам |
полнотекстовая индексация |
полнотекстовая индексация и индексация по ссылкам |
|
Наличие дополнительных сервисов |
Система объединяет поисковую машину и каталог, а также ряд дополнительных проектов (Закладки.Ру, Народ.Ру, система интеллектуального выбора товаров, CY и пр.). |
Система объединяет поисковую машину и рейтинг-классификатор Top100 |
Система объединяет поисковую машину, каталог и дополнительные сервисы (интернет-покупки и др.) |
Система объединяет поисковую машину, каталог и ряд дополнительных сервисов (хостинг, регистрация доменного имени, перевод и др.) |
Система объединяет поисковую машину и каталог, содержащий 15 разделов и 1,5 миллиона Web-страниц. |
|
логическое И |
пробел или & (в пределах предложения)&&(в пределах документа) |
AND, &, пробел между словамипо умолчанию |
И, AND, &,+, пробел между словами по умолчанию |
AND, & (только при сложном поиске) |
по умолчанию для всех слов поиска |
|
логическое ИЛИ |
| |
OR, | |
ИЛИ, OR, | |
OR (по умолчанию при простом поиске), | (только при сложном поиске) |
OR |
|
бинарный оператор И-НЕ |
~ (в пределах предложения) ~ ~ (в пределах документа) |
не используется |
заменяется префиксным оператором "-" (AND - пробел по умолчанию) |
AND NOT, ! (только при сложном поиске) |
заменяется префиксным оператором "-" |
|
префиксы обязательных (+) и запрещенных (-) слов |
+, - |
не используются |
+, - |
+, - (только при простом поиске) |
+, - |
|
группирование слов |
( ) |
( ) |
( ) |
( ) |
не используется |
|
расстояние между ключевыми словами при поиске |
/(n m) - в словах, &&/(n m) - в предложениях (- назад, + вперед) |
при расширенном поиске - выдача документов только с минимальным расстоянием между словами |
сл2(...), с2(...), w2(...), [2,...] (- назад, + вперед) |
NEAR (в пределах10 слов, только при сложном поиске) |
не используется |
|
поиск фразы |
" " |
нет |
" ", ' ' |
" " |
" ", ' ', -..- |
|
символы замены части слова |
нет |
*, ? (замена любого символа) |
* (только в конце слова) |
* |
нет |
|
ограничение по языку документа |
выбор: любой, кириллица, латиница |
выбор: любой, русский, английский |
выбор: русский, английский |
выбор из 25 языков |
выбор из 25 языков |
|
поиск по датам |
есть |
есть |
есть |
есть |
нет |
|
ограничение поиска по полям |
Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в текстах ссылок, в названиях скриптов, объектов и апплетов. Поиск похожих документов. Сужение поиска на выбранные сайты. |
Поиск в заголовках, адресах, названиях документов (только при расширенном поиске). Поиск похожих документов. |
Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок. Сужение поиска на выбранные сайты. |
Поиск в заголовках, ссылках, мета-тэгах, файлах и подписях картинок, в адресах, в текстах ссылок, в названиях скриптов, объектов и апплетов |
Поиск в ссылках и Поиск похожих документов. Сужение поиска на выбранные сайты. |
|
Возможности расширенной формы, качество помощи |
|||||
|
настройка расширенной формы |
настройка словарного фильтра, настройки по дате, по сайту, ссылке, изображению, специальному объекту |
по документу, дате, режимам AND, OR, расстоянию между словами, усечению слова |
по документу, заголовку, изображению,дате, 5 разделам (сайты, МР3, картинки, товары, новости) |
по булевскому вопроснику, дате, по сайту, ссылке, изображению, тексту и пр. |
ограничения по сайту, языку, ссылкам |
|
настройка вывода результатов |
задание числа результатов на странице, всех элементов формы вывода |
задание числа результатов на странице, формы вывода |
задание формы выдачи |
задание числа результатов на странице, всех элементов формы вывода |
задание числа результатов на странице, всех элементов формы вывода |
|
ранжирование результатов поиска |
сортировка по релевантности или дате |
сортировка по релевантности или дате |
по популярности сайта |
по терминам, указанным в SORT |
по цитируемости (ссылок на страницу с других страниц) |
|
итеративный поиск (в результатах поиска) |
Да. Выполняется с помощью установки флажка |
Да. Выполняется с помощью переключателя области поиска |
Да. Выполняется с помощью установки флажка |
Да. Выполняется с помощью SORT BY |
нет |
|
качество раздела помощи |
имеется детальное описание языка запросов, таблица синтаксиса и раздел по поиску в категориях |
краткий раздел HELP |
подробный справочник по языку запросов, есть много русских синонимов для основных операторов |
самый большой из рассмотренных в этой таблице учебник on-line по языку запросов |
очень ограниченный раздел HELP |
|
семейный фильтр |
есть |
нет |
нет |
есть |
нет |
Поисковых систем в российском Интернете - море. Чуть ли не каждый новорожденный провайдер считает своим долгом предложить пользователям собственную поисковую систему. А сколько независимых проектов?! Не перечесть.
Рассмотрим несколько подробнее самые приметные из них.
Rambler (www.rambler.ru)

Рис. 2.1. Поисковая система Rambler
Rambler - вероятно, самая посещаемая информационно-поисковая система российского Интернета (около полумиллиона посетителей в день). Здесь можно произвести запрос посредством ключевых слов, пройтись по тематическому каталогу, взглянуть на рейтинговые таблицы, получить последние обзоры финансовых, политических, компьютерных и прочих новостей.
Хозяин этой Мекки, Дмитрий Крюков, переводит название своей системы как "праздношатающийся человек". Однако, пусть вас не смущает несерьёзность названия. На сегодняшний день Rambler, по всей видимости, является не только наиболее популярным, но и наиболее мощным поисковым механизмом в Русской Сети. Поисковая база содержит миллионы документов с более чем 15,000 сайтов (имен DNS). Имеет развитый язык запросов и гибкую форму вывода результатов. Rambler включен в стандартную поставку русской версии Microsoft Internet Explorer.
Язык запросов в Rambler стандартен и не требует специальных комментариев. Продвинутым пользователям рекомендуется воспользоваться возможностью детального запроса.
Яndex (www.yandex.ru)

Рис. 2.2. Поисковая система Яndex
Целиком и полностью разделяю мнение создателей этой поисковой системы, искренне полагая её лучшей в российской Сети. Что заставляет меня высказываться столь категорично? Опыт. Данная система обеспечивает наиболее полный опрос русскоязычных ресурсов, плюс подкупает её способность к разумному поиску. Учёт морфологии русского языка и синтаксических связей при обработке ключевого запроса позволяет значительно расширить зону поиска без необходимости многократного перенабирания похожих комбинаций. В качестве примера рассмотрим один не слишком удачный, но весьма показательный запрос. Если мне лень набирать полный текст "Человек с бульвара Капуцинов", в Яndex достаточно указать в поисковой строке "люди бульвар". Проверьте и убедитесь, это работает! Хотя, конечно же, непросто представить себе пользвателя, столь небрежно относящегося к составлению ключевой фразы.
Яndex, как и Rambler, включён в список поисковых систем под шапкой Microsoft Internet Explorer. Если Вам хотелось бы уточнить запрос, воспользуйтесь опцией "искать в найденном" или таблицей расширенного поиска.
Апорт (www.aport.ru).

Рис. 2.3. Поисковая система Aport
Разработка компании "Агама" при поддержке российского отделения одного из лидеров компьютерного рынка - "Intel", плюс дизайн Артемия Лебедева. Такое содружество не могло не дать замечательного результата. Эта поисковая система, опрашивая свыше миллиона документов, позволяет не только переводить запросы с русского на английский и обратно, но и переводить результат поиска с английского на русский. Безусловно, переводится не весь документ, а лишь аннотация к документу. В противном случае процесс обработки результатов поиска мог бы безмерно затянуться. Кроме того, в поисковой системе "Апорт!" предусмотрено автоматическое исправление ошибок при составлении запроса. "Апорт!" также попал в список фаворитов Microsoft Internet Explorer.
По моим наблюдениям, "Апорт!" - самая быстродействующая российская поисковая система.
AltaVista (www.altavista.com).

Рис. 2.4. Поисковая система AltaVista
Лидер проката 1995-96 годов. Была выпестована в лабораториях одной из крупнейших компьютерных компаний Digital Equipment Corporation (DEC). В вольном переводе с итальяно-американского сленга имя AltaVista звучит, как "там-за-горизонтом". С первых дней своего существования эта поисковая система была заявлена как безусловно наилучшая: использующая все безграничные ресурсы Web и позволяющая достичь максимальных скоростей поиска.
AltaVista представляет настоящий интерес для высокопродуктивного поиска. 25 языков - не шутка! Среди них и русский. Поиск может вестись как на просторах Мировой Паутины (Web), так и по новостным дорожкам (News), в группах обсуждений (Discussion Groups) и по конкретному продукту (Products).
С 1998 года AltaVista доукомплектована собственным тематическим каталогом.
Толпы гуляк по Интернету осваивают виртуальные просторы только ради картинок, клипов и звуков. Отдавая должное этой многочисленной категории, в Altavista организован специализированный поиск по "мультимедиа" ресурсам.
Google (www.google.com).

Рис. 2.5. Поисковая система Google
Этот уникальный поисковый механизм был разработан в сентябре 1998 года двумя выпускниками Стенфордского университета Ларри Пейджем и Сергеем Брином. Уже один лишь тот факт, что Yahoo купил этот «движок», говорит сам за себя. За один сезон 1999-2000 молодой Google «сделал» всех своих конкурентов постарше. Возможный перевод: Google = go + ogle = взгляни с любовью.
С точки зрения пользователя, Google – идеальная поисковая система: простая, быстрая, эффективная. Интерфейс – просто загляденье – ничего лишнего. Любители дополнительных настроек могут покопаться в разделах AdvancedSearch и Preferences, но таких меньшинство.
Особую любовь пользователей Google завоевал простейшим ходом, создав оболочки более чем на 50 языках (GoogleinYourLanguage). Попробуйте «русскую версию» (www.google.com.ru или www.google.ru) и ощутите прилив благодарности к создателям. Недаром Google уже называют в числе трех лучших русских (!) поисковых систем, хотя по происхождению совсем не русская. Первая ссылка (www.google.com.ru) откроет сраничку как на рис. 2.5., но переведенную на русский язык, а вторая ссылка (www.google.ru) – это ужу гораздо больше.

Рис. 2.6. Поисковая система Google.Ru
Немаловажным дополнительным достоинством Google является способность к «языковой мимикрии» в зависимости от языковой версии операционной системы, используемой клиентом.
Google предоставляет три возможности поиска: по всей Сети, по тематическому каталогу и в группах новостей. В разделе AdvancedSearch есть доступ к очень удобному сервису по поиску картинок.
Основа технологии (PageRank) – ранжирование страниц по популярности. Google не пересчитывает ссылки, он фиксирует переходы по ссылкам.
Среди особых умений Google – способность осуществлять поиск документов в формате PDF. Другая дивная особенность – панель, «имплантируемая» в оболочку браузера MicrosoftInternetExplorer (toolbar.google.com). Сказать удобно – значит не сказать ничего.
Каталоги составляются людьми - редакторами, просматривающими каждый новый сайт до его включения в индекс, или самими составителями описаний.
Качество при этом выше, чем у поисковых машин, но люди не могут успеть за темпами расширения и изменения Интернета: индекс популярного каталога Yahoo! содержит лишь немногим более миллиона записей. Кроме того, часто в каталогах накапливаются устаревшие адреса - если, конечно, авторы не удосужились автоматизировать процесс проверки.
Каталоги обычно организованы в соответствии с предметной классификацией и содержат сведения о web-страницах (так называемый "видимый" Интернет). Отдельной разновидностью каталога являются рейтинги - счетчики посещений.
Хороший каталог должен быть сбалансированным по количеству ресурсов; по размеру описаний; по оперативности обновления описаний; по размеру и глубине рубрикатора.
Хороший каталог должен быть удобным, то есть уметь представлять наиболее востребованные ресурсы первыми; обладать интуитивно понятной навигацией; быстро загружать страницы; иметь эффективные механизмы настройки и управления.
Хороший каталог должен быть гибким, то есть допускать изменение состава атрибутов описаний; изменение форм визуализации результатов навигации и поиска; изменение механизмов публикации.
Таким образом, хороший каталог – высокозатратный проект, требующий профессионализма как в области формирования и поддержки контента, так в области разработки и развития программного обеспечения.
Таблица 2.2.
Сводная таблица избранных предметных каталогов
|
|
List.Ru |
Апорт |
Яндекс |
Rambler |
Yahoo! |
About |
|
Общая характеристика |
19 разделов верхнего уровня, каталог ресрусов по реионам (подраздел рубрики Госудаство Российское) |
14 разделов верхнего уровня, каталог ресурсов по регионам (подраздел рубрики Страны и регионы) |
10 основных разделов, 7 комбинированных, дополнительная классификация по региону, источнику информации, целевой аудитории и сектору экономики. |
56 разделов (Рейтинг - одноуровневый каталог) |
14 основных разделов |
36 разделов.Авторский контент - аннотации, сделанные экспертами. |
|
Сортировка ресурсов внутри раздела |
Алфавит, оценка гидов, популярность (посещаемость), дата |
Алфавит, хиты (посещаемость), лига (оценка гидов), индекс цитируемости (оценка числа ссылок на данный ресурс), оценка (мнение пользователей) |
Алфавит, дата добавления, индекс цитируемости (кол-во ссылок на данный ресурс с других ресурсов) |
по посещаемости |
по алфавиту |
по оплаченности ссылок |
|
Булевские операторы |
Используется язык поисковой машины Яndex |
Используется язык поисковой машины Апорт |
Используется язык поисковой машины Яndex |
Используется язык поисковой машины Rambler |
Нет |
Нет |
|
Поиск по фразе |
" " |
" " |
||||
|
Префиксы |
+, - |
+, - |
||||
|
Итеративный поиск (в результатах) |
Есть поиск внутри категории |
После входа щелкните More… |
||||
|
замена части слова |
* |
* (не всегда |
||||
|
Булевские операторы |
Нет |
Нет |