Электронный учебникпоиск информации в интернете. Урок «Поиск информации в сети Интернет

Проблема поиска и средства его организации

Гигантские и непрерывно увеличивающиеся объемы доступной в Интернет информации, в т.ч. оперативной, делает проблему поиска необходимых сведений весьма актуальной и сложной. Скорость поиска нужной информации определяет в значительной степени профессионализм пользователя Интернет. Стоит сказать, для автоматизации ϶ᴛᴏй задачи разработаны различные, как зарубежные, так и отечественные системы поиска, представляющие собой Web-страницы специального вида. При этом, несмотря на наличие многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя определенного опыта, интуиции, знания терминологии, используемой в его предметной области.

По оценке, опубликованной в журнале Nature от 8 июля 1999 г., число публично индексируемых Web-страниц составляло 800 млн. Спустя год автор исследования (Стив Лоуренс из института NEC Research Institute) полагал, что их число увеличилось почти вдвое – до 1,5 млрд. Даже лучшие поисковые механизмы индексируют не более чем одну страницу из шести. Стоит сказать, для того ɥᴛᴏбы извлечь полезную информацию из сети Интернет, нужно знать, где и как вести поиск.

Имеющийся в Internet Explorer инструмент Поиск упрощает обращение к средствам поиска, избавляя от знания адресов поисковых машин. При этом лучше непосредственно обращаться к поисковым системам, загружая ϲᴏᴏᴛʙᴇᴛϲᴛʙующую страницу.

По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:

каталоги и специализированные базы данных;

поисковые системы;

метапоисковые системы.

Каталоги и базы данных

Каталоги в WWW аналогичны систематическим библиотечным каталогам. Поиск по каталогам состоит в последовательном движении по иерархическому списку ссылок, называемых рубриками или категориями. На первой странице каталога содержится ссылки на крупные темы, например, Культура и искусство; Медицина и здоровье; Общество и политика; Бизнес и экономика; Развлечения и др. Щелчок мыши на ϲᴏᴏᴛʙᴇᴛϲᴛʙующей ссылке (категории) открывает страницу, содержащую ссылки, детализирующие выбранную тему (рубрику) Двигаясь вниз по детализирующим категориям, можно найти страницу с нужной информацией. На каждой странице, открываемой при движении по каталогу тем или иным способом, указывается последовательность просмотренных вложенных рубрик, например, Деловой мир: Финансы: Аналитика и т.д.

Все каталоги создаются и поддерживаются в актуальном состоянии вручную специалистами, аналогично тому, как библиографы составляют и поддерживают библиотечные каталоги. Уместно отметить, что описание документа делается либо составителями каталога, либо автором. Благодаря ϶ᴛᴏму, содержание страниц, включенных в каталог, наиболее адекватно ϲᴏᴏᴛʙᴇᴛϲᴛʙует рубрике, к кᴏᴛᴏᴩой они отнесены. Но, учитывая скорость пополнения и изменения информации в Интернет, «ручной» способ ведения каталогов не позволяет равноценно отражать реальное состояние ресурсов Интернет на данную тему.

Поисковые системы

(поисковые машины, поисковые серверы, поисковые роботы)

Существуют десятки крупных и тысячи малых и специализированных Web-узлов, предназначенных для поиска в Интернете. Средства поиска ϶ᴛᴏй группы позволят пользователю по определенным правилам сформулировать требования к необходимой ему информации (с помощью языка запросов создать запрос) После ϶ᴛᴏго машина поиска автоматически просматривает документы на контролируемых (индексируемых) ею сайтах и отбирает те из них, кᴏᴛᴏᴩые, «по мнению» поискового сервера, ϲᴏᴏᴛʙᴇᴛϲᴛʙуют сформулированным пользователем требованиям (релевантны запросу) В поисковых узлах могут быть использованы собственные индексы Интернета, постоянно обновляемые особыми программами, называемыми пауками (spiders) Программа-паук обследует Web, проверяя каждую ссылку на данной странице, затем на страницах, адресуемых ссылками, и т. д., и сообщает ϲʙᴏему владельцу сведения обо всех страницах для последующей индексации.

В результате поиска создается одна или несколько страниц, содержащих ссылки на релевантные запросу документы (Web-страницы) Стоит сказать, для каждой ссылки обычно также указываются дата создания документа, его объем, степень ϲᴏᴏᴛʙᴇᴛϲᴛʙия релевантности запросу, фрагменты текста, характеризующие содержание документа. Щелчок мышью на такой ссылке позволяет загрузить заинтересовавшую страницу. В случае очень большого количества найденных документов можно уточнить запрос и в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с ним повторить поиск, но только среди отобранных страниц (такой поиск в разных машинах называется по-разному, но обычно ϶ᴛᴏ – искать в найденном) В ряде машин поиска можно определенным способом поменять ссылку на страницу, содержание кᴏᴛᴏᴩой в наибольшей степени удовлетворяет вашим потребностям, и повторить поиск, потребовав искать похожие.

Достоинство автоматизированного поиска состоит по сути в том, что он обеспечивает просмотр очень больших объемов информации, имеющейся в Интернет в данный момент. При этом сложность точного описания запроса, адекватно отражающего ваши информационные потребности, а также еще большая сложность задачи автоматического определения степени ϲᴏᴏᴛʙᴇᴛϲᴛʙия вашему запросу просматриваемых страниц, приводит к тому, что количество страниц, отобранных «с первого захода»традиционно или очень мало, или чрезмерно велико. В целом поиск с использованием поисковой машины представляет собой итерационный (многоходовой) процесс, в результате кᴏᴛᴏᴩого постепенно уточняется форма запроса.

Метапоисковые системы

Как отмечалось выше, любая поисковая система просматривает определенный набор серверов и отбирает документы в ϲᴏᴏᴛʙᴇᴛϲᴛʙии с присущими ей критериями. В итоге поиск разными системами по одним и тем же ключевым словам дает различные результаты. Это привело к идее создания так называемых метапоисковых (или мультипоисковых) систем, кᴏᴛᴏᴩые сами ничего не ищут, но обращаются за помощью сразу к нескольким поисковым системам. Отметим, что каждая из метапоисковых систем имеет ϲʙᴏй язык запросов. Система переводит сформулированный на ее языке запрос на языки запросов, используемые каждой машиной поиска. Далее, результаты поиска всеми системами объединяются и представляются в ϲᴏᴏᴛʙᴇᴛϲᴛʙующей форме. Естественно, что поиск с помощью метапоисковых систем занимает большее время по сравнению с обычными системами поиска.

Обзор наиболее популярных поисковых систем

В Интернет имеется большое количество поисковых систем, и каждый пользователь ориентируется на ту, к кᴏᴛᴏᴩой он привык или кᴏᴛᴏᴩую ему посоветовали его коллеги. Воспользуемся краткой характеристикой наиболее популярных поисковых систем, кᴏᴛᴏᴩая приводится на одном из сайтов.

1. Google (www.google.com) Самая быстрая и самая большая поисковая система. Проиндексировано более 1,3 миллиарда страниц (из них полностью - немногим более 700 миллионов, про остальные известен только адрес и текст ссылки) Нормально ищет по русскоязычным ресурсам (разумеется, без словоформ), есть возможность выбрать язык интерфейса. Можно включать/исключать результаты с определенных сайтов и/или доменов. В отличие от большинства поисковых систем, Google оценивает популярность ресурса по количеству ссылок, ведущих к нему с других страниц. Присутствует тематически ориентированный поиск - Apple Macintosh, BSD UNIX, Linux, правительство США и University searches - поиск в ресурсах ведущих научных и учебных институтов.

2. Яndex (www.yandex.ru) Лучшая из поисковых систем отечественного производства. Индексирует в основном русскоязычные ресурсы, при ϶ᴛᴏм по возможностям не уступает зарубежным системам. Поиск можно осуществлять точно или в любых словоформах, с ограничением по дате, с указанием сайта или его поддиректории. Можно вести поиск с учетом так называемого индекса цитируемости, искать изображения, скрипты, апплеты; задавать язык документа. Нужные ссылкитрадиционно обнаруживаются уже в первой десятке результатов. Имеет "облегченную" версию (с минимумом элементов дизайна) на http://www.ya.ru.

3. AltaVista (www.altavista.com) Предоставляет большое расширение критериев поиска: в Advanced search есть выбор отрезка времени, к кᴏᴛᴏᴩому относится дата создания или изменения ресурса, поддержка 25 языков; присутствует возможность выдачи одного результата на сайт (϶ᴛᴏ сужает круг поиска без ущерба для качества) Power search имеет стандартный набор возможностей. До недавнего времени AV была крупным порталом, но по причинам финансового (и не только) характера значительно сократила количество сервисов.

4. Yahoo! (www.yahoo.com) Важно заметить, что один из первых поисковых серверов в Интернет. Помимо стандартного набора функций, позволяет отбирать ресурсы по дате (4 года, 1, 3, 6 месяцев, неделя, 1, 3 дня) Поддерживает возможность указания знака "*" вместо любой последовательности символов в ключевых словах. На Yahoo! составлен большой структурированный каталог категорий (categories) Сначала поиск осуществляется в них, потом в собственном архиве, потом - с использованием системы Google. Поиск в категориях дает хорошие результаты - их немного и ϲᴏᴏᴛʙᴇᴛϲᴛʙие хорошее.

5. Lycos (www.lycos.com) В последнее время - одна из самых популярных систем. При всем этом никаких особенных возможностей она не предоставляет - "AND" "OR", поиск фраз, обязательное присутствие/отсутствие слова; в расширенных возможностях - поиск в названии, URL, имени хоста и/или названии домена; 25 языков, включая русский, - словом, весь "общепринятый" набор. Можно указать тип содержания ресурса - авто, книги, ftp, download, новости и т.д. Очевидно, популярность Lycos - следствие масштаба ϶ᴛᴏго крупного проекта.

6. Рамблер (www.rambler.ru) До недавнего времени самая известная русская поисковая система. Расширенный поиск не позволяет искать фразы, а обычный поиск до февраля ϶ᴛᴏго года редко выдавал приемлемые результаты. С февраля в ϶ᴛᴏй системе используется улучшенный механизм поиска, сменился дизайн, но по качеству Rambler все равно не сравнялся с Яндексом и Апортом (по мнению автора, проводящего анализ поисковых систем) На сайте присутствует рейтинг-каталог ресурсов Rambler Top 100, один из признанных источников статистической информации об интернет-проектах.

7. Апорт (www.aport.ru) Другой хороший русский поисковый сервер. Поиск ведется по тексту (только во всех словоформах) и по URL, с использованием логических операторов и оператора "…" (однако стоп-слова во фразе все равно игнорируются), по дате и в отдельных полях (название, описание и т.д.), поддерживаются мета-символы * и! Представление результатов поиска наиболее хорошо оформлено по сравнению с остальными русскими поисковыми машинами. Некᴏᴛᴏᴩые сомнения вызывает дизайн главной страницы, кᴏᴛᴏᴩая явно перегружена информацией. Имеется немного более "легкая" версия на http://aport.ru.

Как выбрать поисковую машину

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего) Обычно ϶ᴛᴏ все называют одним словом - релевантность, то есть ϲᴏᴏᴛʙᴇᴛϲᴛʙие ответа вопросу.

1. Охват и глубина

Под охватом имеется в виду объем базы поисковой машины, кᴏᴛᴏᴩый измеряется тремя показателями – общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается – существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить: Некᴏᴛᴏᴩые машины пишут на ϲʙᴏем сайте статистику робота. Но можно проверить и самому – надо задать несколько поисковых запросов, состоящих из одного слова (ɥᴛᴏбы исключить влияние языка запросов, в т.ч. – различного трактования пробела), и при ϶ᴛᴏм смотреть на статистику результатов, выдаваемую машиной – обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных весов – редкие, «средние» и «тяжелые» (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для ϶ᴛᴏго надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на кᴏᴛᴏᴩые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация свежедобавленного ресурса и насколько быстро обновляется информация в базе. Не стоит забывать, что важным показателем качества поисковой машины (ее робота) будет не только захват новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и побудут, страницы на них обновляются. Ссылки, кᴏᴛᴏᴩые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно ϲᴏᴏᴛʙᴇᴛϲᴛʙовать запросу.

Как проверить: Объективную информацию можно получить, проанализировав логи серверов – робот поисковой машины представляется обычно именем ϲʙᴏей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только ϲʙᴏего сайта, по϶ᴛᴏму остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковые машины и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Стоит сказать, для определения актуальности ссылок – проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение Not Found свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель)

Стоит сказать, что каждая поисковая машина имеет ϲʙᴏи алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить: Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при ϶ᴛᴏм те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса («расширенный поиск» в Апорте и Яндексе, «детальный запрос» в Рэмблере – варианты перевода на русский язык «advanced search»)

Кроме релевантности, существуют важные пользовательские характеристики.

4. Скорость поиска

В случае если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить: Путем эксперимента – надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик – около трех-четырех часов дня)

5. Поисковые возможности (работа с языком документа, язык запросов)

Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Стоит сказать - полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме ϶ᴛᴏго, в языке HTML существуют тэги, кᴏᴛᴏᴩые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.)

Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некᴏᴛᴏᴩые умеют искать словосочетания или слова на заданном расстоянии - ϶ᴛᴏ часто важно для получения разумного результата. Дополнительной возможностью будет поиск в зонах документа – заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, кᴏᴛᴏᴩый не требует знания операторов.

Как проверить: Обычно эта информация публикуется на сервере поисковой машины (в Help"е) Отметим, что тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

6. Дополнительные удобства

Это - дополнительные возможности, кᴏᴛᴏᴩые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с данными возможностями.

Понятно, что указанный анализ займет некᴏᴛᴏᴩое время. Кроме ϶ᴛᴏго, поисковые машины, как и весь Интернет, не стоят на месте. При этом, учитывая, что поиск информации – одна из важных составляющих компьютерных технологий, ϶ᴛᴏму стоит уделить достаточное внимание – по крайней мере, не меньшее, чем умению работать в локальной сети.

На Yandex.ru был проведен опрос: зачем нужен Интернет и чего в нем не хватает (http://www.yandex.ru/polling/9.html) В порядке убывания данные опроса распределились следующим образом: Интернет используют как справочник (23,76%), инструмент исследования (15,.45%), развлечение (14,15%), и только на четвертом месте - источник новостей (12,32%) Оптимистично прозвучало, что 10% пользователей всегда, а 73% часто удается найти нужную информацию. А не хватает в Интернете: информации, хорошего поиска и порядка (в т.ч.: упорядоченности, структуры, структурности, структурированности, структуризации, а также системы, систематизации, системности, систематичности и систематизированности)

ОТВЕТЬТЕ НА ВОПРОСЫ:

Назовите, какие способы организации поиска существую в сети Интернет?

Как осуществляется поиск информации в каталогах и базах данных?

Как заносится информация в каталоги и базы данных?

Что в Интернет относится к поисковым системам?

Как формируется информационная база данных в поисковых машинах?

С чего начинается поиск информации в поисковых системах?

Что такое запрос?

Как осуществляется поиск информации в поисковых машинах?

Что понимают под релевантностью запросу?

Что можно предпринять в случае очень большого количества найденных документов при дальнейшем поиске?

Что такое метапоисковые системы?

В чем состоит принципиальное отличие метапоисковых систем от обычных поисковых машин?

Какие из следующих систем будут метапоисковыми:

Назовите наиболее популярные отечественные поисковые системы?

Назовите наиболее популярные зарубежные поисковые системы?

Какие две составляющие важны при поиске информации в сети Интернет?

Какие характеристики определяют эффективность поисковых систем при проведении поиска информации в сети Интернет?

Пользовательское соглашение:
Интеллектуальные права на материал - Информационные компьютерные сети - Борисов Н.А., Лукин А.А. принадлежат её автору. Данное пособие/книга размещена исключительно для ознакомительных целей без вовлечения в коммерческий оборот. Вся информация (в том числе и "Тема 3. Поиск информации в сети ИНТЕРНЕТ") собрана из открытых источников, либо добавлена пользователями на безвозмездной основе.
Для полноценного использования размещённой информации Администрация проекта сайт настоятельно рекомендует приобрести книгу / пособие Информационные компьютерные сети - Борисов Н.А., Лукин А.А. в любом онлайн-магазине.

Тег-блок: Информационные компьютерные сети - Борисов Н.А., Лукин А.А., 2015. Тема 3. Поиск информации в сети ИНТЕРНЕТ.

(С) Юридический репозиторий сайт 2011-2016

Найти нужную информацию в Интернете зачастую довольно трудно. Интернет развивается хаотично, в нем нет четко выделенной структуры. Никто не может гарантировать, что на одном домене будет только информация определенной тематики, а на другом - информация другой, но тоже четко определенной тематики. Например, на доменах.com можно найти не только коммерческую информацию, а, например, различную документацию по программным продуктам или даже анекдоты.

Если бы доменная структура была бы похожа на структуру каталога, например, в домене ru.comp.os.linux (как в системе новостей) была бы вся информация об операционной системе Linux на русском языке и какая-то организация-модератор следила, чтобы в других доменах не выкладывалась информация о Linux, то тогда поиск был бы значительно проще. Ведь мы бы знали, где искать. Открываешь браузер, вводишь ru.comp.os.linux и получаешь... миллионы различных ссылок на статьи, HOWTO-документы и прочую информацию, так или иначе связанную с Linux.

Эффективность поиска

    Эффективность поиска зависит от многих факторов:
  • От самой информации - по одной теме информации может быть много, по другой - мало. Иногда можно найти много информации по заданной теме, но коэффициент полезного действия этого поиска окажется близким к 0,0%, а можно найти всего 3-4 ссылки, и это будет как раз то, что нужно. Сюда же относится умение веб-мастера правильно подать информацию, чтобы ее могли найти сами поисковые машины Предположим, где-то очень далеко есть нужная вам информация, но поисковая машина о ней ничего не знает. Возможно, информация была только что опубликована или просто веб-мастер, опубликовавший информацию, даже и не подозревает о существовании поисковых машин. Вы-то ищите информацию с помощью поисковой машины. Если она не "знает" нужную вам информацию, то, следовательно, и вы о ней ничего не узнаете.
  • От поисковой машины - поисковых машин много и все они разные. Даже если они относятся к одному типу (о типах поисковых машин мы поговорим чуть позже), несомненно, у каждой из них будет свой алгоритм. Если вы не нашли информацию с помощью одной поисковой машины, попробуйте поискать ее с помощью другой. Не зацикливайтесь на одной поисковой машине, как бы она вам ни нравилась.
  • От умения использовать поисковую машину - от того, как вы умеете использовать поисковую машину, зависит очень многое. Если вы не знаете, как использовать поисковую машину, вряд ли поиск будет эффективным.

Как правильно искать информацию

Поскольку чаще всего вы не выбираете нужный вам сайт из каталога поисковой машины, а вводите определенное ключевое слово (или несколько ключевых слов), то вам нужно максимально конкретно задать это самое ключевое слово. Чем точнее вы определите предмет поиска, тем точнее будет результат. Поисковая машина ведь не может угадать ваши мысли, нужно четко указать ей, что вы ищите.

У каждой поисковой машины есть свой синтаксис, который необходимо знать. В этой главе будет описан синтаксис поисковых машин Google, Yandex и Rambler. Если вы хотите использовать другую поисковую машину, то ее синтаксис вы сможете узнать на ее же сайте (обычно он подробно описан).

Поисковые системы интернета

А теперь поговорим о самих поисковых системах.

На территории бывшего СНГ наиболее популярными являются следующие поисковые системы, по данным SpyLog (Openstat) :

  • 1. Яндекс (www.yandex.ru );
  • 2. Google (www.google.com );
  • 3. Поиск@Mail.ru (go.mail.ru );
  • 3. Рамблер (www.rambler.ru );
  • 5. Yahoo! (www.yahoo.com );
  • 6. AltaVista (www.altavista.com );
  • 7. Bing (www.bing.com ).

Поисковые системы указаны в порядке "убывания популярности". Как видите, самой популярной у нас является поисковая машина Яндекс.

Типы поисковых систем

    Существуют два основных типа поисковых систем:
  • индексные - Google, AltaVista, Rambler, HotBot, Яндекс и др.;
  • классификационные (каталоговые) - Rambler, Yahoo! и др.

Не удивляйтесь, что поисковая система Rambler указана дважды - она одновременно являлася и индексной, и классификационной. К этому мы еще вернемся, а пока поговорим об отличиях этих двух систем.

Как работает индексная поисковая система? Поисковая система запускает специальную программу, которая просматривает содержимое веб-серверов, индексируя информацию: она заносит в свою базу данных ключевые слова той или иной веб-страницы, некоторую информацию из веб-страницы.

Краткая история Google

Начнем с названия. Google - это немного видоизмененный вариант слова googol (не зря ее часто называют "гуглом"). В свою очередь это слово было введено Милтоном Сиротой, племянником известного математика Эдварда Каснера, а потом было популяризировано в книге Каснера и Ньюмана "Математика и воображение". Слово "googol" отображает число одной единицей и 100 нулями. Название "Google" отображает попытку организовать огромное количество информации в Сети.

Итак, начнем с самого начала. Будущие разработчики Google Сергей Брин (Sergey Brin) и Лэрри Пейдж (Larry Page) познакомились в 1999 году в Станфордском университете. Тогда Лэрри было 24 года, а Сергею - 23. Лэрри в то время был студентом Мичиганского университета и на несколько дней приехал в Станфорд. Сергей был в группе студентов, которая должна была ознакомить гостей с университетом. С первой встречи Сергей и Лэрри, мягко говоря, недолюбливали друг друга - они спорили относительно всего, о чем можно было спорить. Хотя в итоге это и оказалось положительным моментом, поскольку их разные мнения привели к созданию алгоритма для решения одной из самых актуальных компьютерных задач: поиск нужной информации среди огромного массива данных. С января 1996 года Лэрри и Сергей начинают работу над поисковой машиной BackRub, которая должна была анализировать "обратные" ссылки, указывающие на данный веб-сайт. Работы над этим сервером велись в постоянной нехватке средств - ведь в то время Сергей и Лэрри были аспирантами университета - сами понимаете, что средств у аспирантов не очень много. Кстати, Лэрри впервые принимал участие в столь серьезном проекте, а до этого он занимался всякими "несерьезными", даже порой анекдотическими проектами, например, он построил работающий принтер из конструктора Lego.

Поисковые алгоритмы Google

Интерфейс Google поражает своей простотой: поле для ввода и две кнопки. Как говорится, все гениальное просто.

Специальный (расширенный) синтаксис Google

В дополнение к логическим операторам Google предоставляет вам модификаторы поиска, перечисленные в таблице. Модификаторы поиска называются специальным синтаксисом Google. Отнеситесь к этой таблице со всей серьезностью: попробовав однажды поискать что-нибудь с использованием модификаторов, вы уже не откажетесь от них.

Модификатор inurl в Google

Модификатор inurl используется для поиска по указанному URL. И отличие от модификатора site, который позволяет искать информацию только на одном сайте или домене, модификатор inurl позволяет искать информацию в подкаталогах сайта, например:

inurl: сайтskype-zvonim-besplatno

Модификатор inurl позволяет использовать символ * для указания домена, например:
inurl: "*.redhat.com"

Эффективнее всего использовать inurl в паре с site. Следующий запрос будет искать информацию в домене gidmir.ru, на всех его поддоменах, кроме www:
site: gidmir.ru inurl: "*.gidmir" -inurl: "www.gidmir.ru"

Язык поисковых запросов Google

Google позволяет использовать смешанный синтаксис, т.е. такой синтаксис, в запросе которого используются несколько специальных модификаторов поиска. Это позволяет достичь наилучшего результата.

Вот самый просто пример смешанного синтаксиса:
site: ru inurl: disc

В данном случае поиск будет произведен на сайтах домена, a URL должен содержать слово disc.

Вот еще один пример:
site: ru -inurl: оrg.ua

Поиск будет произведен на сайтах домена ru, но в результатах поиска будут отсутствовать страницы, расположенные на org.ua.

Поисковые запросы в Google

Для большинства рядовых пользователей Google лимит в 10 ключевых не заметен. Но любители длинных запросов, наверное, заметили, что Google принимает во внимание только первые 10 ключевых слов, а все остальные просто игнорируются.

Зачем нужно искать длинные фразы? В большинстве случаев - это отрывки произведений. Предположим, что мы ищем произведение "Мастер и Маргарита". Нужно отметить, что ключевая фраза должна выглядеть как "Мастер Маргарита", поскольку слова и, или, and, of, or, I, a, the и некоторые другие игнорируются поисковой машиной. Если вы хотите принудительно включить одно из этих слов в поиск, поставьте перед этим словом знак "+", например +the.

Преодолеть лимит в 10 слов позволяет правильное построение запроса. Следующие рекомендации помогут вам не только сократить длину запроса, но и повысить эффективность поиска в целом.

Расширенный поиск Google

Набираем в строке ввода браузера адрес - www.google.ru/advanced_search и переходим на расширенный поиск Google.

С помощью расширенного поиска можно искать информацию почти также гибко, как и с помощью модификаторов поиска. Почему "почти"? Интерфейс расширенного поиска предоставляет доступ далеко не ко всем модификаторам поиска.

Установка свойств поиска Google в Cookies браузера

Мне не хочется забивать вам голову техническими подробностями, поэтому я кратко скажу, что такое Cookies и нет, не с чем их едят, а как с ними нужно работать.

Представим, что перед нами поставлена такая задача: нужно написать индивидуальный отчет посещения для каждого клиента сайта нашей компании. То есть, чтобы пользователь не видел общее количество посещений, знал, сколько раз именно он был на нашем сайте. Для каждого IP-адреса нужно вести учет в одной таблице, которая, скорее всего, будет большой, а из этого следует, что мы нерационально используем процессорное время и дисковое пространство. Гораздо правильнее с нашей стороны будет использовать это пространство с большей пользой.

Результат поиска Google

Результат поиска Google - это не просто набор ссылок, соответствующих указанным условиям поиска. Это нечто большее, заслуживающее отдельного рассмотрения. Введите слово "rusopen" и щелкните на кнопке Поиск в Google.

В верхней части мы видим общее количество результатов (883 000 000) и общее время, которое занял поиск, а именно 0,34 секунды.

    В большинстве случаев результат представляется в виде:
  • название страницы;
  • описание страницы;
  • URL страницы;
  • размер страницы;
  • дата последнего индексирования страницы;

Google поиск по картинкам

Служба Google Images позволяет найти различные изображения в Интернете. Хотя сами изображения индексировать нельзя, индексируются страницы, содержащие эти изображения. Введите описание изображения и получите много, очень много ссылок, а также сами изображения, представленные в виде галереи.

    Для более эффективного поиска картинок нужно использовать следующие модификаторы поиска:
  • intitle: - поиск в заголовке страницы;
  • filetype: - позволяет указать тип картинки, можно указывать следующие типы: JPEG and GIF, not BMP, PNG, изображения других типов не индексируются;
  • inurl: - поиск по указанному URL, например inurl: www.gidmir.ru ;
  • site: поиск на указанном домене или сайте, например, site: com.

Службы Google

Google - это мощнейшая поисковая система, охватывающая более 3 миллиардов страниц. Кроме обычных веб-страниц, Google индексирует файлы в форматах Word, Excel, PowerPoint, PDF и RTF. Также Google можно использовать для поиска картинок и номеров телефонов: для этого предназначены, соответственно, служба Google Images и Phonebook. В этой статье мы поговорим о специальных службах Google.

Электронная почта Google

Попробуйте использовать почту от Google. Нужно отметить, что это не совсем обычная веб-почта.

    Среди особенностей Gmail нужно выделить следующие:
  • огромный размер почтового ящика - более 7 Гбайт;
  • вместо удаления писем их можно архивировать - тогда и места вам хватит надолго, и сможете восстановить письма, которые были получены или отправлены вами несколько лет назад;
  • возможность поиска по почтовому ящику с эффективностью Google;
  • удобная организация писем и ответов на них: все письма и ответы составляют одну цепочку, которую легко отслеживать;
  • хорошая защита от спама;
  • запоминающийся адрес ваше_имя@gmail.com;
  • удобный интерфейс.

Поисковая система Рамблер (Rambler)

История Рамблера

Все началось в далеком 1991 году в городе Пущино Московской области. В том далеком году собралась группа единомышленников, среди которых были Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов. Общим интересом этой группы стал Интернет. Наверное, в 1991 году ни один из будущих разработчиков Рамблера и не предполагал, что они станут создателями одной из самых крупных и известных поисковых машин Рунета. Ведь до этого все они обслуживали радиотехнические приборы в Институте биохимии и физиологии микроорганизмов РАН. В 1992 году была создана компания "Стек" во главе с Сергеем Лысаковым. Профиль компании - локальные сети и Интернет. По сути, компания "Стек" была интернет-провайдером. Фирма создала внутригородскую сеть, затем подключила Пущино к Москве, а уже через нее - к Интернету. Кстати, это был первый IP-канал, выходящий за пределы Москвы. И это в 1992 году! Сейчас проложить канал довольно проблематично - всегда найдется масса нюансов, а тогда кабели приходилось прокладывать самостоятельно, вручную, под землей, причем все это делалось зимой.

Как работал поиск Рамблер

Интернет постоянно развивается: число сайтов и их размеры увеличиваются с каждым днем. Ведь только представьте: большие сайты обновляются каждый день, даже если объем обновлений составляет 1024 байт (1 Кбайт), то если предположить, что таких сайтов 10 000, каждый день поисковой машине приходится обрабатывать (индексировать) 10 000 Кбайт (грубо говоря, 10 Мбайт) информации. Число 10 000 взято "с потолка" - примера ради. Оно может быть выше или ниже - ведь даже крупные сайты обновляются не каждый день. Размер обновления также надуман. Представьте информационно-аналитический сайт, на котором практически каждый день публикуются новые статьи или перепечатываются материалы с других сайтов. В этом случае размер обновлений будет далеко не 1 Кбайт, а как минимум 10. Добавьте ко всему этому еще новости и другую информацию и выходит, что при количестве обновленных сайтов 10 000 поисковая машина должна проиндексировать 120 Мбайт текста. И при всем этом поисковик должен не только точно отобразить результаты поиска, но еще и сделать это как можно быстрее, чтобы пользователю было удобно с ним работать. Кому захочется ждать результатов поиска 10 минут? Это я, конечно, утрирую, но лично я бы не ждал результатов поиска более 30 секунд (с момента щелчка по кнопке Найти до появления первых десяти результатов). Выходит, разработчикам поисковой машины приходится постоянно поддерживать на должном уровне не только "железо", которое должно быть в состоянии обрабатывать постоянно растущие объемы информации, но и "математику" одним железом не возьмешь. Нужно постоянно совершенствовать алгоритмы поиска, чтобы при увеличении объемов поисковой базы, время поиска не увеличивалось (имеется в виду существенное увеличение времени - для пользователя нет разницы, сколько будет выполняться поиск 2,5 секунды или 2,0555 секунды, поскольку он не в состоянии оценить это время).

Рамблер запросы, синтаксис Рамблера

Запрос к Рамблеру мог состоять из одного или нескольких слов, причем запрос мог содержать знаки препинания. Разработчики Рамблера сконструировали свою поисковую машину для максимального удобства пользователя. Рамблер мог использовать даже неопытный пользователь, который совсем не знаком с языком запросов. Все, что ему нужно было сделать, - это ввести запрос, состоящий из нескольких слов (например, какую-то фразу) и без знаков препинания - Рамблер сам находил нужные документы, причем делал это максимально эффективно. Конечно, если правильно использовать язык запросов, эффективность значительно увеличивалася, но даже при полном незнании языка запросов эффективность поиска была на высоком уровне. Как уже отмечалось, знание языка запросов - в ваших же интересах, вы просто сможете найти нужную вам информацию значительно быстрее.

Поисковая система Yandex (Яndex)

Историческая справка

В далеком 1990 году в компании «Аркадия», которую возглавляли Аркадий Борковский и Аркадий Волож, началась разработка поискового программного обеспечения. Спустя шесть лет появился сайт «Яндекс». Но что же произошло за эти шесть лет?

За два года были созданы две информационно-поисковые системы - «Международная Классификация Изобретений» и «Классификатор Товаров и Услуг». Обе системы работали под DOS и позволяли производить поиск слова из заданного словаря с использованием логических операторов.

В 1993 году компания «Аркадия» стала подразделением CompTek. За 1993-1994 годы значительно усовершенствовались технологии поиска, например, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300 Кбайт, а это значит, что он свободно помещался в оперативную память, и работа с ним происходила очень быстро. На основе этой новой технологии в 1994 году был создан «Библейский компьютерный справочник» - информационно-поисковая система, работающая с переводами Ветхого и Нового Заветов.

Языковой поиск Яндекс

Как поисковая система будет интерпретировать введенное вами слово?

    Сейчас мы об этом и поговорим:
  • Правило 1. Оказывается, система интерпретирует его согласно правилам русского языка. Пример: если вы ввели слово "машина", то также получите результаты, содержащие слова "машины", "машину" и т.д. Аналогично и с глаголами - по запросу "идти" получите документы, содержащие слова "идти", "идет", "шел", "шла" и т.д. Как видите, поисковая система более интеллектуальная, чем вы думали - это не просто средство для поиска определенного слова в базе данных.
  • Правило 2. Особое внимание уделяется словам, написанным с большой буквы. Если слово написано с большой буквы и не является первым в предложении, то будут найдены только слова с большой буквы. Иначе - будут найдены слова, написанные как с большой, так и с маленькой буквы. Пример: по запросу "Такса А." будут найдены документы, содержащие как "такса" (плата), так и "Такса" (фамилия), поскольку слово "Такса" хоть и написано с большой буквы, но оно стоит первым в предложении. А вот по запросу "А. Такса" будут найдены документы, содержащие только слово "Такса", написанное с большой буквы.

Синтаксис Яндекса

По умолчанию Яндекс использует логический оператор И. Это означает, что если вы ввели запрос "телевизор Samsung", то в результатах получите документы, в которых в одном предложении будут встречаться слова "телевизор" и "Samsung". Если вы хотите указать оператор И явно, то используйте символ амперсанда &. Другими словами, запрос "телевизор Samsung" аналогичен запросу "телевизор & Samsung". Можно также использовать запрос "телевизор + Samsung".

Если вам нужен обратный эффект, т.е. вы хотите получить документы, в которых есть отдельно слово "телевизор" и отдельно слово "Samsung", то вам нужно использовать оператор ИЛИ (|), например: "телевизор | Samsung".

Синтаксис запросов Яндекс

Все слова в тексте документа Яндекс нумерует по порядку. Расстояние между соседними словами равно 1 (а не 0!), а расстояние межу словами в обратном порядке равно -1. То же самое относится и к предложениям.

Для указания расстояния между словами ставится знак /, за которым сразу стоит число, значит, это расстояние между словами. Например, по запросу "разработчик /2 программ" будут найдены документы, в которых содержатся слова "разработчик" и "программ", причем расстояние между словами должно быть не более двух слов и все эти слова должны быть в одном предложении. В данном случае будут найдены документы, содержащие "разработчик прикладных программ", "разработчик системных программ" и т.д.

Если нам точно известны расстояние и порядок слов, то можно воспользоваться синтаксисом /+n. Например, запрос "красная /+1 шапочка" приведет к результату, в котором слово "шапочка" следует сразу за словом "красная". К такому же результату привел бы запрос "красная шапочка".

Операторы поиска Яндекс

Скобки используются для представления в запросе целого выражения. Например, по запросу "(история | технологии | программы)/+1 Linux" будут найдены документы, содержащие одну из фраз "история Linux", "технологии Linux", "программы Linux".

Зоны

Зона - это место поиска нужной вам информации. Вы можете задать зону, в которой вы хотите выполнить поиск - заголовках (зона Title), ссылках (anchors) или адресе (Address). Можно также использовать зону all - поиск по всему документу.

Синтаксис: $имя_зоны запрос.

Например: запрос $title "Microsoft" найдет все документы, в заголовках которых встречается точная фраза "Microsoft".

Дополнительные возможности поиска Яндекс

Поисковая машина Google позволяла ограничить место поиска определенным списком серверов или же, наоборот, исключить некоторые серверы из списка поиска. Точно такие же возможности есть и в поисковой машине Яндекс. Вы также можете искать документы, в которых есть ссылки на определенные URL или картинки. При задании маски файла (например, картинки) можно использовать символ *, означающий все символы, например: ”audi-*”.

Синтаксис следующий: #имя_элемента=”значение”.

Поиск информации в Интернете -- одна из наиболее востребованных операций в Интернете. Посетителям Интернета часто приходится искать документы по какой-либо тематике. Если у вас есть точный адрес документа в Интернете, то в этом случае проблем с поиском не возникает: в браузере в адресной строке можно набрать известный адрес ресурса, и при удачном соединении браузер выведет на экран нужную страницу.

Если точного адреса документа нет, то можно воспользоваться услугами поисковой машины. Поисковая машина? это «специализированный сервер в Интернете, который предлагает разнообразные средства поиска документов» . Пример поискового сервера -- сервер Рамблер (Rambler.ru), расположенный по адресу http://rambler.ru. Вид головной страницы сервера приведен на рисунке.

Рис. 1.

Поисковые серверы обычно составляют собственные каталоги ресурсов Интернета. Каталоги поисковых серверов регулярно пополняются информацией о создаваемых в сети ресурсах, которая поступает от поисковых роботов. Поисковые роботы или пауки -- это специальные сетевые программы, которые обращаются к доступным на текущий момент серверам Интернета, проводят анализ документов и пополняют таблицы своей поисковой машины. Работа по поиску и систематизации ресурсов поисковые роботы выполняют в фоновом режиме круглосуточно.

Еще один источник поступления на поисковые серверы информации о существующих сайтах -- явная регистрация ресурсов владельцами web-страниц. На сервере имеются формы, которые заполняют владельцы ресурсов. В форме задается адрес ресурса, краткая характеристика, ключевые слова, целевая аудитория и пр. Эта информация анализируется и добавляется в каталоги сервера автоматически специальными программами или «вручную» экспертами -- специалистами, следящими за формированием каталогов ресурсов.

Понимание механизмов поиска информации в Интернете позволяет разработчикам web-страниц готовить свои документы так, чтобы они могли быть в дальнейшем найдены поисковыми машинами и размещены в соответствующих разделах каталога ресурсов.

Поиск по ключевым словам в Интернет

Один из популярных способов поиска документов в сети WWW -- поиск по ключевым словам. При задании ключевых слов в поисковой форме поисковая машина будет искать документы, содержащие заданные ключевые слова. Разумеется, для выполнения запроса поисковая машина не станет исследовать содержание тысяч работающих в Интернете компьютеров -- результат такого поиска вам пришлось бы ждать не один день. Поиск ведется среди тех ресурсов (каталогов, таблиц) поисковой машины, которые были ранее собраны и систематизированы с помощью роботов и экспертов.

Поскольку объем ресурсов сети становится поистине безграничным, то по запросу на поиск документа по ключевому слову поисковая машина может найти несколько тысяч документов, содержащих указанное ключевое слово. Понятно, что в таком количестве документов трудно найти тот, который лучше всего соответствует заданной теме. Однако поисковые машины обычно дают возможность сформулировать более детальный запрос.

Запрос может иметь сложную форму и составляться с помощью ключевых слов и логических функций И (AND), ИЛИ (OR), отрицания (NOT) . Или же запрос на поиск может формироваться с помощью специальных символов, позволяющих задать (или отменить) словоформы ключевых слов. Такие механизмы помогают более точно сформулировать требования для отбора документов. Каждая поисковая машина имеет справочную систему, которая поможет посетителю составить поисковый запрос.

Все больше и больше людей ищут необходимую информацию во Всемирной паутине. окажется более эффективным, если вы будете соблюдать несложные правила. Все поисковые системы имеют определенный принцип работы . Успешный поиск в сети Интернет невозможен без хотя бы поверхностного знания этих принципов. В Интернете настолько огромное количество разной информации, что хаотичный и неорганизованный поиск в сети Интернет ни к чему не приведет . Вы потратите кучу времени и нервов, а найдете лишь крупицы того, что вам было нужно.

Поиск в сети Интернет требует знания определенных принципов и хитростей. Как найти необходимую информацию максимально быстро? Нужно лишь соблюдать определенные правила .

  1. Правильно сформулируйте поисковый запрос. Он не должен быть ни слишком коротким, ни слишком длинным. Оптимальная длина поискового запроса — 2-3 слова.
  2. Если результат вас не удовлетворил, попробуйте изменить запрос, переставив местами слова в запросе или используя синонимы.
  3. Чтобы найти точную фразу или цитату, заключите поисковый запрос в кавычки.
  4. Обычно введение уточненного запроса более эффективно, чем поиск по результатам.
  5. Постарайтесь не формулировать поисковый запрос в виде вопроса поисковой системе.
  6. Обращайте внимания на домены сайтов из поисковой выдачи, чтобы случайно не перейти по подозрительной ссылке.
  7. Обычно самые удачные ссылки и востребованная информация находятся на первых двух-трех страницах поисковой выдачи. Кстати, не факт, что лучшая информация будет находиться исключительно на первой странице.
  8. Используйте не одну поисковую систему, а несколько. У разных поисковиков разный принцип ранжирования, поэтому то, что не нашлось в одном, может найтись в другом.
  9. Используйте дополнительные поисковые технологии поисковых систем (поиск по картинкам, поиск по региону, поиск по блогам, расширенный поиск и т.п.).
  10. Используйте поисковые возможности браузеров. Например, комбинация клавиш Ctrl+F включает поиск по странице.

Учтите, что результаты поисковой выдачи динамичны и через несколько дней или даже часов могут измениться. Поэтому найденную полезную ссылку стоит тут же добавить в закладки: в следующий раз результат поиска в сети Интернет может оказаться другим, и вы просто-напросто потеряете однажды найденный сайт.

Для того чтобы облегчить поиск в сети Интернет поисковая система Google предлагает ряд дополнительных операторов и функций , которые позволяют точнее сформулировать поисковый запрос и сделать поиск в сети Интернет более эффективным.

  • Знак + позволяет принудительно включить слово в запрос: +как искать в Интернете . Если он находится в середине фразы, перед ним нужно поставить пробел.
  • Знак исключает слово из списка результатов поиска: автомобили -отечественные .
  • Слово OR или знак | используются для поиска одного из двух слов: CD OR MP3 плеер (CD | MP3 плеер) .
  • Знак ~ (тильда) позволяет находить синонимы слов из запроса: купить ~мотоцикл .
  • Знак * означает любое слово: реферат по * .
  • Две точки (.. ) используются для поиска в определенном диапазоне значений: плеер за 150..200 долларов .

Эти операторы имеют влияние на сам поисковый запрос . Следующая группа операторов упрощает поиск в Интернете, сужая круг поисков: страницы в выдаче выбираются по определенному критерию .

  • Оператор Site нужен для поиска по проиндексированным страницам конкретного сайта. Его можно использовать как для поиска всех проиндексированных страниц (site:uwoomen.com ), так и для поиска по ключевым словам на этих страницах (site:uwoomen.com хобби ).
  • Оператор Filetype позволяет находить файлы определенного формата , например: реферат по биологии filetype:rtf .
  • Оператор Cache отображает страницы, сохраненные в кэше поисковой системы: cache:uwoomen.com . Зачем это нужно? Бывает так, что нужный материал был удален с сайта, однако он какое-то время сохраняется в кэше.
  • Оператор Define позволяет находить определение слов и словосочетаний: define поисковая система .
  • Для поиска сайтов, схожих по тематике с определенным сайтом, используют оператор Related : related:uwoomen.com .

Некоторые функции поиска Google способны значительно упростить повседневную жизнь: тут вам и прогноз погоды, и конвертер валют, и многое другое.

  • Для того, чтобы узнать прогноз погоды , достаточно ввести слово «погода» и название вашей страны и населенного пункта: погода в Москве . Для США кроме города указываются штат и индекс.
  • Если вам нужно узнать часовой пояс , в котором находится тот или иной город, введите в строку поиска словосочетание «часовой пояс» и название города: часовой пояс Калининград .
  • Можно ограничить поиск различных организаций (ресторанов, магазинов и т.п.) определенным городом : пицца в Казани .
  • Если вы хотите узнать расписание киносеансов в определенном населенном пункте, добавьте к запросу «кино» название вашего города: кино в Сочи .
  • Для поиска карт городов используется такой поисковый запрос: карта Санкт-Петербурга (подставьте нужный город), со страницы результатов поиска вы сможете перейти к сервису Google Maps.
  • Строку поиска Google можно использовать в качестве калькулятора , введя в нее пример, который нужно посчитать: (7+3*5)/11=
  • Также эта поисковая система позволяет конвертировать единицы измерения величин из английской системы мер в метрическую и наоборот: 9,5 ярдов в сантиметрах .
  • Кроме конвертации единиц измерения, можно также конвертировать валюту разных стран, к примеру: 200 долларов США в рублях .

Конечно, это далеко не полный список функций и операторов, но для начала вам должно хватить и их. Поиск в сети Интернет может осложняться тем, что не все операторы и функции всегда работают корректно . Часто, например, «грешит» некорректными результатами поиска оператор Related.

Поиск в сети Интернет на первый взгляд очень прост. Но потом, столкнувшись с огромным количеством информации, которую тяжело отфильтровать, многие пользователи разочаровываются в поисковых системах. А зря! Умение правильно сформулировать запрос и знание некоторых тонкостей и хитростей избавят вас от утомительного хождения по ненужным и малоинформативным сайтам .

Поиск в сети Интернет может быть быстрым и эффективным — если вы знаете, как правильно искать !

4. Глобальная сеть Интернет: поиск информации в сети

Интернет (англ. Internet, от Interconnected Networks – объединённые сети) – глобальная телекоммуникационная сеть информационных и вычислительных ресурсов. Служит физической основой для Всемирной паутины. Часто упоминается как Всемирная сеть, Глобальная сеть, либо просто Сеть. Когда сейчас слово Интернет употребляется в обиходе, то чаще всего имеется в виду Всемирная паутина и доступная в ней информация, а не сама физическая сеть. За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации.

Основная цель пользователя при работе с сетью Internet – это получение информации, так как в первую очередь Internet является гигантским информационным ресурсом. Целенаправленный поиск явно или неявно требует формулировки цели поиска, понимания того, что является объектом поиска, обоснованного выбора средства поиска и эффективной методики.

В качестве объекта поиска может рассматриваться любая информация, если имеется возможность представления ее в Internet. Это могут быть телефоны и адреса, информация о товарах и услугах, радио и теле трансляции, методическая литература, учебные курсы, конспекты лекций, аналитические обзоры, графические материалы, файлы мультимедиа, программное обеспечение, и многое другое.

Поиск информации в сети – это последовательность действий, от определения предмета поиска, до получения ответа на имеющиеся вопросы с использованием всех поисковых сервисов, которые предоставляет сегодня Internet.

Средствами для нахождения информации в Интернете являются справочно-поисковые системы. Все существующие типы справочно-поисковых систем в Интернете могут быть разделены на следующие группы:

Системы Web‑поиска;

Системы поиска FTP‑файлов;

Системы поиска в архивах Gopher;

Системы поиска в Usenet;

Каталоги;

Порталы.

Каждая поисковая система индексирует страницы серверов особым способом, приоритеты в поиске по индексам тоже отличаются от других систем, поэтому запрос по ключевым словам и выражениям в каждой из поисковых систем может дать разные результаты.

Методика поиска включает правила формирования запроса на поиск, методы сужения области поиска, управление процессом поиска, выбор формы представления результатов. Существует два основных метода поиска информации в Internet – с использованием поисковой машины или с использованием каталога. При этом сам механизм поиска в обоих случаях практически одинаков. Различия возникают при составление списка ключевых слов: для поисковой машины – это составление списка ключевых слов, а для каталога на этом этапе производится определение тематики разделов, в которых может находиться необходимая информация.

4.1 Проблема поиска и поисковые системы

В закромах Internet находятся миллиарды Web‑страниц, терабайты информации в различных файлах, но вся проблема в том, что для получения нужной информации необходимо указать ее точный адрес – URL, который состоит из доменного имени (либо IP‑адреса), пути к файлу и имени файла. Если мы найдем такой URL, то без труда введем его в адресную строку программы Internet Explorer и увидим нужную Web‑страницу, либо скачаем файл. В минимальном варианте нам необходимо знать хотя бы доменное имя ресурса, а затем, щелкая по гиперссылкам, мы сможем добраться до действительно нужной нам информации.

Как найти адрес (URL)? Способов несколько. Самый простой способ – это увидеть доменные имена в различных рекламных материалах. Как правило, указывается короткий адрес, состоящий только из доменного имени, что-то наподобие: http://www.1tv.ru или еще короче: 1tv.ru.

Но как быть, если адрес совершенно неизвестен? Например, необходимо найти расписание поездов дальнего следования на лето. Для этого обратимся к хранилищам таких адресов, к специальным поисковым системам. Поисковые системы выполнены в виде Web‑страниц, но на этих страницах располагается не информация как таковая, а аннотированные ссылки на другие ресурсы (страницы, сайты). Для вызова поисковой системы необходимо в адресной строке программы, например Internet Explorer указать ее адрес. Поисковых систем в сети Internet сейчас достаточно много. В таблице ниже перечислены лишь наиболее популярные поисковые системы.

Первый этап работы поисковой системы – это индексирование информации, находящейся в Internet. Сетевой робот поисковой системы просматривает огромное количество страниц и заносит адреса и краткое содержание этих страниц к себе в базу данных, точнее в поисковый индекс. Владельцы сайтов будут очень рады, если их сайт просмотрит сетевой робот. Для того, чтобы робот обязательно просмотрел сайт и внес его в поисковый индекс, владельцы сами регистрируют свои сайты в поисковой системе (как правило, в нескольких поисковых системах). Процесс занесения адреса и описания страницы в поисковую систему называется индексация. Таким образом, когда спросите поисковую систему о том, где находится расписание поездов дальнего следования на лето, она не будет лихорадочно искать совпадения в огромной сети Internet, а всего лишь поищет в своем заранее подготовленном поисковом индексе, причем сделает это очень быстро.

Второй этап работы поисковой системы – это выдача накопленной и отобранной, отсортированной и классифицированной информации по запросам пользователей. Рассмотрим эту работу с наиболее популярной поисковой системой Яндекс.

4.2 Поиск по ключевым словам

Наиболее простым и результативным поиском является поиск по ключевым словам. Разберемся с правилами поиска по ключевым словам в поисковой системе Яндекс (рис. 15).

В других системах эти правила могут отличаться, но основные положения будут идентичны. Основной алгоритм поиска следующий: введите ключевые слова в поле запроса (например, расписание поездов), нажмите кнопку Найти. После нажатия кнопки Найти, Поисковая система выведет список ссылок на документы, наиболее точно соответствующие запросу.


Рисунок 15 – Заглавная страница поисковой системы Яндекс

1. Поисковая форма. Главный ее элемент – поле запроса.

2. Статистика поиска: число найденных документов и частота заданных в запросе слов.

4. Результаты поиска – список найденных ссылок. Для каждого документа выдается следующая информация: заголовок – ссылка на ресурс, краткая аннотации ресурса (страницы), найденные слова, похожие документы, еще с сайта, и, если найденный сайт описан в каталоге, переход в соответствующую рубрику каталога. Кроме этого, информация о размере, дате документа, URL документа.

5. Переход на следующие страницы результата (нужно щелкнуть по номерам страниц). Сортировка по убыванию дат (первоначально список сортируется по ревалентности, то есть по степени соответствия результата запросу).

6. «Колдунщик запросов». Здесь даются советы и предложения по уточнению вашего запроса. Можно сузить поиск по рубрике каталога или по региону.

7. Популярные находки наших пользователей – ссылки на документы, выбранные пользователями по этому запросу (выводится только при точном соответствии).

8. Возможность поискать в других русскоязычных поисковых машинах.

9. Результат поиска в новостных лентах информационных агентств (выводится только при точном соответствии запросу). При высоком соответствии и актуальности эта секция может оказаться над результатами поиска.

11. Результат поиска в энциклопедических статьях (выводится только при точном соответствии запросу).

12. Результат поиска в базе товарных предложений магазинов (выводится только при точном соответствии запросу).

13. Метками R1‑R5 на рисунке помечены различные рекламные блоки.

Поскольку в поисковой системе очень много различной информации, то результат поиска по фразе «расписание поездов» очень обширен, для облегчения нахождения нужной информации его следует уточнить, для этого давайте рассмотрим, что для этого предусмотрено в поисковой форме (рис. 16).

Рисунок 16 – Поисковая форма системы Яндекс

Флажок «в найденном» позволяет искать в результатах предыдущего запроса. Например, по запросу расписание поездов система выдала 300 тыс. страниц, мы вводим следующий запрос дальнего следования и устанавливаем флажок «в найденном» – теперь поиск будет вестись среди этих 300 тыс. страниц. Ограничить область поиска можно, щелкнув по ссылкам Каталог, Новости, Маркет, Энциклопедии, Картинки. Щелчок по нужной ссылке заменяет нажатие кнопки Найти. Удобно сужать область поиска для нахождения картинок, например, введите в поисковое поле Путин и щелкните по ссылке Картинки. Для поиска картинки можно также указать желаемый размер картинки от значения «Мелочь» до «Огромные». Ограничивая область поиска, тем самым отсекаем часть заведомо ненужной нам информации. Но часто бывает необходимость вести поиск во всей базе, но для отсечения ненужной информации приходится вводить различные дополнительные сведения. Для этого служит Расширенный поиск. Он включается щелчком по ссылке «расширенный поиск», либо по значку «+» (рис. 17).

Эта страница позволяет Вам более тонко указать условия поиска. Важно то, что найденные в результате документы будут соответствовать сразу всем условиям, поставленным Вами. Давайте разберемся с особенностями ввода условий расширенного поиска.

Рисунок 17 – Страница ввода условий расширенного поиска


1. Поле запроса – введите слова, которые обязательно должны быть в найденных документах, перед словами, которых не должно быть в документах поставьте знак минус (пробел ставьте до знака, но не после), например, – электричка.

2. Расположение слов относительно друг друга – подряд, в одном предложении, не очень далеко (в пределах нескольких строк), на одной странице.

3. Расположение слов на странице – где угодно (в любом месте страницы), в заголовке (заголовок страницы отображается в заголовке окна программы Internet Explorer, то есть в синей полосе), в тексте ссылки (слово является гиперссылкой), также можно указать адрес, куда ведет данная ссылка – таким образом, удобно искать те страницы, которые ссылаются на данную.

4. Форма употребления слов. Поисковая система умеет склонять (спрягать) введенное слово и по умолчанию находит документы, в которых встречаются все формы слова. Если Вы выберите «точно так, как в запросе», то поисковая система будет искать только введенную Вами форму слова. Это удобно при поиске цитат.

5. Язык страницы – укажите язык, на котором должна быть выполнена страница. Язык содержится в невидимом пользователю заголовке страницы. В базу поисковой системы вносятся документы русскоязычного Интернета, находящиеся в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz, а также зарубежные сайты, представляющие интерес для русскоязычного поиска.

6. Дата страницы – укажите любой из предложенных вариантов, либо введите период (даты начала и конца), в пределах которого должна находиться дата документа.

7. Формат документа. Все Web‑страницы имеют формат HTML, то есть выполнены с использованием языка разметки гипертекста, однако, в сети Internet присутствуют документы и другого формата, которые также можно просматривать с помощью программы Internet Explorer: PDF – файл публикации, DOC – документ, созданный в программе Microsoft Word, RTF – форматированный текст (универсальный формат).

9. Страницы находятся на сайте – укажите доменное имя сайта.

10. Страницы похожи на страницу – укажите URL страницы-образца.

В нижней желтой панели «Итого:» полностью сформулирован запрос. Поскольку мы ищем «свежее» расписание движения поездов, то можно воспользоваться условием Дата страницы.

4.3 Язык запросов Синтаксис языка запросов. В поисковой системе существует специальный язык запросов, использовать который более сложно, чем форму расширенного поиска, но при его использовании можно получить наилучший результат. Поисковый запрос вводится в поисковое поле, он может содержать ключевые слова и специальные символы, позволяющие установить взаимосвязи между этими словами и ввести дополнительные параметры. Большинство этих символов представлено в табл. 1.

Таблица 1 – Синтаксис языка запросов системы Яндекс

Пример__«»

поиск фразы

«красная шапочка»
(эквивалентно красная /+1 шапочка)

+ обязательное наличие слова в найденном документе +быть или +не быть
~~ или – не должно быть слова в пределах документа (И НЕ) путеводитель по парижу ~~ (агентство | тур)
~ не должно быть слова в пределах предложения (И НЕ) банки ~ закон
! искать только указанную форму слова ! Путин
пробел или & логическое И (в пределах предложения) фабрика звезд
&& логическое И (в пределах документа) музыка && (фабрика звезд)
| логическое ИЛИ рисунок | картинка | фото | коллаж
/(n m) расстояние между словами (-назад +вперед)

поставщики /2 кофе
музыкальное /(-2 4) образование
вакансии ~ /+1 студентов




Top