Что такое поисковик в интернете. Количественные данные поисковой системы Google. Какой поисковик выбрать Google или Яндекс

В Интернет специальный веб сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Поисковая система состоит из трех компонент: 1 поискового робота; 2 индекса системы; и 3 программы,… … Финансовый словарь

Сущ., кол во синонимов: 3 искалка (9) ищейка (16) поисковик (13) Словарь синонимов AS … Словарь синонимов

поисковая система - поисковик Сайт, при помощи которого ищутся другие сайты. Поиск осуществляется путём ввода ключевых слов в окошко поиска. В отличии от каталогов, даже, если сайт не был предварительно зарегистрирован, его можно найти при помощи поисковика.… … Справочник технического переводчика

поисковая система - ieškos sistema statusas T sritis automatika atitikmenys: angl. searching system vok. Suchsystem, n rus. поисковая система, f pranc. système de recherche, m … Automatikos terminų žodynas

Поисковая система - – (англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина) – Инструмент для поиска информации в Интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент,… … Энциклопедический словарь СМИ

Управления, система автоматического управления (См. Автоматическое управление), в которой управляющие воздействия методом поиска автоматически изменяются т. о., чтобы осуществлялось наилучшее (в каком то смысле) управление объектом; при… … Большая советская энциклопедия

Управлення система автоматического управления, в к рой управляющие воздействия методом поиска автоматического изменяются т. о., чтобы осуществлять наилучшее управление объектом; при этом изменения хар к объекта или воздействий внеш. среды заранее … Большой энциклопедический политехнический словарь

СМП 1 редназначена для поиска спасателей, попавших в критические условия, связанные с угрозой для жизни, а также поиска десантированных грузов и различных объектов в условиях плохой видимости. В ее состав входят: радиоблок поиска активных… … Словарь черезвычайных ситуаций

автоматизированная информационно-поисковая система - 3.2.5 автоматизированная информационно поисковая система: ИПС, реализованная на базе электронно вычислительной техники Источник … Словарь-справочник терминов нормативно-технической документации

У этого термина существуют и другие значения, см. Апорт. Апорт … Википедия

Книги

  • Экстремальные задачи теории графов и Интернет. Учебное пособие , Райгородский Андрей Михайлович. Настоящая брошюра посвящена изучению различных экстремальных задач теории графов, (хотя бы частичное) решение которых может быть полезно при анализе данных. Она возникла на основе…
  • Экстремальные задачи теории графов и интернет , Райгородский Ф.М.. Настоящая брошюра посвящена изучению различных экстремальных задач теории графов, (хотя бы частичное) решение которых может быть полезно при анализе данных. Она возникла на основе…

Что это

DuckDuckGo - это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo, Bing, «Википедии».

Чем лучше

DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.

DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.

Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo

Зачем это вам

Все крупные поисковые системы стараются персонализировать на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.

DuckDuckGo формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках: Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.


Что это

not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный с одноимённым названием.

not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на Google (достаточно посмотреть на стартовую страницу).

Чем лучше

Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.

Зачем это вам

В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И их число будет расти по мере того, как ужесточается контроль властей над содержанием Сети. Tor - это своеобразная сеть внутри Сети со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.

3. YaCy

Что это

YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.

Чем лучше

Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.

Зачем это вам

Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy - это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.

4. Pipl

Что это

Pipl - система, предназначенная для поиска информации о конкретном человеке.

Чем лучше

Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными источниками информации являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.

Зачем это вам

Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.

Что это

FindSounds - ещё один специализированный поисковик. Ищет различные звуки (дом, природа, машины, люди и так далее) в открытых источниках. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнить поиск.

Чем лучше

В выдаче только звуки и ничего лишнего. В настройках поиска можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск звуков по образцу.

Зачем это вам

Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это мы выбрали только из доступных русскоязычных запросов. На английском языке спектр ещё шире.

А если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?

Что это

Wolfram|Alpha - вычислительно-поисковая система. Вместо ссылок на статьи, которые содержат ключевые слова, она выдаёт готовый ответ на запрос пользователя. Например, если ввести в форму поиска «сравнить население Нью-Йорка и Сан-Франциско» на английском, то Wolfram|Alpha сразу выведет на экран таблицы и графики со сравнением.

Чем лучше

Этот сервис лучше других подходит для поиска фактов и вычисления данных. Wolfram|Alpha накапливает и систематизирует доступные в Сети знания из различных областей, включая науку, культуру и развлечения. Если в этой базе находится готовый ответ на поисковый запрос, система показывает его, если нет - вычисляет и выводит результат. При этом пользователь видит только нужную информацию и ничего лишнего.

Зачем это вам

Если вы, например, студент, аналитик, журналист или научный сотрудник, то можете использовать Wolfram|Alpha для поиска и вычисления данных, связанных с вашей деятельностью. Сервис понимает не все запросы, но постоянно развивается и становится умнее.

Что это

Метапоисковик Dogpile выводит комбинированный список результатов из поисковых выдач Google, Yahoo и других популярных систем.

Чем лучше

Во-первых, Dogpile отображает меньше рекламы. Во-вторых, сервис использует особый алгоритм, чтобы находить и показывать лучшие результаты из разных поисковиков. Как утверждают разработчики Dogpile, их системы формирует самую полную выдачу во всём интернете.

Зачем это вам

Если вы не можете найти информацию в Google или другом стандартном поисковике, поищите её сразу в нескольких поисковиках с помощью Dogpile.

Что это

BoardReader - система для текстового поиска по форумам, сервисам вопросов и ответов и другим сообществам.

Чем лучше

Сервис позволяет сузить поле поиска до социальных площадок. Благодаря специальным фильтрам вы можете быстро находить посты и комментарии пользователей, которые соответствуют вашим критериям: языку, дате публикации и названию сайта.

Зачем это вам

BoardReader может пригодиться пиарщикам и другим специалистам в области медиа, которых интересует мнение массовой аудитории по тем или иным вопросам.

В заключение

Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко .


Сергей Петренко

Бывший генеральный директор «Яндекс.Украины».

Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.

Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.

Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.

«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до Google и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии. Наверняка вы тоже знаете подобные проекты. Поделитесь с нами - обсудим.

Каждый момент времени человек принимает решения. Результат: движение вперед, суета на месте или перемещение в информационном пространстве, но куда? Что понимают под поисковой системой?

Хорошее зрение, слух, надежная работа всех органов чувств и объективное восприятие действительности во многом определяют правильное применение накопленного опыта и знаний, дают шанс интуиции проявить себя. Но правильный ответ - результат не только правильного вопроса, но и корректно собранной информации для его решения (это область критерия).

Что понимают под поисковой системой кратко? История интернет-поиска

Во времена, когда компьютеры и Интернет были уделом избранных, логика обычного библиотечного дела считалась востребованной. Зачем усложнять решение задачи, когда для ориентации в информационном пространстве достаточно каталога файлов, данных, решений, программ и всего, что было сделано и может пригодиться?

Не стоит ли пользователям поставить памятник? Вспомнить, что именно труду фанатов компьютерного дела обязаны сети, каталоги, возможности для общения и «первичного» накопления:

  • информационного капитала;
  • основ современных представлений (они канули в лету, но их мимолетное явление образовало долгосрочную перспективу).

Мощь и возможности компьютеров быстро ушли из вычислительной сферы в сферу обработки информации. Интернет стал стремительно завоевывать новые территории в областях применения и умах людей. Простое библиотечное дело моментом мигрировало в изощренные механизмы поисковых машин.

Многочисленные армии искателей, роботов, "пауков" и прочих алгоритмов принялись скрупулезно исследовать все, что попадало в интернет-пространство. Возможно, именно они дали понять, что такое поисковая система, как работает поиск, что такое Интернет. Они учились индексировать информацию, приходили к пониманию того, что можно и как нужно использовать.

Это был древний «доинформационный мир», допотопное вооружение, примитивные методики собирательства - совсем как рыбалка и охота во времена, когда люди только начали представлять собой что-то общественное, социально значимое, отделившееся от природы по критерию разумности.

Индексация: мы не рабы, но у нас еще ничего нет

Индексация информационного пространства, методика ориентации в собранной информации и умение правильно корректировать имеющееся за счет обнаруженных изменений во внешней (Интернет) среде становились основой для выживания. Так принято в живой природе, а интернет-пространство уже обретало свою собственную и абсолютно реальную жизнь.

В истории всегда было что-то, что можно вспомнить, но всегда возникает вопрос, а так ли это было, связано ли то историческое «бытие» с реальными людьми и памятными воспоминаниями?

Возможно, сосед по лестничной клетке оказался создателем Google или сформулировал фундаментальные основы процветания Yandex. Но многие упоминают 1945 год как точку, с которой началась идея гипертекста, а «Волшебный автоматический извлекатель текста Сэлтона» считается отцом современной поисковой технологии.

С тех пор утекло много воды, а список первых поисковиков, первых античных алгоритмов и идей так велик, что сам по себе является хорошей поисковой задачей для систематизации и индексации прошлого.

Небеспочвенно утверждать, что причина явления Google как феномена и современной системы - это не только реальный человек, его друзья и подруги. Почему это не совершенно иная точка информационного пространства, которая удачно вызвала нужный резонанс или ассоциацию?

Совокупное общественное сознание - еще та темная вселенная, в которой до своего варианта лампочки Эдисона очень даже далеко.

Год 1994: какой бот сказал ключевое слово «мама»?

В современном мире с трудом верится в прошлое, но сделав скидку на точность дат и участие реальных личностей, следует отметить, что появление ключевых слов - это еще не семантическое ядро.

Что понимали под поисковой системой в конце прошлого века, уже было абсолютно ясно: это десяток популярных поисковиков с конкурирующим рейтингом в борьбе за клиента. Одним нравился Yahoo, другим Aport, третьим Rambler, но в конечном счете остались Google и Yandex.

Все это слова, мнения, предпочтения и интересные факты. Однако монстры поискового дела образовались, создали фундаментальные основы, заложили объективное знание и солидный опыт в понимание:

  • механизмов поиска;
  • ключевые слова;
  • семантическое ядро.

Гипертекст не только оперился, но и стал основой интернет-программирования, проложил дорогу смежным серьезным технологиям.

Главное: не суть, как мы понимаем и что происходит. Важно, что направление движения есть, и оно правильное. Колебания курса - это нормально, не будь колебаний, не было бы повода оптимизировать критерии. А критерии и в вопросе, и в ответе - самое главное.

Год 1989: возрождение, о котором забыли

Откат - это особый исторический механизм и всегда интересный факт. Людям, особенно ученым и квалифицированным специалистам, свойственно забывать о сути вещей и уходить в мечтания. Мир войн, гладиаторов и страшных сражений - забава по сравнению с тем, какие состязания идут в общественном и частном сознании. Здесь царство мрака, но идти вперед нужно, и без победы на каждом шагу никак нельзя.

Принцип работы поисковой системы лег в основу алгоритма. Реальных реализаций алгоритмов исполнено множество. Выжило очень мало, но именно это поделило между собой все интернет-сообщество. Борьба за идеалы в сфере поиска уже тогда имела значение, но даже краткая история развития поисковых систем перестала интересовать потребителя.

Пользователю нужен ответ, а не достижения ученых и специалистов. Потребитель желает знать, как правильно сформулировать вопрос, чтобы получить адекватный ответ и быть уверенным, что поисковый механизм отработал правильно, применил объективные критерии.

Кого волнует интересный факт, что ООП и облака были придуманы в 1989-1991 гг. Абсолютно никого! Но всего десяток лет назад пошел откат: теперь без ООП и облачных технологий нельзя. Но откат «не покатил» в нужном направлении, поэтому на вопрос о том, что понимают под поисковой системой, нет конкретного ответа. Ничего нового не появилось, а вот лишнее - да.

Определение поиска и поисковой системы

Когда появились калькуляторы, человек подумал, что забудет правила сложения, умножения, деления. Прошло время, и страх развеялся. Калькуляторы живы, и столбиком вершить простейшие математические действия человек не разучился.

Во времена, когда функционирует "Гугл" и "Яндекс", а вокруг небольшое число авторитетных поисковых систем, сложилось мнение: поиск - это компьютерный алгоритм, а поисковая система (определение слова и его значение) - это программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Выдача поисковой системы

Что понимают под поисковой системой, несложно представить. Есть строка запроса, посетитель пишет ключевое слово, нажимает кнопку «искать» и получает результат. Но поисковая выдача - это не ответ, а ключевое слово - это не вопрос.

В обычной жизни человек не пользуется ключевыми словами и никогда не получает никакой «выдачи». Если ребенок хочет кушать, он скажет об этом маме или папе. Все зависит от того, что именно малыш хочет: реально поесть или получить деньги на мороженое. Реакция родителя может быть лишена слов, но действие последует.

Работник не будет обращаться к нанимателю через ключевые слова, иначе результатом выдачи будет бессловесное увольнение.

Все это факты, но человек и компьютерная система - это другая сфера отношений. Пока есть четкое представление, что понимают под поисковой системой - это не вопросы, ответы, критерии, а ключевые слова и результаты работы движка (поисковая выдача).

Реальная польза текущего момента

Страсти по SEO, стремительный рост числа веб-студий, развитие рекламного дела, навязывание идей, тонны спама и мусор в выдаче - все это естественно и объективно нормально. Бороться со спамом, хакерами и негативом пора. Нужно это делать внимательно, но реальная польза от сложившейся ситуации - всего лишь очередной этап развития поискового дела.

Ключевые слова - отлично. Семантическое ядро сайта - прекрасно. Компьютер может переводить тексты на разные языки и разбирать естественные предложения. Язык SQL стал де-факто в «общении» с базами данных. У SQL - масса диалектов, а это реальный показатель. Искусственный язык стал жизнеспособен! Язык способен дать доступ к огромным объемам систематизированной информации.

Oracle и другие лидеры в сфере больших баз данных потратили десятки лет на представление информации. Google - на сбор информации и механизмы индексации. Семейство Linux удержало позиции, Windows осталась на плаву, а численность языков программирования сузилась до достаточного уровня.

Искусственный интеллект ушел в мир грез, разработчики и потребители объективно устремились в мир созидательного управления информацией и ее использования.

Поисковая выдача: важное и бесполезное

Не так сложно систематизировать поисковую выдачу, но за последние десять лет она не изменилась. По сути - верно. Если в строке поиска ключевое слово, а не вопрос, то о каком ответе может идти речь? Критерии во всех современных поисковых системах есть, к ним относятся с надлежащим пониманием, но зачем ограничивать потребителя?

Важна реакция пользователя на то, какую именно часть поисковой выдачи он выбирает. Это его мнение о результатах работы поисковой системы. Поисковики ценят это и учитывают не только в частном запросе, но и в целом.

Поток ключевых слов и поток выдачи - и то, и другое содержит информационный мусор. Это тоже повод для формирования критериев. Нельзя рассматривать задачу поиска как применение ключевого слова и алгоритма к накопленной информации, как уточнение накопленной информации.

О перспективах: от поиска к решению

Лучшее решение - не принимать никаких решений. Понимают это или нет разработчики поисковых механизмов, но факт остается фактом: что такое поисковая система, разработчики знают в контексте реакции на ключевое слово, как индекс в условиях выборки информации из уже доступных и систематизированных данных.

Потребитель сам выберет из поисковой выдачи, что сочтет нужным, и примет решение. Поисковая система учтет и запомнит это. Как человек распорядится полученной информацией - это будет следующее ключевое слово.

Так поисковая система учится принимать решения, а человек - формулировать вопросы. Пока это ключевые слова, а результат ответа - поисковая выдача. Но количество всегда переходит в качество.

Что такое поисковые системы Интернета? Реальность, основанная на поступательном движении вперед. Не так много практических задач требуют разума от компьютерных систем. В большинстве случаев вполне достаточно, чтобы они просто адекватно отвечали на правильно поставленные вопросы.

В последние годы сервисы от «Гугл» и «Яндекс» прочно вошли в нашу жизнь. В этой связи многие наверняка задаются вопросом, что такое поисковая система? Говоря простыми словами, это программная система, предназначенная для поиска информации в World Wide Web. Результаты его обычно представлены в виде списка, часто называемом страницами результатов поиска (SERP). Информация может представлять собой сочетание веб-страниц, изображений и других типов файлов. Некоторые поисковые системы также содержат информацию, доступную в базах данных или открытых каталогах.

В отличие от веб-каталогов, которые поддерживаются только собственными редакторами, поисковики также содержат информацию в режиме реального времени, запуская алгоритм на веб-искателе.

История возникновения

Сами по себе поисковые системы появились ранее всемирной сети - в декабре 1990 года. Первый такой сервис назывался Archie, и он искал по командам содержимое файлов FTP.

Что такое поисковая система в Интернете? До сентября 1993 года World Wide Web была полностью проиндексирована вручную. Существовал список веб-серверов, отредактированный Тимом Бернерс-Ли, который был размещен на веб-сервере CERN. По мере того, как все большее количество серверов выходили в интернет, вышеуказанный сервис не мог успевать обрабатывать такое количество информации.

Одной из первых поисковых систем, основанных на поиске в сети, была WebCrawler, которая вышла в 1994 году. В отличие от своих предшественников, она позволяла пользователям искать любое слово на любой веб-странице. Такой алгоритм с тех пор стал стандартом для всех основных поисковых систем. Это было также первое решение, широко известное публике. Также в 1994 году был запущен сервис Lycos, который впоследствии стал крупным коммерческим проектом.

Вскоре после этого появилось много поисковых машин, и их популярность значительно выросла. К ним можно отнести Magellan, Excite, Infoseek, Inktomi, Northern Light и AltaVista. Yahoo! был одним из самых популярных способов отыскания интересующих веб-страниц, но его алгоритм поиска работал в своем собственном веб-каталоге, а не в полнотекстовых копиях страниц. Искатели информации также могли просматривать каталог, а не выполнять поиск по ключевым словам.

Новый виток развития

Компания Google приняла идею продажи поисковых запросов в 1998 году, начиная с небольшой компании goto.com. Этот шаг оказал значительное влияние на бизнес SEO, который со временем стал одним из самых прибыльных занятий в Интернете.

Примерно в 2000 году поисковая система «Гугл» стала широко известна. Компания добилась лучших результатов для многих поисков с помощью инноваций под названием PageRank. Этот итерационный алгоритм оценивает веб-страницы на основе их связей с другими сайтами и страницами, исходя из предпосылки, что хорошие или желанные источники часто упоминаются другими. Google также поддерживал минималистский интерфейс для своей поисковой системы. Напротив, многие из конкурентов встроили поисковую систему в веб-портал. На самом деле «Гугл» стала настолько популярной, что появились мошеннические движки, такие как Mystery Seeker. Сегодня существует масса региональных версий этого сервиса, в частности, поисковая система Google.ru, рассчитанная на русскоязычных пользователей.

Как работают эти сервисы?

Как же происходит ранжирование и выдача результатов? Что такое поисковые системы с точки зрения алгоритма действий? Они получают информацию через веб-сканирование с сайта на сайт. Робот или «паук» проверяет стандартное имя файла robots.txt, адресованное ему, перед отправкой определенной информации для индексации. При этом основное внимание уделяется многим факторам, а именно заголовкам, содержимому страницы, JavaScript, каскадным таблицам стилей (CSS), а также стандартной разметке HTML информационного содержимого или метаданным в метатегах HTML.

Индексирование означает связывание слов и других определяемых токенов, найденных на веб-страницах, с их доменными именами и полями на основе HTML. Ассоциации создаются в общедоступной базе данных, доступной для запросов веб-поиска. Запрос от пользователя может быть одним словом. Индекс помогает найти информацию, относящуюся к запросу как можно быстрее.

Некоторые из методов индексирования и кэширования - это коммерческие секреты, тогда как веб-сканирование - это простой процесс посещения всех сайтов на систематической основе.

Между посещениями робота кэшированная версия страницы (часть или весь контент, необходимый для ее отображения), хранящийся в рабочей памяти поисковой системы, быстро отправляется запрашивающему пользователю. Если визит просрочен, поисковик может просто действовать как веб-прокси. В этом случае страница может отличаться от индексов поиска. На кэшированном источнике отображается версия, слова которой были проиндексированы, поэтому он может быть полезен в том случае, если фактическая страница была утеряна.

Высокоуровневая архитектура

Обычно пользователь вводит запрос в поисковую систему в виде нескольких ключевых слов. У индекса уже есть имена сайтов, содержащих данные ключевые слова, и они мгновенно отображаются. Реальная загрузочная нагрузка заключается в создании веб-страниц, которые являются списком результатов поиска. Каждая страница во всем списке должна быть оценена в соответствии с информацией в индексах.

В этом случае верхний элемент результата требует поиска, реконструкции и разметки фрагментов, показывающих контекст из сопоставленных ключевых слов. Это лишь часть обработки каждой веб-страницы в результатах поиска, а дальнейшие страницы (рядом с ней) требуют большей части этой последующей обработки.

Помимо простого отыскания ключевых слов, поисковые системы предлагают свои собственные GUI- или управляемые командами операторы и параметры поиска для того, чтобы уточнить результаты.

Они обеспечивают необходимые элементы управления для пользователя с помощью цикла обратной связи, путем фильтрации и взвешивания при уточнении искомых данных с учетом начальных страниц первых результатов поиска. Например, с 2007 года Google.com позволила отфильтровать полученный список по дате, нажав «Показать инструменты поиска» в крайнем левом столбце на странице исходных результатов, а затем выбрав нужный диапазон дат.

Варьирование запросов

Большинство поисковых систем поддерживают использование логических операторов AND, OR и NOT, чтобы помочь конечным пользователям уточнить запрос. Некоторые операторы предназначены для литералов, которые позволяют пользователю уточнять и расширять условия поиска. Робот ищет слова или фразы точно так же, как и введенные команды. Некоторые поисковые системы предоставляют расширенную функцию отыскания, которая позволяет пользователям определять расстояние между ключевыми словами.

Существует также основанный на концепции поиск, в котором исследование предполагает использование статистического анализа на страницах, содержащих слова или фразы, которые вы ищете. Кроме того, запросы на естественном языке позволяют пользователю вводить вопрос в том же виде, который он задал бы человеку (самый характерный пример - ask.com).

Полезность поисковой системы зависит от релевантности набора результатов, который она выдает. Это могут быть миллионы веб-страниц, которые содержат определенное слово или фразу, но некоторые из них могут быть более релевантными, популярными или авторитетными, чем другие. В большинстве поисковых систем используются методы ранжирования, чтобы обеспечить наилучшие результаты.

Каким образом поисковик решает, какие страницы являются лучшими совпадениями с запросом, и в каком порядке должны отображаться найденные источники, сильно варьируется от одного робота к другому. Эти методы также со временем меняются по мере изменения использования Интернета и развитием новых технологий.

Что такое поисковая система: разновидности

Существует два основных типа поисковой системы. Первая - система предопределенных и иерархически упорядоченных ключевых слов, которыми люди массово ее запрограммировали. Вторая - это система, которая генерирует «инвертированный индекс», анализируя найденные тексты.

Большинство поисковых систем - коммерческие сервисы, поддерживаемые доходами от рекламы, и, таким образом, некоторые из них позволяют рекламодателям иметь рейтинг в отображаемых результатах за определенную плату. Сервисы, которые не принимают деньги за ранжирование, зарабатывают деньги, запуская контекстные объявления рядом с отображенными сайтами. На сегодняшний день продвижение в поисковых системах является одним из наиболее прибыльных заработков в сети.

Какие сервисы распространены наиболее всего?

Google - самая популярная поисковая система в мире с долей рынка 80,52% по состоянию на март 2017 года.

  • Google - 80,52%
  • Bing - 6,92%
  • Baidu - 5,94%
  • Yahoo! - 5,35%

Поисковые системы России и стран Восточной Азии

В России и некоторых странах Восточной Азии Google - не самый популярный сервис. Среди российских пользователей поисковая система «Яндекс» лидирует по популярности (61,9%) по сравнению с Google (28,3%). В Китае Baidu является самым популярным сервисом. Поисковый портал Южной Кореи - Naver используется для 70% процентов онлайн-поиска в стране. Также Yahoo! в Японии и Тайвани является наиболее популярным средством для отыскания нужных данных.

Другие известные русские поисковые системы - «Мейл» и «Рамблер». С началом развития рунета они пользовались широкой популярностью, но в настоящее время сильно сдали свои позиции.

Ограничения и критерии поиска

Несмотря на то, что поисковые системы запрограммированы на ранжирование веб-сайтов на основе некоторой их популярности и релевантности, эмпирические исследования указывают на различные политические, экономические и социальные критерии отбора информации, которую они предоставляют. Эти предубеждения могут быть прямым результатом экономических (например, компании, которые рекламируют поисковую систему, могут также стать более популярными в результатах обычного поиска) и политических процессов (например, удаление результатов поиска в соответствии с местными законами). Так, Google не будет отображать некоторые неонацистские сайты во Франции и Германии, где отрицание Холокоста является незаконным.

Христианские, исламские и еврейские поисковые системы

Глобальный рост Интернета и электронных средств массовой информации в мусульманском мире за последнее десятилетие побудил исламских приверженцев на Ближнем Востоке и Азиатском субконтиненте попытаться создать собственные поисковые системы и отфильтрованные порталы, которые позволят пользователям выполнять безопасный поиск.

Такие сервисы содержат фильтры, которые дополнительно классифицируют веб-сайты как «халяль» или «харам» на основе современного экспертного толкования «Закона Ислама».

Портал ImHalal появился в сети в сентябре 2011 года, а Halalgoogling - в июле 2013 года. Они используют фильтры харам, базируясь на алгоритмах от Google и Bing.

Другие, ориентированные на религию поисковые системы - это Jewgle (еврейская версия Google), а также христианская SeekFind.org. Они фильтрует сайты, которые отрицают или унижают их веру.

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Опишем основные характеристики поисковых систем:

    Полнота

Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

    Точность

Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

    Актуальность

Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

    Скорость поиска

Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

    Наглядность

Наглядность представления результатов является важным компонентом удобного поиска. По большинству запросов поисковая машина находит сотни, а то и тысячи документов. Вследствие нечеткости составления запросов или неточности поиска, даже первые страницы выдачи не всегда содержат только нужную информацию. Это означает, что пользователю зачастую приходится производить свой собственный поиск внутри найденного списка. Различные элементы страницы выдачи поисковой системы помогают ориентироваться в результатах поиска.одробные пояснения по странице результатов поиска, например у «Яндекса» можно посмотреть по ссылке http://help.yandex.ru/search/?id=481937 .

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные международные поисковые системы – Google, Yahoo и MSN, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

    URL страницы

    дата, когда страница была скачана

    http-заголовок ответа сервера

    тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

    Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).

    Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.

    В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).

    Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.

    Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

Ни одна поисковая система не охватывает все ресурсы Интернет.

Каждая поисковая система собирает сведения о ресурсах Интернет, применяя свои уникальные методы, и формирует собственную периодически обновляемую базу данных. Доступ к этой базе предоставляется пользователю.

Поисковые системы реализуют два способа поиска ресурса:

    Поиск по тематическим каталогам - информация представляется в виде иерархической структуры. На верхнем уровне - общие категории (“Интернет”, “Бизнес”, “Искусство”, “Образование” и т.д.), на следующем уровне категории делятся на разделы и т.д. Самый нижний уровень - ссылки на конкретные веб-страницы или другие информационные ресурсы.

    Поиск по ключевым словам (индексный поиск или детальный) - пользователь отправляет поисковой системе запрос , состоящий из ключевых слов. Система возвращает пользователю перечень найденных по запросу ресурсов.

Большинство поисковых систем сочетают оба способа поиска.

Поисковые системы могут быть локальными, глобальными, региональными и специализированными.

В русской части Интернет (Рунет) наиболее популярны сейчас поисковые системы общего назначения Rambler (www.rambler.ru), Яндекс (www.yandex.ru), Апорт (www.aport.ru), Гугл (www.google.ru).

Большинство поисковых систем реализовано в виде порталов.

Портал (от англ. portal - главный вход, ворота) -это веб-сайт, который интегрирует различные сервисы Интернет: средства поиска, почту, новости, словари и т.д.

Порталы могут быть специализированными (как, www . museum . ru ) и общими (например, www . km . ru ).

Поиск по ключевым словам

Набор ключевых слов, по которым ведется поиск, называют также критерием поиска или темой поиска.

Запрос может состоять как из одного слова, так и из сочетания слов, объединенных операторами - символами, по которым система определяет, какое действие ей нужно произвести. Например: запрос “Москва Питер” содержит оператор И (так воспринимается пробел), который указывает, что надо искать документы, в которых есть оба слова - и Москва, и Питер.

Для того, чтобы поиск был релевантным (от англ. relevant -уместный, относящийся к делу), следует учитывать несколько общих правил:

    Независимо от того, в какой форме употреблено слово в запросе, поиск учитывает все его словоформы по правилам русского языка. Например, по запросу “билет” будут найдены и слова “билетом”, “билету” и т.д.

    Заглавные буквы следует использовать только в именах собственных, чтобы не просматривать лишние ссылки. По запросу “кузнецов”, например, будут найдены документы, где говорится и о кузнецах, и о Кузнецовых.

    Желательно сужать круг поиска, используя несколько ключевых слов.

    Если нужного адреса нет среди первой двадцатки найденных адресов, следует изменить запрос.

Каждая поисковая система использует свой язык запросов. Для знакомства с ним, пользуйтесь встроенной справкой поисковой системы

Крупные сайты могут иметь встроенные системы поиска информации в пределах своих веб-страниц.

Запросы в подобных системах поиска, как правило, строятся по тем же правилам, что и в глобальных поисковых системах, однако знакомство со справкой и здесь не будет лишним.

Расширенный поиск

Поисковые системы могут предоставлять в распоряжение пользователя механизм, позволяющий формировать сложный запрос. Переход по ссылке Расширенный поиск дает возможность редактировать параметры поиска, указывать дополнительные параметры и выбирать наиболее удобную форму показа результатов поиска. Ниже описаны параметры, которые могут быть заданы при расширенном поиске в системах Япс1ех и Rambler.

Описание параметра

Название в Яндекс

Название в Rambler

Где искать ключевые слова (заголовок документа, основной текст и т.д.)

Словарный фильтр

Поиск по тексту...

Какие слова должны или не должны присутствовать в документе и насколько точным должно быть совпадение

Словарный фильтр

Искать слова запроса... Исключить документы, содержащие следующие слова...

На каком расстоянии друг от друга должны располагаться ключевые слова

Словарный фильтр

Расстояние между словами запроса...

Ограничение на дату документа

Дата документа...

Ограничение поиска пределами одного или нескольких сайтов

Сайт/Вершина

Искать документы только на следующих сайтах...

Ограничение поиска по языку документа

Язык документа...

Поиск документов, содержащих картинку с определенным именем или подписью

Изображение

Поиск страниц, содержащих объекты

Специальные объекты

Форма представления результатов поиска

Формат выдачи

Вывод результатов поиска

Некоторые поисковые системы (например, Яндекс) позволяют вводить запросы на естественном языке. Вы пишите, что нужно найти (например: заказ билетов на поезд из Москвы в Питер). Система анализирует запрос и выдает результат. Если он Вас не устраивает, переходите на язык запросов.




Top