Поиск в Интерент. Поисковые машины. Поиск в Интернет. Поисковые машины.

  1. Понятие "поисковая система"
  2. История развития.
  3. Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.
  4. Специальзированные поисковые системы.
  5. Запрос в поисковых системах. Оптимизация поисковых запросов.
  6. Литература.
  1. Понятие "поисковая система".
    Поисковая система — веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых систем ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей Usenet. В последнее время появился новый тип поисковых движков, основанных на технологии RSS.
    Комплекс программ, обеспечивающий функциональность поисковой системы, называют поисковый движок или поисковая машина. Основными критериями качества работы поисковой машины являются релевантность (степень соответствия запроса и найденного), полнота базы, учёт морфологии языка. Индексация информации осуществляется специальными поисковыми роботами. Основные проблемы в работе поисковых систем описаны в статье Глубокая паутина.

  2. История развития.
    Первой поисковой системой для Всемирной паутины был «Wandex», уже не существующий индекс, который создавал «World Wide Web Wanderer» — бот, разработанный Мэтью Грэйем (англ. Matthew Gray) из Массачусетского технологического института в 1993. Также в 1993 году появилась поисковая система «Aliweb», работающая до сих пор. Первой полнотекстовой (т. н. «crawler-based» — то есть индексирующей ресурсы при помощи робота) поисковой системой стала «WebCrawler», запущенная в 1994. В отличие от своих предшественников, она позволяла пользователям искать по любым ключевым словам на любой веб-странице, с тех пор это стало стандартом во всех основных поисковых системах. Кроме того, это был первый поисковик, о котором было известно в широких кругах. В 1994 был запущен «Lycos», разработанный в университете Карнеги Мелона.
    В 1996 году русскоязычным пользователям интернета стало доступно морфологическое расширение к поисковой машине Altavista и оригинальные российские поисковые машины Rambler и Aport. 23 сентября 1997 года была открыта поисковая машина Яндекс.
    В апреле 1997 был запущен Ask Jeeves как поисковик, позволяющий формулировать запросы на естественном языке. Ask Jeeves использовал людей в качестве редакторов. Ask использовал технологию DirectHit для ранжирования результатов по популярности, но эта технология оказалась неустойчива к спаму. В 2000 году вышел поисковик Teoma, который использовал систему кластеров по теме, спецификации, популярности. В 2001 Ask купил Teoma для того чтобы заменить им технологию DirectHit.
    AllTheWeb - это поисковая платформа, запущенная в мае 1999 для того, чтобы продемонстрировать возможности быстрых поисковых технологий. У них был глянцевый интерфейс и множество возможностей для продвинутого поиска, но 23 февраля 2003 года AllTheWeb был куплен Overture за 70 миллионов. После того как Yahoo! Выкупила Overture, они позаимствовали некоторые из технологий AllTheWeb и сейчас иногда используют AllTheWeb как тестовую площадку.
    Помимо поисковых машин для Всемирной паутины существовали и поисковики для других протоколов, такие как Archie для поиска по анонимным FTP-серверам и «Veronica» для поиска в Gopher.

    Хронология
    Год Система Событие
    1993 Aliweb Запуск
    1994 WebCrawler Запуск
    1994 Lycos Запуск
    1995 AltaVista Запуск (Создана DEC)
    1995 Excite Запуск
    1996 Inktomi Основана
    1996 Ask Jeeves Основана
    1996 Rambler Запуск
    1996 Aport Запуск
    1997 Northern Light Запуск
    1997 Яндекс Запуск
    1998 Google Запуск
    1999 AlltheWeb Запуск
    2000 Teoma Основана
    2004 Yahoo! Search Окончательный запуск (первые собственные результаты)
    2004 MSN Search Бета запуск
    2005 MSN Search Окончательный запуск
    2006 Webalta Начало публичного тестирования
    Примечание: годом запуска считается год, когда появилась возможность получать результаты поиска через Всемирную паутину.

  3. Обзор и сравнение англоязычных, русскоязычных и международных поисковых систем.
    • Всеязычные:
      • Google
        Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск «intitle:Google site:wikipedia.org» даст все статьи википедии на всех языках, в заголовке которых встречается слово «Google»
      • Yahoo! и принадлежащие этой компании поисковые машины:
        Overture
        Inktomi
        AltaVista
        AltaVista
        Alltheweb FAST-Engine
      • MSN - крупный интернет-провайдер и веб-портал, созданный компанией Microsoft
    • Англоязычные и международные:
      • AskJeeves (механизм Teoma)
    • Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами.
      • Aport - российская поисковая система. Используется с 1995 года. Часть портала РОЛ. Принадлежит Golden Telecom. При поиске учитываются особенности русского языка. В Рунете с начала 2000-х годов поисковая система стала резко сдавать позиции, заметно уступая по популярности Яндексу и Рамблеру. По богатству языка запросов заметно уступает другим популярным системам.
      • Rambler - интернет-холдинг, включающий в качестве сервисов поисковую систему, рейтинг-классификатор ресурсов российского Интернета, информационный портал. Настройки языка поиска: любой, русский, английский, украинский. Учитывается морфология. Одно время поисковая система Рамблер была самой популярной в рунете, но позже уступила лидерство Яндексу.
      • Яндекс - российская система поиска в Сети и интернет-портал. Поиск Яндекса позволяет искать по Рунету документы на русском, украинском, белорусском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.
      • Mail.ru - один из крупнейших в Рунете бесплатных сервисов электронной почты. Компания работает на рынке под данным именем с 16 октября 2001 года. До этого момента бренд Mail.ru принадлежал компании Port.ru. В конце 2006 года было заключено стратегическое соглашение о предоставлении поискового сервиса, основанного на движке Яндекса.
      • Webalta — Российская поисковая система, находящаяся на стадии публичного тестирования (прогонки).

  4. Специализированные поисковые системы.

  5. Запрос в поисковых системах. Оптимизация поисковых запросов.
    Запрос — это формулирование своей информационной необходимости пользователем некоторой поисковой системы. Для составления запроса используется язык поисковых запросов.
    Все запросы к поисковым системам условно (из-за некоторых случаев неоднозначности) можно разделить на три типа.
    1. Информационные запросы. Пользователь ищет определенную информацию, не заботясь о том, на каком именно веб-сайте он ее обнаружит.
    2. Навигационные запросы. Пользователь ищет сайт, где, по его предположению, содержится интересующая его информация.
    3. Транзакционные запросы. В формулировке запроса пользователь выражает свою готовность совершить какое-либо действие.
    Поисковая оптимизация (англ. search engine optimization, SEO) — оптимизация HTML-кода, текста, структуры и внешних факторов сайта с целью поднятия его в выдаче поисковой системы.
    Поисковая система учитывает следующие параметры сайта при вычислении его релевантности (степени соответствия введённому запросу):
    • частота ключевых слов; сложные алгоритмы современных поисковиков позволяют производить семантический анализ текста, чтобы отсеять поисковый спам, когда ключевое слово встречается слишком часто (более определённого процента от всего содержимого) на странице;
    • индекс цитирования сайта, или количество ресурсов, ссылающихся на данный сайт; многими поисковиками не учитываются обратные ссылки (друг на друга), также важно, чтобы ссылки были с сайтов той же тематики, что и раскручиваемый сайт.

    Соответственно, работа по оптимизации включает в себя работу с внутренними факторами — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, оптимизация структуры, навигации и внутренних ссылок сайта, а также внешними факторами — обмен ссылками, регистрация в каталогах и прочие мероприятия для повышения и стимулирования ссылаемости на ресурс. Лицо, проводящее работу по оптимизации, называется оптимизатор.
    Методы оптимизации можно разделить на три класса:
    1. «Белая» оптимизация.
      Белым называется оптимизаторская работа над ресурсом без применения официально запрещённых поисковиками методов раскрутки ресурса.
    2. «Серая» оптимизация.
      Под серым SEO понимается, что вебмастер, который занимается продвижением ресурса так или иначе затрагивает методы, запрещенные поисковыми системами — например, использует линкаторы (автоматизировання система обмена ссылками), покупает ссылки с других ресурсов и т. п.
    3. «Чёрная» оптимизация.
      Чёрная оптимизация обычно представляется как использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор из ключевых слов и популярных запросов. Методы раскрутки дорвеев — это нарушения всех правил поисковых систем, это беспорядочный спам по любым чужим ресурсам (гостевым книгам, форумам, каталогам, блогам, вики-сайтам, и т. п.), где может остаться ссылка на дорвей.

  6. Литература.
    1. Search engine // The free encyclopedia Wikipedia - http://ru.wikipedia.org/wiki/Search_Engine
    2. Aaron Wall. History of Search Engines: From 1945 to Google 2006 - http://www.optimization.ru/subscribe/163.html
      Hosted by uCoz

      Hosted by uCoz