Поисковые системы интернета, или как работают поисковики.

29 Ноя
2009


poiskovye_sistemy_interneta Каждый из нас, задумывался в своей жизни, как работают поисковые системы интернета (поисковики), которыми мы пользуемся.

В самом начале мне хотелось бы подробно рассказать, на чем базируется работа поисковых машин, а также систематизировать категории поиска так, как это делают поисковые машины.

Я считаю это важным, потому что как только вы поймете, что такое поисковые машины и как они работают, вам станет ясно, как происходит поиск и как его результаты появляются на странице при указании определенного ключевого слова. Таким образом, вы сможете действовать рационально и создавать Оптимизированные вебстраницы, которые будут внесены в базу данных ПМ, и понять, для чего необходима оптимизация в целом. Некоторые сведения из этой главы носят сугубо технический или научный характер. В основном здесь я старался описывать общие принципы, но включал также и некоторые детали, которые вас несомненно заинтересуют и способствуют дальнейшему изучению рассматриваемых вопросов.
Поисковые системы состоят из пяти отдельных программных компонентов.
•    Система  выдачи   результатов   (Search  engine  results  engine) —  извлекает результаты поиска из базы данных.
•    Паук   (Spider) — это   программа,   которая   скачивает  веб-страницы.   Она работает точно так же,  как ваш браузер,  когда вы соединяетесь с вебсайтом и загружаете страницу   То же действие (скачивание) вы можете наблюдать,  когда просматриваете некоторую страницу, выбирая опцию “просмотр HTML-кода” в своем браузере.
•    Краулер   (Crawler)—   программа,    которая   автоматически   проходит   по
всем ссылкам, найденным на странице, и выделяет их. Его задача — определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще не известных поисковой системе
•    Индексатор (Indexer)— разделяет страницу на части и анализирует их. Такие элементы, как заголовки страниц, заголовки в тексте страницы, ссылки, собственно текст и его структурные элементы, элементы BOLD, ITALIC и др., вычленяются и анализируются отдельно.
•    База данных (Database) — хранилище всех данных, которые поисковая система скачивает и анализирует. Она часто требует значительных ресурсов.

Неверно считать, что поисковые системы интернета ищут сайт сразу, как только вы ввели ключевое слово в запросе. Это — чистой воды миф, что поисковые машины просматривают весь Интернет в поисках нужного запроса. Поиск осуществляется только в пределах собственной базы данных ПМ (индекса). И конечно, объем и новизна сведений определяется тем, как часто обновляется база данных.
Крупные поисковые системы, индексируют информацию подобно каталогу в библиотеке. Храня большой объем информации, они должны уметь быстро находить требуемые документы по заданным ключевым словам или фразам. Но самих веб-страниц еще больше, чем непосредственно данных о них. Интернет в целом не имеет никакой четкой структуры, и объединяет множество весьма разнообразных по содержанию и авторскому оформлению сайтов. Это делает почти невозможным для поисковой машины применение стандартных методов, используемых в управлении базой данных и в обычном информационном поиске.
Поисковые алгоритмы (математические методы программирования, сортирующие найденные результаты) каждого из поисковых сервисов уникальны. В этом можно убедиться, введя ключевое слово или фразу, например, в поисковую систему www.yandex.ru и запомнив результаты, а затем повторив то же самое на www.rambler.ru или www.google.ru. В различных поисковых машинах вы всегда получите разную информацию. Учитывая этот факт, к различным поисковым службам следует применять индивидуальный подход.
Популярный поисковик Google — самая крупная поисковая машина в мире (с базой данных из нескольких миллиардов файлов) — охватывает лишь малую долю данных, содержащихся во всей мировой веб-сети. Не следует забывать, что Веб растет быстрыми темпами. Исследование, выполненное в 2000 г   [Lyman, Varian и др.], обнаружило приблизительно 7,5 млн. страниц, добавляемых каждый день. Таким образом, невозможно представить, что какая-либо поисковая машина будет когда-нибудь иметь ежедневно обновляемые данные обо всех сайтах сети.

Можно ещё очень долго говорить о то что такое поисковые системы интернета, но думаю это информации уже более чем достаточно чтобы сложить примерно впечателение о размахе поисковых монстров.

Самые комментируемые записи

  • Добавь в закладки:

    Google Bookmarks Digg Reddit del.icio.us Ma.gnolia Technorati Slashdot Yahoo My Web News2.ru БобрДобр.ru RUmarkz Ваау! Memori.ru rucity.com МоёМесто.ru Mister Wong

  • 

    3 Комментариев к Поисковые системы интернета, или как работают поисковики.

    Аватар

    Nala

    Январь 2nd, 2010 | 12:52

    Это конечно понятно что поисковики ведут поиск в пределах своей базы. Но как научится производить поиск чтобы найти то что тебе нужно. Ведь не всегда находишь то что нужно хотя информация в интернете знаешь что 100% есть. Хотелось бы такую статью почитать еще.

    [Ответить]

    Аватар

    VPK

    Сентябрь 12th, 2010 | 16:18

    Офигеть, смотрел по телевизоры про один из серверов Гугла, там здание большое такое, которое стоит на берегу водохранилища, чтоб была возможность охлаждать процессоры, а таких серверов у него с десяток. Вот интересно, а каков объём информации во всём интернете?

    [Ответить]

    Аватар

    Miha

    Ноябрь 26th, 2010 | 14:45

    слышал по радио “Серебряный дождь” что объем всей информации в инете 500 млрд терабайт. если перевести все в печатную продукцию, то длинна стопки получится в два раза длиннее нашей солнечно, вроде так

    [Ответить]

    Комментировать

    Dofollow комментарии! Но оставляем, только осмысленные.

    Наверх