Страница 136

Страница 136: Базы знаний интеллектуальных систем, Автор неизвестен, 2001 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Учебник для технических вузов по входящим в различные дисциплины вопросам разработки интеллектуальных систем

По существу, при таком подходе мы получаем специализированную экспертную систему, предметной областью которой является автоматизация проектирования и реализации определенного класса мультиагентных систем. Создание такой методологии* разработки MAC обсуждается, например, в работе [Iglesias et. all, 1996], где приводится, в частности, спецификация процесса разработки MAC на базе CommonKADS.

9.3. Информационный поиск в среде

Интернет

По-видимому, не будет большим преувеличением утверждение о том, что конец XX века — это время новых информационных технологий, «живущих» в глобальных и локальных сетях, наиболее яркими представителями которых являются Интернет и интранет. В настоящее время уже ни у кого нет сомнений в том, что Интернет является de facto всемирным хранилищем информации практически по всем аспектам жизни человечества. Так же как и то, что эффективный доступ к этой информации в связи с экспоненциальным ростом объема Интернет-ресурсов становится все более сложным и трудоемким [Cowie et al., 1996]. И не столько с технической точки зрения, сколько с точки зрения поиска и анализа информации.

С другой стороны, как уже отмечалось в предыдущем параграфе, важнейшими из областей практического использования агентных технологий являются сбор информации, ее фильтрация и использование для принятия решений.

Учитывая вышесказанное, цель данного параграфа в обсуждении проблем представления и обработки информации в сети Интернет на основе использования парадигмы многоагентных систем, а также обзор уже существующих в этой области приложений.

Авторы отдают себе отчет, что при этом за рамками такого обсуждения остаются многие важные применения агентных технологий, но вынуждены ограничиться данной тематикой в силу ограничений на объем данного издания и время его подготовки.

9.3.1. Машины поиска

Пространство WWW уже сегодня содержит огромное количество HTML-документов, причем не только тексты, но и графику, видео, звук и т. д. Гипертекстовые связи между Web-документами и/или их частями отражают отношения между отдельными информационными фрагментами, представленными в сети. Броузеры, поддерживающие HTML-стандарты, обеспечивают представление материалов пользователям и навигацию по ссылкам для доступа к документам, распределенным по сети. Однако поиск информации в настоящее время поддержан существенно слабее и в большинстве случаев базируется на использовании ключевых слов и ограниченного числа типов машин поиска.

Машины поиска, по-видимому, являются в Интернете самым распространенным и доступным ресурсом для извлечения информации. При этом, как правило, используются два типа сетевых роботов: спайдеры (spiders) и индексы (indexes). Слайдеры, иногда называемые также ботами (bots, от робот-robots),,перемещаются по Web от сайта к сайту. Некоторые из них перемещаются от сервера к серверу беспорядочно, другие используют приоритеты, такие, например, как посещаемость сайта. Оказавшись на сайте, слайдер посылает отчет поисковой машине и продолжает индексирование. Индексы используются для ускорения поиска и сбора информации. Некоторые поисковые механизмы индексируют содержание страниц полностью, другие — только отдельные их части, такие, например, как заголовки документов.

Основными характеристиками машин поиска являются язык запросов пользователя, представление исходных и выходных документов, время индексации и поиска, объем индекса. Существенной характеристикой машин поиска является также качество представления результатов. Наиболее популярные поисковые машины в настоящее время — AltaVista (http://www.altavista.com и/или http: //altavista.ru), Exite (http://www.excite.com), Infoseek (http://www.infoseek. com), Lycos (http://www.lycos.com), WebCrawler (http://www.webcrawler. com), Yahoo! (http://www.yahoo.com) и некоторые другие. Примером полнотекстовой системы поиска с учетом морфологии русского языка является система Яndeх (http://www.yandex.ru). Сравнительный анализ достоинств и недостатков машин поиска можно найти в работе [CompTek, 2000a], а русскоязычных машин поиска — в работе [CompTek, 2000b].

Как правило, поисковые машины обеспечивают интерфейс типа меню, с помощью которого пользователь может скомпоновать запрос на поиск информации, используя ключевые слова и/или фразы и логические связки И-ИЛИ-НЕ. Большинство машин поиска находят огромное количество «релевантных» 'страниц по запросу пользователя. Каждый найденный документ обычно ранжируется по степени его корреляции с запросом. Релевантность каждого документа оценивается с помощью различных технологий, например учета частоты появления на странице искомых слов. Некоторые поисковые механизмы используют дополнительно другие факторы, такие как частота посещения страницы и/или близость расположения друг к другу искомых терминов.

Типичную организацию машин поиска можно рассмотреть на примере системы WebCrawler (рис. 9.6), разработанной в университете Вашингтон (Сиэтл, США).

Рис. 9.6. Общая архитектура системы WebCrawler

WebCrawler начинает процесс поиска новых сайтов с известных ему документов и переходит по ссылкам на другие страницы. Он рассматривает сетевое пространство как ориентированный граф и использует алгоритм обхода графа, работая в следующем цикле [Cheong, 1996J:

• найти новый документ;

• отметить документ как извлеченный;

• расшифровать ссылки с этого документа;

• проиндексировать содержание документа.

Поисковый механизм работает в двух режимах: поиск документов в реальном времени и индексирование документов.

Этим сервисом определяется, какие документы и какие типы документов нужно найти и извлечь из сети. Звуковые файлы, картинки, двоичные файлы и т. п. — не извлекаются. Ошибочно извлеченные файлы будут проигнорированы на стадии индексирования. В режиме индексирования система строит индекс информации из найденных документов, в режиме поиска — находит документы, максимально соответствующие запросу пользователя.

Базы знаний интеллектуальных систем

Базы знаний интеллектуальных систем

Обсуждение Базы знаний интеллектуальных систем

Комментарии, рецензии и отзывы

Страница 136: Базы знаний интеллектуальных систем, Автор неизвестен, 2001 читать онлайн, скачать pdf, djvu, fb2 скачать на телефон Учебник для технических вузов по входящим в различные дисциплины вопросам разработки интеллектуальных систем