Семантический веб и микроформаты. О пользе семантической паутины

Семантическая паутина (Semantic Web) - часть глобальной кон­цепции развития сети Интернет, целью которой является реализация возможности компьютерной обработки информации, доступной во Всемирной сети . Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержа­ние ресурсов веб, вместо используемого в настоящее время тексто­вого анализа документов . Термин впервые введен Тимом Бернерсом-Ли в мае 2001 г. и называется им «следующим шагом в развитии Всемирной паутины». В семантической паутине предполагается по­всеместное использование, во-первых, универсальных идентифика­торов ресурсов (URI), а во-вторых, онтологии и языков описания метаданных. Эта концепция была принята и продвигается Консор­циумом WZC, для ее внедрения предполагается создание сети доку­ментов, содержащих метаданные о ресурсах Интернета, существу­ющей параллельно с ними. Метаданные могут использоваться поис­ковыми роботами и другими интеллектуальными агентами для проведения логических заключений о свойствах этих ресурсов.

В инфраструктуре современного бизнеса Интернет занимает все более важное место.

С развитием Интернета и информационно-коммуникационных технологий появляются новые формы организации предприятий, такие, как виртуальные корпорации. Виртуальная корпорация - это организация, состоящая из нескольких бизнес-партнеров, разделя­ющих затраты и ресурсы с целью производства продукта или услуги. В виртуальной корпорации ресурсы бизнес-парнеров остаются на их прежних местах, но являются интегрированными в общий процесс. Так как партнеры находятся в различных местах, им требуются ин­формационные системы для поддержки коммуникаций и сотрудни­чества.

С развитием Интернета развиваются сетевые бизнес-структуры в глобальной экономике, включающие сети поставщиков, сети про­изводителей, потребительские сети, коалиции по стандартам и тех­нологическую кооперацию. Это позволяет объединять ресурсы, сни­жать издержки, обмениваться знаниями и технологиями и более полно удовлетворять потребности клиентов.

10. «Электронный бизнес» (e-business), «электронная коммерция» (е-commеrсе) и электронный маркетинг (e-marketing) - определения, основные отличия .

В начале 1990-х гг. с активной коммерциализацией Интернета появились термины «электронный бизнес» (e-business), «электронная коммерция» (е-соттеrсе) и электронный маркетинг (e-marketing). Анализируя особенности глобальной сетевой экономики и опыт раз­личных компаний в области электронного бизнеса, можно построить модель, отражающую новые категории, и сформулировать опреде­ления, адекватные сегодняшним реалиям (рис. 5.1).



В широком смысле электронный бизнес - реализация бизнес-про­цессов с использованием информационно-коммуникационных технологий и систем . В узком смысле электронный бизнес - это бизнес на элект­ронном рынке в сети Интернет.

В соответствии с этим подходом электронный маркетинг - реализация маркетинговой деятельности с использованием информационно-коммуникационных технологий и сис­тем , а в узком смысле - маркетинговая деятельность субъектов на электронном рынке.

Сегодня онлайн-торговля обеспечивает 7% продаж в США. По прогнозам журнала «Forbes», к 2020 г. электронный бизнес достигнет уровня 20 трлн долл., что превосходит текущий ВНП США. Ниже приведены цифры и факты, отражающие состояние электронного бизнеса в России, отметим лишь, что, по оценкам Национальной ассоциации участников электронной торговли, объем рынка элект­ронной торговли в 2005 г. составил 4474 млн долл. США, а средние темпы роста за период с 2001 до 2005 г. составили 138%.

Приведем данные статистики по росту электронной торговли в мире (рис. 5.2) и в России (рис. 5.3). В 2007 г. оборот электронной коммерции достиг 259 млрд долл., что на 18% больше, чем в 2006 г. Однако к концу десятилетия, по прогнозу компании Jupiter Research, рост онлайн-продаж будет составлять лишь 9% в год, что является существенным спадом по сравнению с 2004 г., когда эта цифра со­ставляла 25%.

Семантическая паутина — группа методов и технологий, созданных для того, чтобы позволить машинам понимать значение — или «семантику» — информации о всемирной паутине.

Термин был введен на собрании директором Тимом Бернерсом-Ли. Согласно исходному видению, доступность машиночитаемых метаданных позволила бы автоматизированным агентам и другому программному обеспечению более разумно получать доступ к сети. Агенты были бы в состоянии автоматически выполнять задачи и определять местоположение соответствующей информации от имени пользователя.

В то время как слову «семантическая паутина» формально не дают определение, однако можно сказать, что это понятие главным образом используется для того, чтобы описать модель и технологии, предложенные . Эти технологии включают платформу описания ресурсов (RDF), множество форматов обмена данными (например, RDF/XML, N3, Turtle, N-Triples), и нотации, такие как схема RDF (RDFS) и веб-язык онтологии (OWL), которые предназначены для того, чтобы обеспечить формальное описание понятий, сроки и отношения в пределах данной области знаний.

Многие из технологий, предложенных , уже существуют и используются в различных проектах. Семантическая паутина как глобальное видение, однако, осталась в значительной степени неосуществленной, и критика проекта подвергла сомнению возможность выполнения данного подхода.

Кроме того, другие технологии с подобными целями, такими как микроформаты, развились, однако они не всегда описываются как «семантическая паутина».

Цель

Люди используют сеть для того, чтобы выполнять задачи, такие как обнаружение ирландского варианта для слова «каталог», резервирование библиотечной книги и поиск низкой цены на DVD. Однако один компьютер не может выполнить все эти задачи без человечека, потому что разработаны, чтобы быть просмотренными людьми, а не машинами. Семантическая паутина — это видение информации, которая понятна компьютерами, таким образом, компьютеры могут выполнять утомительную работы, включающую в себя открытие, объединение и показ информации в сети.

Прикладные области семантической паутины испытываю быстрый рост в сети, связанный с новшеством и реконструкцией информационных технологий контента. Семантическая паутина расценивается как интегратор различнго контента и информационных приложений и систем, она обслуживает механизмы реализации информационных систем. Скорость роста является стимулом для исследователей, чтобы они могли сосредоточиться на создании и распространении инновационных технологий семантической паутины, где давно ожидается внедрение семантической паутины в качестве исходного понятия.

Критика

Практическая выполнимость

Критики подвергают под сомнение основную возможность полной или даже частичной реализации семантической паутины. Примером критики является скептический анализ Кори Доктороу с точки зрения человеческого поведения и персонального предпочтения. Например, люди лгут: они могут включать побочные метаданные в веб-страницы в попытке ввести в заблуждение механизмы семантической паутины, которые наивно принимают метаданные за верные. Это явление было известно с метатегами, которые дурачили алгоритм ранжирования AltaVista в момент ранжирования определенных веб-страниц: скажем, Google ищет такие попытки манипулирования. Питер Гэрденфорс и Тимо Хонкела говорят о том, что основанные на логике технологии семантической паутины покрывают только часть соответствующих явлений, связанных с семантикой.

Потенциал идеи в быстром продвижении

В своей научной статье (2001) Тим Бернерс-Ли описал ожидаемое развитие семантической паутины. Полное же развитие должно также произойти. В 2006 Бернерс-Ли и коллеги утверждали, что: «Эта простая идея, однако, остается в значительной степени неосуществленной.» В то время как идея все еще в процессе создания, она развивается быстро и вдохновляет многих. В период 2007-2010 несколько ученых уже исследовали первые приложения и социальный потенциал семантической паутины в бизнесе и секторах здравоохранения, также для социальных сетей и даже для более широкого развития демократии.

Цензура и конфиденциальность

Энтузиазм о семантической паутине мог быть умерен проблемами относительно цензуры и конфиденциальности. Например, анализирующие текст методы могут легко обойтись использованием других слов, например, метафор, или использованием изображений вместо слов. Усовершенствованная реализация семантической паутины сделала бы намного более простым управление просмотром и созданием онлайн-информации для правительства, поскольку эта информация будет намного легче для понимания машиной и последующей автоматизации блокировки контента. Кроме того, с использованием файлов FOAF и географического расположения метаданных, будет очень небольшая анонимность, связанная с авторством статей относительно таких вещей, как персональный блог.

Удвоение выходных форматов

Другой спорный момент в использовании семантической паутины состоит в том, что это отнимает больше времени для того, чтобы создать и опубликовать контент, потому что должно быть два формата для одной части данных: один для просмотра человеком и один для машин. Однако множество веб-приложений решают эту проблему, создавая машиночитаемый формат после публикации данных или запроса машины для таких данных. Разработка микроформатов была одной реакцией на эту критику. Другой аргумент в защиту выполнимости семантической паутины — сниженная цена задач агентурной разведки на цифровых рынках труда типа Amazon Mechanical Turk.

Такие спецификации, как eRDF и RDFa позволяют встраивать произвольные данные RDF в страницы HTML. Механизм GRDDL (Gleaning Resource Descriptions from Dialects of Language) позволяет существующему материалу (включая микроформаты) автоматически интерпретироваться как RDF, таким образом, издатели только должны использовать один формат HTML.

Потребность

Идея семантической паутины, которая в состоянии описать и связать значение с данными, имеет больше чем простой код разметки XHTML. Это основано на предположении, что для того, чтобы можно было обеспечить машины возможностью точно интерпретировать контент, нужны не простые упорядоченные отношения, включающие в себя буквы и слова, а необходима базовая инфраструктура. Иначе большая часть благосклонной функциональности была бы доступна в Web 2.0 (и более ранних версиях), и было бывозможно получить семантически способную сеть с незначительными, инкрементными дополнениями.

Дополнения к инфраструктуре, чтобы поддерживать семантическую функциональность, включают в себя скрытые динамические сетевые модели, которые при определенных условиях могут изучить значение, основанное на данных порядка в отношениях ‘изучения’ процесса с порядком (своего рода элементарная рабочая грамматика).

Семантическая паутина потенциально способна привести к революции в принципах получения и передачи информации, а также управления ею конечными пользователями, однако, как отмечают авторы доклада о «самодельных» базах данных , ситуация с инструментами достаточно мрачная. Выяснилось, в частности, что, не имея специальных приложений, в компаниях и организациях в большинстве случаев вынуждены пользоваться таблицами Excel, списками заданий из Outlook, а также бумажными листками, индексными карточками и скоросшивателями. Использование этого «инструментария» приводит к неразберихе с версиями документов, огромным затратам времени на ввод и передачу данных и трудностям организации, опроса и наглядного представления информации. При этом речь вообще не идет о Больших Данных - обычный сценарий работы служащих заключался в ответах на элементарные вопросы вроде «Кто из сотрудников отвечает за ту или иную деятельность?» или «Каков общий объем работы, проделанной таким-то специалистом?». Для опытного администратора базы данных SQL это тривиальные операции, но далеко не у всех сотрудников компаний есть такие навыки. Для всех, кто занимается базами данных и Семантической паутиной, такая ситуация - это просто позор. Мы заняты решением великих задач, в то время как рядовые пользователи не могут справиться с подобными простыми проблемами.

В чем проблема?

Суть проблемы в том, что имеющиеся приложения «мешают» сохранять информацию, организовывать ее и извлекать. Традиционные приложения обычно разрабатываются с расчетом на использование фиксированной схемы данных, определяющей типы сохраняемой информации, способы ее отображения и принципы управления. Пользователям, чья информация отвечает другой схеме, не повезло - они не могут записывать ее в нужной форме. К примеру, врачу-специалисту, не имеющему возможности занести определенные сведения о своих пациентах в систему электронных медицинских карт, приходится пользоваться полем комментариев, вследствие чего ценность системы сводится на нет. Сегодня, когда данные отвечают нестандартным схемам, выбор инструментов скуден - чаще всего используются электронные таблицы, что создает массу сложностей, причем схемы нередко приходится менять вручную по мере изменения самой информации.

Кроме того, фиксированные схемы не позволяют соединять информацию из нескольких приложений - например, связать человека из адресной книги с написанной им музыкой в медиаплеере. Поскольку соответствующие приложения «не знают» схемы друг друга, они не могут работать с чужими данными и даже ссылаться на них .

Семантическая паутина

Семантическая паутина обещает возможность создания приложений, поддерживающих гибкие схемы данных. Приведем примеры.

Haystack

Одной из попыток реализовать принцип гибких схем стала система Haystack (рис. 1), позволяющая сохранять произвольные заданные пользователем сущности, которые имеют произвольные свойства и связи с другими сущностями, а также формирующая произвольные наглядные представления сущностей . Можно, к примеру, реализовать подобие традиционного приложения с любой удобной для пользователя схемой данных.

Первая версия Haystack была создана еще до появления концепции Семантической паутины, но позднее стало ясно, что это как раз приложение для нее, и когда была разработана стандартная модель представления данных RDF, то ее стали использовать в Haystack, которая реализует главное обещание Семантической паутины - поддержку «паутины» данных с многообразием схем. Разработчики баз данных посвятили немало усилий возможности их интеграции, классический пример - объединение крупных баз при слиянии двух компаний, однако ничего не было предложено для более «анархичной» ситуации с разнообразием схем данных, используемых на различных веб-сайтах.

Вместо традиционных приложений с жестко закодированными схемами и интерфейсами сегодня нужны приложения, позволяющие эффективно манипулировать информацией на основе любых схем, но это непросто - разработчики пользовательских интерфейсов и движков обработки данных привыкли полагаться на известность схемы.

Related Worksheets

Авторы Related Worksheets (рис. 2) - инструмента для управления информацией - решили, что раз уж пользователи «проголосовали» за электронные таблицы, то последние можно оптимизировать, обеспечив возможность управления данными с меняющейся схемой. В усовершенствованной электронной таблице лучше отображаются сущности и связи, а также проще навигация. Рассмотрим типичный документ: таблица с перечнем университетских курсов (по строке на каждый), которая ссылается на другую таблицу со списком литературы для каждого курса (по строке на каждое наименование) и на одну таблицу со списком преподавателей. В традиционной электронной таблице такая «ссылка» - это просто условное соответствие: в таблице курсов есть ячейка с названием публикации из таблицы со списком литературы.

Представив список литературы в виде сущности, можно каждую позицию списка литературы сделать «вложенной» в соответствующую ячейку таблицы курсов, чтобы сразу видеть дополнительные сведения, не делая отдельно поиск по таблице литературы. Кроме того, можно сразу «телепортироваться» из наименования публикации, отображаемого в таблице курсов, в соответствующую строку перечня литературы, где можно просматривать и менять дополнительные данные, а также «телепортироваться» дальше - к автору публикации. Тестирование показало, что эти функции позволяют пользователям гораздо быстрее получать нужную информацию. По сути, такие связки соответствуют операции соединения, которая есть в СУБД, но отсутствует в электронных таблицах.

Exhibit

Система Exhibit (рис. 3), как и Haystack, позволяет создавать интерактивные наглядные репрезентации данных с нефиксированной схемой для сайтов. Профессионалы могут строить очень сложные сайты с эффектными схемами визуализации, но у рядовых разработчиков нет необходимых для этого навыков программирования и администрирования баз данных, поэтому они ограничиваются текстом и статичными изображениями. Авторы Exhibit обратили внимание на то, что профессионально сделанные сайты часто имеют много общего и что можно было бы создать расширение HTML для описания типовых элементов таких сайтов. В таком расширении определены отображения (списки, таблицы, карты и оси времени), фильтры и «линзы» для данных (HTML-шаблоны для вывода единиц информации разного типа). Такой элемент можно буксировкой разместить на веб-странице и мгновенно опубликовать интерактивную наглядную визуализацию, перенеся на него файл данных (CSV, электронную таблицу или документ JSON). Для платформы Wordpress на базе Exhibit разработали расширение Datapress, которое позволяет публиковать визуализации в блоге.


На сегодня существует уже 1800 сайтов на Exhibit, среди которых дела Европейского суда по правам человека, мониторинг загрязнения воздуха в Испании, картографические материалы, композиторы классической музыки, расписания спортивных состязаний и т. п., причем, судя по отзывам, Exhibit полностью удовлетворяет потребности пользователей в создании интерактивных визуализаций данных без специальных знаний.

Atomate

Приложение Atomate (рис. 4) позволяет составлять правила для автоматической обработки входящих информационных потоков, например из социальных СМИ. Руководствуясь идеями Семантической паутины, такие потоки можно было бы направлять в единую личную базу данных пользователя, где они автоматически обрабатывались бы с помощью постоянных запросов. Можно, к примеру, сделать так, чтобы пользователь получал предупреждение, когда одновременно в календаре появляется уведомление, что скоро выступает его любимая группа, а социальная сеть сообщает, что в город приехал его друг и можно вместе сходить на концерт. А еще можно обеспечить автоматическую отправку уведомления вашему секретарю, когда приложение, следящее за вашим местонахождением, определяет, что вы опаздываете.

Одной из важных задач является разработка для подобных систем языка запросов, достаточно простого для рядовых пользователей. Специально для Automate был создан язык - подмножество английского, лишенное неоднозначностей и поддающееся машинной обработке. С его помощью для пользовательских данных можно назначать триггеры и действия. Триггеры - постоянные запросы, при выполнении условий которых запускается отправка сообщений либо модификация хранимых данных.

Достаточно популярным стал похожий инструмент - онлайн-сервис If This Then That (IFTTT), на котором доступны информационные потоки, поступающие с различных онлайн-сервисов. Пользователи могут составлять «рецепты», в которых триггерам, реагирующим на информацию из каналов, ставятся в соответствие действия. IFTTT, по сути, реализует возможности, которые могла бы дать Семантическая паутина, но сейчас операторам сервиса для каждого источника данных приходится писать специальный код, с использованием соответствующих API для переноса информации в канал. Концепция Семантической паутины между тем предусматривает создание единого API для доступа к данным на всех сайтах. Такой API избавил бы от необходимости разрабатывать специальный код для каждого канала - пользователи бы просто писали триггеры и действия для любых сайтов, которые сочтут полезными.

Что делать?

Как видно по приведенным примерам, методы Семантической паутины позволяют создавать полезные инструменты, работающие с нефиксированными схемами данных. Учитывая, насколько широкие возможности управления пользовательской информацией могли бы дать такие инструменты, разочаровывает, как мало разработчики концепции Семантической паутины вкладывают в ее развитие. Исследования, посвященные приложениям для конечных пользователей, сегодня практически не ведутся. Например, в программу Европейской конференции по семантической паутине (ESWC) в 2013 году вошли 36 докладов, большинство из которых были посвящены базовым технологиям Семантической паутины и лишь один был по пользовательскому приложению. Аналогичная ситуация с нехваткой приложений наблюдалась и на Международной конференции по Семантической паутине (ISWC) 2013 года. Чем можно объяснить этот «дефицит»?

Меньше семантики, больше паутины

Судя по докладам на ESWC и ISWC, мало кто занимается вопросами применения Семантической паутины, а такими темами, как представление знаний, логические заключения и онтологии, уже десятки лет озабочены исследователи, работающие в области искусственного интеллекта. Эти задачи важны для достижения долгосрочных целей - моделирования процесса познания и создания истинного искусственного разума, но почему те же исследования выполняются и в сообществе Семантической паутины? Разве то, что логические заключения выводятся по данным из WWW, а не из базы знаний экспертной системы, меняет суть задачи?

Главные новшества, которые обещает Семантическая паутина, касаются WWW, а не семантики - революция WWW заключалась в том, что абсолютно всем стало проще готовить информацию, управлять и делиться ею, причем дело было не в новизне каких-то систем (все нужные элементы были созданы раньше) - благодаря определенному сочетанию элементов пользователи получили совершенно новые возможности. Теперь эту революцию могли бы продолжить структурированные данные, но при условии, что акцент по-прежнему будет делаться на конечных пользователях.

Молотки и гвозди

Для академических исследований обычный риск - слишком увлечься «молотками» (методами решения) и забыть о «гвоздях» (самих проблемах, требующих решения), что и произошло в сообществе Семантической паутины. В свое время исследователи пришли к убеждению, что паутина структурированных данных будет полезной, а теперь посвящают всю свою энергию изобретению инфраструктуры для такой паутины. Но как именно она будет использоваться, так и не определились. Конечно, если создать искусственный интеллект, то можно заставить его выполнять всю работу по Семантической паутине, но тогда он сможет понимать текст на естественном языке и Семантическая паутина уже не понадобится.

Сегодня необходимо лучше демонстрировать очевидные преимущества Семантической паутины, что можно сделать, только показывая, как она позволяет решать задачи, стоящие перед пользователями прямо сейчас, и не излагать общий утопичный замысел, а четко продемонстрировать, как «забивать гвозди». Нужно описать конкретные пользовательские проблемы и реализовать приложения, решающие их. Если этого не сделать - изобрести молотки без гвоздей, то даже сомнительно, что это будут правильные молотки. Кто-то другой решит насущные задачи (пусть и менее хорошо) без Семантической паутины, а про нее вскоре просто забудут.

Нужно больше исследований начинать с обозначения конкретной пользовательской задачи, чтобы была реальная причина, требующая создания решения. Именно так поступили авторы перечисленных приложений, предложив средства управления личной информацией, усовершенствованную электронную таблицу, систему публикации интерактивных визуализаций без программирования и механизм автоматической обработки входящих потоков информации. Кстати, система Atomate похожа на агенты, предложенные в докладе Тима Бернерза-Ли о концепции Семантической паутины. И поскольку еще не известно, как создавать автономные агенты для такой паутины, то можно умерить амбиции, создать простой язык запросов и разработать что-то, что было бы полезным прямо сейчас. Если бы Семантическая паутина реально использовалась, то подобные решения нашлись бы для многих задач.

Справедливость опасений по поводу того, что Семантическую паутину забудут, подтверждается сервисом IFTTT, решающим те же задачи, что и Atomate, только без применения методов Семантической паутины. В определенном смысле это делает его менее удачным (добавить новый источник данных нельзя, если этого не пожелают операторы сервиса), но он явно лучше хотя бы в том, что активно используется для решения актуальных задач. Если тянуть слишком долго, не предлагая чего-то более совершенного на основе Семантической паутины, люди привыкнут к тому, что уже есть. Если не продемонстрировать превосходство ее методов, то другие выиграют за неимением конкуренции.

В качестве точечного решения можно было бы провести традиционный конкурс Semantic Web Challenge по созданию версии IFTTT, основанной на Семантической паутине. Можно было бы сравнить различные реализации по удобству использования и широте возможностей. Само существование IFTTT говорит о том, что, если бы создали аналогичный инструмент на основе Семантической паутины, на него бы явно был спрос.

Семантическая паутина потенциально улучшает возможности управления информацией, но полезных практических реализаций этих возможностей нет - слишком много сил уделяется исследованиям в областях представления знаний, логических выводов и извлечения информации, которые традиционно обсуждаются на конференциях по искусственному интеллекту и которым, возможно, только там и место. Приложения есть, но в основном демонстрационные, и многие из них даже не имеют отношения к Семантической паутине - это просто традиционные приложения, хранящие данные в RDF. Иначе говоря, сегодня упускаются колоссальные возможности, и стоит задуматься о том, как это предотвратить.

Литература

  1. A. Voida, Harmon, B. Al-Ani. Homebrew Databases: Complexities of Everyday Information Management in Nonprofit Organizations. Proc. 2011 Ann. Conf. Human Factors in Computing Systems, 2011, P. 915–924.
  2. D.A. Norman. The Design of Everyday Things, Basic Books, 2002.
  3. D.R. Karger. It’s All the Same to Me: Data Unification in Personal Information Management. Personal Information Management, W. Jones and J. Teevan, eds., Univ. of Washington Press, 2007, P. 127–152. URL: http://people.csail.mit.edu/karger/Papers/pimchapter.pdf
  4. D.R. Karger. Haystack: Per-User Information Environments. Beyond the Desktop Metaphor: Designing Integrated Digital Work Environments, V. Kaptelinin and M. Czerwinski, eds., MIT Press, 2007, P. 49–100. URL: http://people.csail.mit.edu/karger/Papers/desktopchapter.pdf (дата обращения: 15.12.2014).

Дэвид Каргер ([email protected]) - профессор, Массачусетский технологический институт.

David R. Karger, The Semantic Web and End Users: What’s Wrong and How to Fix It. IEEE Internet Computing, November/December 2014, IEEE Computer Society. All rights reserved. Reprinted with permission.

семантическая паутина шарлотты, семантическая паутина 5
Семанти́ческая паути́на (англ. semantic web) - это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.

В обычной Всемирной паутине, основанной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком. Семантическая паутина состоит из машинно-читаемых элементов - узлов семантической сети, с опорой на онтологии. Благодаря этому программы-клиенты получают возможность непосредственно получать из интернета утверждения вида «предмет - вид взаимосвязи - другой предмет» и вычислять по ним логические заключения. Семантическая паутина работает параллельно с обычной Всемирной паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

Название «Семантическая паутина» было впервые введено сэром Тимом Бернерсом-Ли (изобретателем Всемирной паутины) в сентябре 1998 года, и называется им «следующим шагом в развитии Всемирной паутины». Позже в своём блоге он предложил в качестве синонима термин «гигантский глобальный граф» (англ. giant global graph, GGG, по аналогии с WWW). Концепция семантической паутины была принята и продвигается консорциумом Всемирной паутины.

  • 1 Основная идея
  • 2 Архитектура
    • 2.1 Логический вывод
  • 3 Критика
    • 3.1 Проблемы реализации
    • 3.2 Дублирование информации
    • 3.3 Последствия реализации
  • 4 Проекты
    • 4.1 Дублинское ядро
    • 4.2 RSS (версий 0.90 и 1.0)
    • 4.3 FOAF
    • 4.4 DBpedia
  • 5 См. также
  • 6 Примечания
  • 7 Литература
  • 8 Ссылки

Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, придуманная для того, чтобы сделать размещаемую в Интернете информацию пригодной для машинной обработки. Доступная в сети информация удобна для прочтения человеком. Семантическая паутина создана для того, чтобы сделать информацию пригодной для автоматического анализа, синтеза выводов и преобразования как самих данных, так и сделанных на их основе заключений в различные представления, полезные на практике.

Граф визитной карточки основателя Википедии в формате RDF. Элементы этого графа - как узлы, так и дуги (кроме литерала, изображённого в оранжевом прямоугольнике) - являются URI.

Машинная обработка возможна благодаря двум характеристикам семантической паутины:

  • наличию URI;
  • использованию семантических сетей и онтологий.

URI - унифицированный идентификатор ресурса или адрес, используемый для указания ссылок на какой-либо объект (например, веб-страницу, файл или ящик электронной почты). URI используются для именования объектов. Каждый объект глобальной семантической сети имеет уникальный URI. URI однозначно называет некоторый объект. Отдельные URI создают не только для страниц, но и для объектов реального мира (людей, городов, художественных произведений и так далее), и даже для абстрактных понятий (например, «имя», «должность», «цвет»). Благодаря уникальности URI одни и те же предметы можно называть одинаково в разных местах семантической паутины. Используя URI, можно собирать информацию об одном предмете из разных мест. Рекомендуется включать в адрес URI название одного из протоколов Всемирной паутины (HTTP или HTTPS). То есть адрес URI рекомендуют начинать с «http://» или «https://»). Такой адрес можно одновременно использовать как адрес URI и как адрес веб-страницы (URL). На веб-страницах, адреса URL которых совпадают с URI, W3C рекомендует размещать описание предмета. Описание желательно предоставлять в двух форматах:

  • в формате, удобном для чтения человеком;
  • в формате, удобном для чтения машиной.

Использование семантических сетей и онтологий . Данные во Всемирной паутине, как правило, представлены в виде текста, записанного на естественных языках. Такие тексты предназначены для восприятия человеком, но машина может понять их смысл, используя один из методов обработки естественного языка. Методы выполняют частотный анализ и/или лексический анализ текста.

В качестве формата, удобного для чтения машиной, W3C предлагает использовать язык RDF. Язык RDF позволяет описывать структуру семантической сети в виде графа. Каждому узлу и каждой дуге графа можно назначить отдельный URI. Утверждения, записанные на языке RDF, можно интерпретировать с помощью онтологий. Для создания онтологий рекомендуют использовать языки RDF Schema (англ.) и OWL. Онтологии создаются для получения из данных логических заключений. основе онтологий лежат математические формализмы, называемые дескрипционными логиками.

Архитектура

Стек понятий Семантической паутины

Техническую часть Семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (то есть консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf.
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).
  • Микроданные (HTML microdata) - это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Такие атрибуты делают контент страниц машиночитаемым, то есть позволяют в автоматическом режиме находить и извлекать нужные данные.

Логический вывод

Форматы описания метаданных в Семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Формализм, лежащий в основе формата, даёт возможность делать заключения о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескрипционные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано, что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное обладающее разрешимостью подмножество дескрипционных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескрипционных логик за счёт отказа от обязательной разрешимости запросов.

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов и т. д.

Критика

Проблемы реализации

В 2006 году журнал «IEEE Intelligent Systems» опубликовал новую статью Тима Бернерса-Ли «Semantic Web Revisited» («Семантическая паутина: пересмотр»), в которой автор называет описанный подход к организации информации в вебе «простой идеей, до сих пор в большой степени нереализованной», несмотря на все преимущества, предоставляемые Семантической паутиной в случае её внедрения.

На сегодняшний день нет общедоступных средств просмотра и прямого использования информации, предоставляемой сайтами в Семантическую паутину. Редкие образцы разрозненны, а программы-клиенты не выходят за уровень локальных исследовательских проектов отдельных энтузиастов.

Комментаторы указывают на различные причины, которые препятствуют активному развитию Семантической паутины, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на различимые концепты. Это ставит под сомнение возможность существования онтологии верхнего уровня, критической для Семантической паутины. Аристотель в «Топике» использует понятие differentia specifica, или наличие у понятий различимого качества, как основу для группировки понятий в классы. Философ уверен в наличии бесконечного числа понятий, из чего следует бесконечность числа классов, в которые их можно объединить. Для выделения такого количества классов необходимо бесконечно много различимых качеств, наличие которых Аристотель подвергает сомнению.

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток Семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFа. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц. Кроме того, в самих стандартах HTML появляются семантические теги.

Последствия реализации

  • Лёгкость машинной обработки позволяет посреднику вроде поисковой системы выбирать, какую информацию предоставлять пользователю.
    • Это делает возможным предоставление только необходимой части информации. результате пользователь может получать информацию, не посещая сайт-источник, а посредник может выводить информацию, не давая ссылки на источник (или давая её при условии, что посредник узнает о переходе). Таким образом уменьшается посещаемость сайта-источника, и увеличивается посещаемость посредника; а от посещаемости зависит действие Интернет-рекламы, обеспечивающей основное финансирование многих сайтов. Цитирование частей новостей веб-агрегаторами было предметом судебных разбирательств с разными исходами. Для сайтов, публикующих контент для привлечения читателей к размещаемой рядом рекламе, предоставление контента в машинно-читаемом виде не выглядит выгодным, однако для сайтов, чей контент сам по себе является информацией о рекламируемом объекте - например, для сайтов производителей товаров и услуг - предоставление информации о рекламируемых объектах в машинно-читаемом виде выгодно, так как способно облегчать её распространение и использование.
    • Это облегчает автоматическую цензуру.
  • Предпочтение поисковыми системами размеченных страниц делает неразмеченные частью (относительно) Глубокой паутины.
  • Облегчается нахождение персональных данных и их связей с другой информацией (авторы, местонахождения, социальные связи).

Проекты

Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанных на принципах Семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого - разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)

Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект. Необходимо отметить, что несмотря на то, что ему присущи многие недостатки Семантической паутины (например, дублирование информации), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS - узкоспециализированное подмножество RDF.

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

FOAF

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

DBpedia

DBpedia - проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Wikipedia. DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов Википедии, в том числе ссылки на соответствующие базы данных. Начат группой добровольцев из Свободного университета Берлина и Лейпцигского университета, в сотрудничестве с OpenLink Software, и впервые был опубликован в 2007 году. Проект DBpedia использует Resource Description Framework (RDF) для представления извлеченной информации. По состоянию на апрель 2010, базы данных DBpedia состоят из более чем 1 млрд единиц информации, из которых 257 млн были взяты из английской версии Википедии и 766 млн извлечены из версий на других языках.

См. также

  • Отображение онтологий
  • Семантическая вики
  • Семантические веб-сервисы
  • Семантический рабочий стол
  • «Haystack», проект Массачусетского технологического института

Примечания

  1. Tim Berners-Lee. Semantic Web Road map (09.1998).
  2. Giant Global Graph., русский перевод: Тим Бёрнерс-Ли. Гигантский Глобальный Граф
  3. Раздел о семантической паутине на сайте W3C (англ.)
  4. Resource description framework (RDF): concepts and abstract syntax (англ.). Консорциум Всемирной паутины (10 февраля 2004 года). - W3C Recommendation. Проверено 12 сентября
  5. Cool URIs for the Semantic Web (англ.). Консорциум Всемирной паутины (3 декабря 2008 года). - W3C Interest Group Note. Проверено 12 сентября 2010. Архивировано из первоисточника 24 августа 2011.
  6. The Species of OWL in OWL Language Guide
  7. OWL Full, OWL DL and OWL Lite in OWL Language Reference
  8. Semantic Web Revisited, IEEE Intelligent Systems, июнь 2006
  9. Cory Doctorow, Metacrap: Putting the torch to seven straw-men of the meta-utopia, август 2001
  10. Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, январь 2006
  11. RDFa Primer
  12. Бессмертный И. А. / Управление контекстом в информационных системах. - Статья. - Информационные технологии, Приборостроение.- октябрь, 2012 - УДК 004.89
  13. Виктор Шепелев. Ахиллесова пята Семантического Веба. Компьютерра (15 июл 2008).
  14. См. en:Media monitoring service#Law cases, en:Google News#Copyright variations.
  15. Dublin Core Metadata Initiative (DCMI)
  16. RSS 1.0 Specification
  17. RSS 2.0 Specification
  18. Friend of a Friend
  19. DBpedia Mappings

Литература

  • Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler. Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. - The MIT Press, 2002. - ISBN 0262062321.
  • Towards the Semantic Web: Ontology-driven Knowledge Management. - John Wiley & Sons, 2003. - ISBN 0470848677.
  • Toby Segaran, Colin Evans, Jamie Taylor. Programming the Semantic Web. - 2009. - ISBN 0596153813.
  • Luciano Floridi Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. - 2009. - Т. 6, № 1. - С. 25--37. - DOI:10.3366/E174236000800052X.

Ссылки

  • Официальный портал (англ.)
    • Books (англ.) - книги, посвящённые конкретно Semantic Web и Linked data
  • Общественный портал (англ.)
  • Русскоязычный сайт о Семантической паутине (технологии, проекты, инструменты)
  • Спецификации языка OWL: OWL Language Reference и OWL Language Guide
  • Dublin Core Metadata Initiative (DCMI) (англ.)
  • Microformats (англ.)
  • Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web (англ.)
  • Начальное руководство по RDFa разметке для HTML и xHTML верстальщиков
  • Лекция в PDF «Семантический веб» курса Юрия Лифшица «Алгоритмы для интернета»

семантическая паутина 5, семантическая паутина интернет, семантическая паутина сериал, семантическая паутина шарлотты

Семантическая паутина Информацию О

КАПЕЛЬ УТРОМ И ВЕЧЕРОМ

Еще с детства у меня постоянные головные боли. Когда проходила медосмотр, врач сказал, что у меня сужение сосудов головного мозга. Выписал таблетки, которые сначала помогли, а потом стало еще хуже.

Зная, что у меня часто болит голова, брат привез лекарство, которое сделал сам по где-то вычитанному рецепту. Когда он мне дал его выпить, боль прошла почти моментально. После этого я начала принимать это лекарство 2 раза в день по 25 капель. Прошло 6 месяцев, а я ни разу не выпила ни одной таблетки. Шумы бывают, правда, иногда бывают, но без шума.

А лекарство такое:

понадобятся по 100 мл настоек

– эвкалипта

Валерианы

Пустырника

Боярышника

по 50 мл настоек

Пиона уклоняющегося

Мяты перечной

10 штук гвоздик

1 ст.л. меда

1 пакетик имбиря (10 г)

Все это слить в литровую бутылку темного цвета.

Настаивайте 25 дней, периодически встряхивая.

Затем хорошо процедить и разлить в пузыречки с дозатором.

Принимать по 25 капель два раза в день, утром и вечером.

Начало формы

Конец формы

http://ru.wikipedia.org/wiki/%D0%A1%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BF%D0%B0%D1%83%D1%82%D0%B8%D0%BD%D0%B0

[править]

Материал из Википедии - свободной энциклопедии

15 октября 2011

Стабильная версия была проверена 15 октября 2011 . Имеются непроверенные изменения в шаблонах или файлах.

Перейти к: навигация, поиск

Не следует путать с Семантическая сеть.

Семанти́ческая паути́на (англ. Semantic Web ) - это направление развития Всемирной паутины, целью которого является представление информации в виде, пригодном для машинной обработки.

В обычной Паутине, основанной на HTML-страницах, информация заложена в тексте страниц и извлекается человеком с помощью браузера. Семантическая же паутина предполагает запись информации в виде семантической сети с помощью онтологий. Таким образом программа-клиент может непосредственно извлекать из паутины факты и делать из них логические заключения. Семантическая паутина работает параллельно с обычной Паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

Термин «семантическая паутина» был впервые введён сэром Тимом Бернерсом-Ли (изобретателем Всемирной паутины) в мае 2001 года в журнале «Scientific American» , и называется им «следующим шагом в развитии Всемирной паутины». Эта концепция была принята и продвигается Консорциумом Всемирной паутины .



[править] Основная идея

Семантическая паутина - это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам.

Граф визитной карточки основателя Википедии в формате RDF. Элементы этого графа - как узлы, так и дуги (кроме литерала , изображённого в оранжевом прямоугольнике ) - являются URI.

  • Повсеместное использование унифицированных идентификаторов ресурсов (URI) , широко известных как адреса . Традиционно в Интернете эти идентификаторы используются для установки ссылок на адресуемый объект (например, веб-страницу, файл или ящик электронной почты). В семантической паутине URI используются также для именования объектов, то есть каждый URI однозначно называет некоторый объект. Свои URI в семантической паутине есть не только у страниц, но и у объектов реального мира (людей, городов, художественных произведений и так далее), и даже у абстрактных понятий (например, у свойств «имя», «должность», «цвет»). Поскольку URI глобально уникальны, они позволяют называть одни и те же предметы в разных местах в семантической паутине. При этом URI протокола HTTP (то есть начинающиеся с http://) можно одновременно использовать как адреса документов, содержащих машино-читаемые описания этих предметов .
  • Использование семантических сетей и онтологий. Современные методы автоматической обработки данных, доступных в Интернете, как правило, основаны на частотном и лексическом анализе текстового содержимого, которое прежде всего предназначено для восприятия человеком. В семантической паутине вместо этого используется стандарт RDF, описывающий семантические сети (графы), в которых узлы и дуги имеют URI. Утверждения, кодируемые с помощью RDF, в дальнейшем можно интерпретировать с помощью онтологий, созданных по стандартам RDF Schema и OWL, чтобы получать из них логические заключения. В основе онтологий лежат математические формализмы, называемые дескрипционными логиками.

[править] Критика




Top