Семантическая сеть, основанная на микроформатах


Оглавление (нажмите, чтобы открыть):

Семантическая паутина

Семантическая паутина — группа методов и технологий, созданных для того, чтобы позволить машинам понимать значение — или «семантику» — информации о всемирной паутине.

Термин был введен на собрании World Wide Web (W3C) директором Тимом Бернерсом-Ли. Согласно исходному видению, доступность машиночитаемых метаданных позволила бы автоматизированным агентам и другому программному обеспечению более разумно получать доступ к сети. Агенты были бы в состоянии автоматически выполнять задачи и определять местоположение соответствующей информации от имени пользователя.

В то время как слову «семантическая паутина» формально не дают определение, однако можно сказать, что это понятие главным образом используется для того, чтобы описать модель и технологии, предложенные W3C. Эти технологии включают платформу описания ресурсов (RDF), множество форматов обмена данными (например, RDF/XML, N3, Turtle, N-Triples), и нотации, такие как схема RDF (RDFS) и веб-язык онтологии (OWL), которые предназначены для того, чтобы обеспечить формальное описание понятий, сроки и отношения в пределах данной области знаний.

Многие из технологий, предложенных W3C, уже существуют и используются в различных проектах. Семантическая паутина как глобальное видение, однако, осталась в значительной степени неосуществленной, и критика проекта подвергла сомнению возможность выполнения данного подхода.

Кроме того, другие технологии с подобными целями, такими как микроформаты, развились, однако они не всегда описываются как «семантическая паутина».

Люди используют сеть для того, чтобы выполнять задачи, такие как обнаружение ирландского варианта для слова «каталог», резервирование библиотечной книги и поиск низкой цены на DVD. Однако один компьютер не может выполнить все эти задачи без человечека, потому что веб-страницы разработаны, чтобы быть просмотренными людьми, а не машинами. Семантическая паутина — это видение информации, которая понятна компьютерами, таким образом, компьютеры могут выполнять утомительную работы, включающую в себя открытие, объединение и показ информации в сети.

Прикладные области семантической паутины испытываю быстрый рост в сети, связанный с новшеством и реконструкцией информационных технологий контента. Семантическая паутина расценивается как интегратор различнго контента и информационных приложений и систем, она обслуживает механизмы реализации информационных систем. Скорость роста является стимулом для исследователей, чтобы они могли сосредоточиться на создании и распространении инновационных технологий семантической паутины, где давно ожидается внедрение семантической паутины в качестве исходного понятия.

Критика

Практическая выполнимость

Критики подвергают под сомнение основную возможность полной или даже частичной реализации семантической паутины. Примером критики является скептический анализ Кори Доктороу с точки зрения человеческого поведения и персонального предпочтения. Например, люди лгут: они могут включать побочные метаданные в веб-страницы в попытке ввести в заблуждение механизмы семантической паутины, которые наивно принимают метаданные за верные. Это явление было известно с метатегами, которые дурачили алгоритм ранжирования AltaVista в момент ранжирования определенных веб-страниц: скажем, Google ищет такие попытки манипулирования. Питер Гэрденфорс и Тимо Хонкела говорят о том, что основанные на логике технологии семантической паутины покрывают только часть соответствующих явлений, связанных с семантикой.

Потенциал идеи в быстром продвижении

В своей научной статье (2001) Тим Бернерс-Ли описал ожидаемое развитие семантической паутины. Полное же развитие должно также произойти. В 2006 Бернерс-Ли и коллеги утверждали, что: «Эта простая идея, однако, остается в значительной степени неосуществленной.» В то время как идея все еще в процессе создания, она развивается быстро и вдохновляет многих. В период 2007-2010 несколько ученых уже исследовали первые приложения и социальный потенциал семантической паутины в бизнесе и секторах здравоохранения, также для социальных сетей и даже для более широкого развития демократии.

Цензура и конфиденциальность

Энтузиазм о семантической паутине мог быть умерен проблемами относительно цензуры и конфиденциальности. Например, анализирующие текст методы могут легко обойтись использованием других слов, например, метафор, или использованием изображений вместо слов. Усовершенствованная реализация семантической паутины сделала бы намного более простым управление просмотром и созданием онлайн-информации для правительства, поскольку эта информация будет намного легче для понимания машиной и последующей автоматизации блокировки контента. Кроме того, с использованием файлов FOAF и географического расположения метаданных, будет очень небольшая анонимность, связанная с авторством статей относительно таких вещей, как персональный блог.

Удвоение выходных форматов

Другой спорный момент в использовании семантической паутины состоит в том, что это отнимает больше времени для того, чтобы создать и опубликовать контент, потому что должно быть два формата для одной части данных: один для просмотра человеком и один для машин. Однако множество веб-приложений решают эту проблему, создавая машиночитаемый формат после публикации данных или запроса машины для таких данных. Разработка микроформатов была одной реакцией на эту критику. Другой аргумент в защиту выполнимости семантической паутины — сниженная цена задач агентурной разведки на цифровых рынках труда типа Amazon Mechanical Turk.

Такие спецификации, как eRDF и RDFa позволяют встраивать произвольные данные RDF в страницы HTML. Механизм GRDDL (Gleaning Resource Descriptions from Dialects of Language) позволяет существующему материалу (включая микроформаты) автоматически интерпретироваться как RDF, таким образом, издатели только должны использовать один формат HTML.

Потребность

Идея семантической паутины, которая в состоянии описать и связать значение с данными, имеет больше чем простой код разметки XHTML. Это основано на предположении, что для того, чтобы можно было обеспечить машины возможностью точно интерпретировать контент, нужны не простые упорядоченные отношения, включающие в себя буквы и слова, а необходима базовая инфраструктура. Иначе большая часть благосклонной функциональности была бы доступна в Web 2.0 (и более ранних версиях), и было бывозможно получить семантически способную сеть с незначительными, инкрементными дополнениями.

Дополнения к инфраструктуре, чтобы поддерживать семантическую функциональность, включают в себя скрытые динамические сетевые модели, которые при определенных условиях могут изучить значение, основанное на данных порядка в отношениях ‘изучения’ процесса с порядком (своего рода элементарная рабочая грамматика).

Микроформаты: Что это и как ими пользоваться?

Микроформаты — форматы, позволяющие сделать контент не только доступным человеку, но и понятным для машин (что является базовой идеей Semantic Web 1 ). Этот обзор даст вам основное представление о том, что такое микроформаты, какие они могут дать вам преимущества и как их использовать, чтобы сделать контент более заметным и понятным для поисковых машин.

Что нужно знать о микроформатах?

  • Разработанные в первую очередь для людей и для машин во вторую, микроформаты — это набор простых и открытых форматов данных, основанных на существующих, широко распространенных стандартах. [Microformats: Official definition 2 ]
  • Микроформаты — это общее название всех форматов основанных на XML (X)HTML для предоставления дополнительных метаданных о веб-объектах. [Microcontent Design 3 ]
  • Микроформаты — форматы, которые можно использовать для обозначения характерных данных, таких как личные данные или события, на веб-страницах. [Chris Messina 4 ]
  • Микроформат — это часть разметки, которая позволяет выразить семантику элемента (X)HTML страницы. Программы могут извлекать осмысленные данные из страниц, использующих микроформаты. [Wikipedia: Microformats 5 ]
  • Микроформаты позволяют публиковать в XHTML характерные типы данных, такие как события, бизнес карты и обзоры продуктов так, что они будут доступны не только для просмотра пользователями, но и для осмысленной индексации и обработки машинами. [Michael McCracken 6 ]
  • Микроформаты позволяют использовать хорошо известные стандарты для передачи большего количества семантической информации. В них используются существующие элементы XHTML, например, address , cite , blockquote и атрибуты, например, rel , rev и title , чтобы создать блоки кода с определенной семантикой. [Microformats Primer 7 ]

Существующие микроформаты

  • hAtom 8
    Микроформат, предназначенный для данных, которые могут быть объединены в новостные ленты, преимущественно это контент блогов, но не только. hAtom основан на формате новостных лент Atom 9 .
  • hCalendar 10 | hCalendar Creator 11
    Простой и открытый формат для составления календаря и описания событий, может быть внедрен в (X)HTML, Atom, RSS и произвольный XML.
  • hCard 12 | hCard Creator 13
    Формат для описания людей, компаний, организаций и мест, с помощью семантического XHTML.
  • hResume 14 | hResume Creator 15
    Микроформат для публикации резюме.
  • hReview 16 | hReview Creator 17
    Микроформат для внедрения обзоров (продуктов, сервисов, событий т.д.) в (X)HTML, Atom, RSS и произвольный XML.
  • rel=»nofollow»
    HTML атрибут, указывающий поисковым машинам, что ссылка не должна влиять на ранжирование целевой страницы.
  • rel=»tag»
    Добавив rel=»tag» к гиперссылке можно указать для целевой страницы назначенный автором тег (ключевое слово, тему), к примеру: tech.
  • XFN 18
    XHTML Friends Network (XFN) простой способ показать связи между людьми с помощью гиперссылок, разработанный Global Multimedia Protocols Group. XFN позволяет выразить отношение к человеку, добавив соответствующее значение атрибута rel к ссылке на его сайт, например: .
  • XOXO 19
    XOXO (eXtensible Open XHTML Outlines) Позволяет использовать существующие элементы XHTML для создания новых форматов.
  • xFolk 20
    Формат для публикации коллекций ссылок.

Семантическая сеть, основанная на микроформатах

5. СЕМАНТИЧЕСКИЕ СЕТИ И КОНЦЕПТУАЛЬНЫЕ ГРАФЫ

5.1. Представление знаний семантическими сетями

Семантика – раздел языкознания, изучающий значение единиц языка, прежде всего его слов и словосочетаний. В более общем смысле, семантика определяет смысл знаков (образов, обозначений) и их сочетаний.

Семантическая сеть (смысловая сеть) — модель предметной области, представленная в виде графа, вершинами которого являются понятия, а дуги (ребра) – отношения между ними.

Прародителями современных семантических сетей можно считать экзистенциальные (лат. exsisto — возникаю, происхожу, существую) графы, предложенные Чарльзом Пирсом в 1909 г. С их помощью описывались понятия и логические связи между ними некоторой предметной области. Важным этапом в становлении семантических сетей стали работы немецкого психолога Отто Сэлза 1913 и 1922 гг. Для описания понятий и связей между ними, а также изучения методов наследования свойств он использовал графы и семантические отношения. Первые компьютерные реализации семантических сетей появились в конце 1950-х – начале 1960-х гг. в системах машинного перевода (Ричард Риченс, Маргарет Мастерман). Одной из основополагающих теоретических работ по семантическим сетям считается труд американского психолога Росса Куиллиана о «семантической памяти» («Semantic memory. Semantic information processing», «Семантическая память. Семантическая обработка информации», 1968г.) [23, 31].

В качестве понятий обычно выступают абстрактные или конкретные объекты (огурец, машина, любовь, Маша). В качестве отношений наиболее часто используются следующие (смысловая классификация) [19, 31]:

— таксономические («класс – подкласс – экземпляр», «множество – подмножество – элемент» и т.п.). Данный тип отношения называют также отношением AKO (англ. A Kind Of – является разновидностью), IS A (является, это есть) или гипонимии (гипероним – общая сущность; гипоним – частная сущность);

— структурные («часть – целое»). Данный тип отношения называют также отношением Part of (является частью), Has part (состоит из, включает в себя), агрегации (лат. aggregatio – присоединение), композиции (лат. compositio – составление, связывание, сложение, соединение) или меронимии (холоним – сущность, включающая в себя другие; мероним – сущность, являющаяся частью другой);

— родовые («предок» — «потомок»);

— производственные («начальник» — «подчиненный»);

— функциональные (определяемые обычно глаголами «производит», «влияет» и т.п.);

— количественные (больше, меньше, равно и т.п.);

— пространственные (далеко от, близко от, за, под, над и т.п.);

— временные (раньше, позже, в течение и т.п.);

— атрибутивные (иметь свойство, иметь значение);

— логические (И, ИЛИ, НЕ);


Отношения можно также классифицировать по степени участия (арности) понятий в отношениях:

— унарное (рекурсивное) — отношение связывает понятие само с собой;

— бинарное — отношение связывает два понятия;

— N-арное — отношение, связывающее более двух понятий.

Приведем пример двух простых семантических сетей. Одна из них (рис.5.1а) описывает понятие «помидор», а другая (рис. 5.1б) описывает факт «Маша укрепила стул клеем».

Рис.5.1. Примеры семантических сетей

В разных вариациях семантических сетей для отображения понятий используются различные геометрические примитивы: прямоугольники, овалы, четырехугольники со скругленными углами и т.п.

Проблема поиска решения в семантической сети сводится к задаче поиска фрагмента сети, соответствующего поставленному запросу. Например, вопрос «Какого цвета помидор?» можно графически представить в виде подсети.

Рис.5.2. Представление вопроса в виде подсети

Наложение подсети вопроса на сеть, описывающую предметную область, дает ответ – «красный».

Семантические сети широко используются в экспертных системах в качестве языка представления знаний (например, в экспертной системе PROSPECTOR), в системах распознавания речи и понимания естественного языка. Непосредственное отношение к сетевым моделям имеют исследования по реляционным, сетевым и иерархическим БД.

5.2. Классификация семантических сетей

Классифицировать семантические сети можно по следующим признакам [19, 21]:

— по количеству типов отношений:

— однородные (с единственным типом отношений);

— неоднородные (с различными типами отношений);

— по назначению. Обычно совпадает с преобладающим типом отношений, например:

— классифицирующие — позволяют описывать различные иерархические отношения между понятиями. Могут содержать таксономические, структурные, родовые и производственные отношения. В частности, если известную биологическую классификацию Карла Линнея (жизнь – домен – царство – тип – класс – порядок – семейство – род – вид) представить в виде семантической сети, то отношения между понятиями разных уровней можно рассматривать одновременно как таксономические и структурные (например, семейство является одновременно разновидностью и частью порядка);

— функциональные — вычислительные модели, позволяющие описывать процедуры вычислений одних информационных единиц через другие;

— сценарии — используются для описания казуальных отношений (причинно-следственных или устанавливающих влияние одних явлений или фактов на другие), а также отношений типа «средство — результат», «орудие — действие» и т.п.;

5.3. Достоинства и недостатки семантических сетей

Достоинства семантических сетей [4, 21]:

— универсальность, достигаемая за счет выбора соответствующего набора отношений. В принципе с помощью семантической сети можно описать сколь угодно сложную ситуацию, факт или предметную область;

— наглядность системы знаний, представленной графически;

— близость структуры сети, представляющей систему знаний, семантической структуре фраз на естественном языке;

— соответствие современным представлениям об организации долговременной памяти человека.

В качестве иллюстрации последнего утверждения приведем следующий пример [23].

Рис.5.3. Семантическая сеть «Канарейка»

Из психологии известно, что люди при запоминании часто используют ассоциации и стараются иерархически организовать свои знания. Коллинс и Куиллиан проводили следующий тест. Группе людей задавались вопросы о различных свойствах птиц, такие как «Канарейка — это птица?», «Канарейка может петь?» или «Канарейка может летать?».

Хотя ответы на эти вопросы, возможно, просты, изучение времени реакции показало, что при ответе на вопрос «Может ли канарейка летать?» оно больше, чем на вопрос «Может ли канарейка петь?». Аллан Коллинс и Росс Куиллиан объясняют эту разницу во времени ответа тем, что люди запоминают информацию на самом абстрактном уровне. Вместо того, чтобы запоминать конкретные свойства для каждой птицы (канарейки летают, дрозды летают, ласточки летают), люди запоминают, что канарейки — птицы, а птицы (обычно) имеют свойство летать. Таким образом, попытка вспомнить, может ли канарейка летать, занимает больше времени, чем воспоминание, может ли канарейка петь. Это происходит из-за того, что для получения ответа человек должен дольше путешествовать по иерархии структур памяти.

Недостатки семантических сетей:

— сетевая модель не дает (точнее, не содержит) ясного представления о структуре предметной области, поэтому формирование и модификация такой модели затруднительны;

— сетевые модели представляют собой пассивные структуры, для обработки которых необходим специальный аппарат формального вывода;

— проблема поиска решения в семантической сети сводится к задаче поиска фрагмента сети, соответствующего подсети, отражающей поставленный запрос. Это, в свою очередь, обуславливает сложность поиска решения в семантических сетях;

— представление, использование и модификация знаний при описании систем реального уровня сложности оказывается трудоемкой процедурой, особенно при наличии множественных отношений между ее понятиями.

В качестве иллюстрации последнего утверждения приведем выдержку из [25]:

Очень быстро семантические сети позволили воссоздать исходный ХАОС мироздания и снова загнать кибернетику в интеллектуальный тупик.

Возьмем самый элементарный пример: «Федя дал книгу Мане».

Изобразим сеть с Федей и Маней и их связь (через книгу), направленную от Феди к Мане. Но, поскольку все эти объекты обладают свойствами, то припишем Феде свойства «хороший и сильный», а книге и Мане — «очень хорошая и интересная». И пририсуем их.

Но ведь есть и многие другие связи, которые тоже следует отобразить в сети: семейные (у Феди жена и трое детей), дипломатические (с тещей), агентурные (Федя шпион, но не любит об этом хвастаться), телепатические (у Мани еще с одним стеснительным мальчиком), производственные (у Феди с оборонным КБ, а у Мани с начальником) и т.д. .

5.4. Концептуальные графы

Дальнейшим развитием графовых структур, моделирующих семантику естественного языка, являются концептуальные графы, предложенные Джоном Сова (1984г.).

Концептуальный граф – это двудольный ориентированный граф, состоящий из вершин двух типов: понятий (англ. concept) и концептуальных отношений (англ. conceptual relation). Напомним, что двудольный граф – это граф, множество вершин которого можно разбить на две части таким образом, что каждое ребро графа соединяет какую-то вершину из одной части с какой-то вершиной другой части, то есть не существует ребра, соединяющего две вершины из одной и той же части.

Рис.5.4. Двудольный граф

Понятия в концептуальных графах отображаются прямоугольниками, отношения между ними – эллипсами. В отличие от семантических сетей отношение между понятиями отображаются не именованной дугой графа, а вершиной соответствующего типа, которая связывает два понятия дугами без метки. Рассмотренный выше пример «Маша укрепила стул клеем» (см. рис.5.1) в виде концептуального графа будет выглядеть следующим образом.


Рис.5.5. Пример концептуального графа

Авторы первых семантических сетей не уделяли должного внимания к четкому семантическому разделению отношений вида «класс — подкласс» («множество» — «подможество») и «класс» — «экземпляр» («множество» — «элемент») [13]. Например, отношения, характеризующие свойства и поведение класса («млекопитающие»), могут отличаться от отношений подкласса («собака»), также как отношения подкласса («собака») от отношений конкретного экземпляра («Тузик»). Графического или символьного выделения таксономии (иерархии) понятий в семантических графах не предусмотрено. В концептуальных графах внутри вершины, обозначающей понятие, можно указывать имена его типа и экземпляра (разновидности типа). Например, «персона : Маша», «млекопитающее : собака» или «собака : Тузик».

При описании конкретных, но неименованных (анонимных) экземпляров, используется маркер «#». Например, «персона : #1234» или «собака : #4321». Использование анонимных экземпляров позволяет упростить описание и представление предметной области (базы знаний), как набора концептуальных графов. В частности, факт, что три собаки «Тузик», «Мухтар» и «Байкал» черного цвета можно описать вместо одного графа двумя.

Рис.5.6. Пример использования анонимных экземпляров

Вместо обращения к экземпляру по имени можно использовать маркер «*», обозначающий любой экземпляр типа. Т.о., имена понятий «собака» и «собака : *» являются эквивалентными.

Дополнительно к обобщающему маркеру «*» допускается использование переменных для более упрощенного и наглядного отображения графов. В частности, для минимизации пересечений и поворотов стрелок. Например, факт «Собака чешет лапой ухо» может выглядеть следующим образом.

Рис.5.7. Пример использования переменной

Как отмечено ранее, база знаний представляет собой набор концептуальных графов. Каждый отдельный граф представляет собой один факт (высказывание, правило) из предметной области, описываемый через ассоциативные отношения между понятиями. Для представления второго базового механизма структурирования знаний – обобщения понятий – в теории концептуальных графов используются иерархии типов. Отдельная иерархия представляется в виде решетки, описывающей таксономические отношения (отношения наследования) между понятиями, включая множественное наследование. Для представления иерархии типов в виде решетки в нее включается два специальных типа:

— универсальный тип (англ. universal type), являющийся супертипом для всех типов. Обозначается символом «┬»;

— абсурдный тип (англ. absurd type), являющийся подтипом для всех типов. Обозначается символом «┴».

На следующем рисунке приведен пример иерархии типов.

Рис.5.8. Пример иерархии типов геометрических фигур

Иерархии типов позволяют описать статическую составляющую предметной области, а непосредственно концептуальные графы как статическую, так и динамическую.

Теория концептуальных графов предусматривает четыре вида операций, позволяющие создавать новые графы на основе существующих. К ним относятся:

— копирование – создание точной копии какого — либо графа;

— объединение двух графов в один, если они имеют семантически общие вершины-понятия. Для графов, отображенных на рис.5.6, результат объединения выглядит следующим образом:

Рис.5.9. Пример объединения двух графов

— ограничение – замена вершины-понятия графа другой вершиной-понятием, представляющими его специализацию, или замена имени типа на имя подтипа (экземпляра). Пример применения операции для графов, отображенных на рис.5.6:

Рис.5.10. Пример применения операции «ограничение»

— упрощение – исключение дублирующих понятий или отношений. Дублирование часто возникает в результате операции объединения. Пример применения операции для графа, отображенного на рис.5.7:

Рис.5.11. Пример применения операции «упрощение»

В дополнение к возможности определения отношений между понятиями предметной области, выраженными в одном высказывании, с помощью концептуальных графов можно выражать отношения между высказываниями. Например, предложение: «Вася предполагает, что Маша любит мороженное». Здесь «предполагает» является отношением между субъектом «Вася» и высказыванием «Маша любит мороженное». Все предложение целиком является высказыванием о высказывании (метавысказыванием).

В формализме концептуальных графов выделяется особый класс понятий — утверждение (англ. proposition). Понятие «утверждение» включает в себя один или несколько концептуальных графов, что и позволяет определять метавысказывания. Визуально «утверждение» выражается в виде прямоугольника, внутри которого располагаются другие концептуальные графы.

Рис.5.12. Пример метавысказывания

Помимо отображения высказываний в виде графов, наиболее наглядной и доступной для понимания форме, они могут быть выражены в т.н. линейной форме. При этом понятия заключаются в квадратные скобки, а отношения – в круглые. Например, граф, отображенный на рис. 5.12, в линейной форме выглядит следующим образом:

Мастер Йода рекомендует:  Честный заработок в интернете

[персона : Вася] (объект) –>

[[персона : Маша] (объект) –> [мороженное]].

При наличии более, чем двух дуг, соединяющих понятие или отношение с другими, они перечисляются через «-». Например, для графа на рис. 5.5 линейная форма

Аналогичный подход используется, если в графе имеются контуры. Например, для графа на рис. 5.11 линейная форма

Существуют и другие способы текстово-символьного описания концептуальных графов. В частности в международном стандарте «ISO/IEC IS 24707:2007. Information technology — Common Logic (CL): a framework for a family of logicbased languages» («Информационная технология — Общие положения: Основы семейства логически-ориентированных языков») дается описание языка CGIF (Conceptual Graph Interchange Format, формат обмена концептуальными графами).

Семантические сети

Лекция 4-5. Семантические сети и фреймы

1. Семантические сети.

Сетевая модель представления знаний является более наглядной, нежели продукционная. Она позволяет более ясно структурировать информацию и представлять ее в графическом виде.

Понятие семантической сети основано на древней и очень простой идее о том, что «память» формируется через ассоциации между понятиями. Понятие «ассоциативная память» появилось еще во времена Аристотеля. В информатику оно вошло в связи с работами по использованию простых ассоциаций для представления значений слов в базе данных. Разработка семантических сетей относится к 1960 г., когда они использовались для моделирования обработки естественного языка, для представления смысла (семантики) выражения. Отсюда и происходит их название. Квиллиан предположил, что наша способность понимать язык может быть охарактеризована некоторым множеством базовых понятий (концептов) и правил. Так с помощью 100 базовых понятий был смоделирован словарь в 15 000 слов. Процесс восприятия текста включает в себя «создание некоторого рода мысленного символического представления». Квиллиан первым предложил использовать для моделирования человеческой памяти сетевые структуры. Теперь же они используются в качестве структуры, пригодной для представления информации общего вида.

Базовыми функциональными элементами семантической сети служит структура из двух компонентов – узлов и связывающих их дуг. Таким образом, семантической сетью называется ориентированный граф с конечными вершинами. Каждый его узел представляет собой некоторое понятие, а дуга – отношение между парой понятий. Можно считать, что каждая из таких пар отношений представляет простой факт. Узлы в семантической сети соответствуют объектам, понятиям или событиям. Они обладают определенной маркировкой, позволяющий идентифицировать этот узел.

Основной принцип семантической сети: знания, которые семантически связаны между собой (связаны по смыслу) должны храниться рядом. В семантической сети имеется два типа дуг:

2. имеет частью (has part)

Дуги обладают свойством транзитивности – устанавливают отношения иерархии наследования в сети (элементы низкого уровня наследуют свойства высокого)

В качестве простого примера семантической сети рассмотрим предположения:

«Студент Иванов является мужчиной»; «Мужчина является человеком»

Студент Иванов мужчиной человеком.

Очевидно, что отношение «является» транзитивно, т.е. из этой сети мы можем вывести третье утверждение, хотя оно и не было сформулировано в чистом виде «Студент Иванов является человеком». Свойство транзитивности позволяет экономить память, поскольку информация о сходных узлах может не повторяться в каждом узле сети, а храниться в одном центральном узле. Это свойство модели памяти получило наименование когнитивной экономии. Например, на рис. 4.1 информация об узле с маркировкой «сердечная мышца» присоединена к узлу с маркировкой «система органов кровообращения», а информация о том, что сердечная мышца является частью человека задана неявно.

Рис. 4.1 – Диаграмма семантической сети.

Квиллиан также ввел разделение между видами узлов. Один вид узлов он назвал узлами-типами. Такой узел представляет концепт, связанный с конфигурацией других узлов, узлов-лексем. Это в определенной степени напоминает толковый словарь, в котором каждое понятие определяется другими понятиями, также присутствующими в этом словаре, причем и их смысл толкуется с помощью еще каких либо понятий в этом словаре.


Например, можно определить смысл слова «машина» как конструкцию из связанных компонентов, которые передают усилия для выполнения определенной работы. Это потребует присоединения узла-типа для слова «машина» к узлам-лексемам «конструкция», «компонент» и т.д. Однако в дополнение к связям, сформированным для определения смысла, могут существовать связи к другим узлам-лексемам, например «телетайп», «офис». Эти связи представляют знания о том, что телетайпы являются одним из видов машин, которые используются в офисе.

Проблема поиска решений в базе знаний типа семантической сети сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети, отражающей поставленный запрос к базе.

Существует довольно обширный перечень проблем, при решении которых представление, базирующееся на формализме семантических сетей, оказывается весьма полезным. И использование узлов и связей в сети для представления понятий и отношений может показаться само сбой разумеющимся. Однако следует учитывать следующие недостатки семантических сетей:

¨ В различных вариантах спецификаций структуры сети далеко не всегда можно четко определить смысл маркировки узлов. Так если рассмотреть узел-тип, имеющий маркировку «телетайп», то часто бывает непонятно, представляет ли этот узел понятие «телетайп», или класс всех агрегатов типа «телетайп», или какой-то конкретный телетайп. Аналогично, и узел-лексема открыт для множества толкований. Разные толкования влекут за собой и разный характер влияния этого узла на другие узлы сети. Иначе говоря, семантические сети являются логически неадекватными.

¨ Процесс поиска информации в сети сам по себе знаниями не управляется. Другими словами, этот механизм не предполагает наличия какого-либо знания о том, как искать нужную нам информацию в представленных знаниях. Таким образом, сети является эвристически неадекватными.

Эти два недостатка иногда усиливают друг друга. Например. Если невозможно представить логическое отрицание или исключение (логическая неадекватность), то это приведет к определенным «провалам» в знаниях, которые к тому же нельзя ликвидировать, прекратив поиск в этом направлении (эвристическая неадекватность). Одним из способов ликвидировать эти недостатки является переход к специальному представлению узлов в сети и унификация связей между узлами (фреймами).

Не нашли то, что искали? Воспользуйтесь поиском:

Онтологическое моделирование программного комплекса с использованием микроформатов Текст научной статьи по специальности « Автоматика. Вычислительная техника»

Аннотация научной статьи по автоматике и вычислительной технике, автор научной работы — Ворожцова Татьяна Николаевна

Рассматриваются возможности использования микроформатов, как варианта структурирования данных, при моделировании программных комплексов, базирующемся на онтологическом описании предметной области.

Похожие темы научных работ по автоматике и вычислительной технике , автор научной работы — Ворожцова Татьяна Николаевна,

Текст научной работы на тему «Онтологическое моделирование программного комплекса с использованием микроформатов»

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

ОНТОЛОГИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОГРАММНОГО КОМПЛЕКСА С ИСПОЛЬЗОВАНИЕМ МИКРОФОРМАТОВ

Введение. Исследованию возможностей использования онтологий в различных направлениях в настоящее время уделяется достаточно много внимания. На их основе решаются такие задачи, как представление знаний для релевантного поиска и вывода информации; формализация знаний предметных областей и их классификация; организация общей и предметной терминологии; выделение концептуальных знаний и др. Основная цель разработки онтологий — организация и структурирование знаний, а также их приобретение и повторное использование. Использование международных открытых стандартов, а также современных инструментов и технологий Web-программирования на базе использования языка XML и метаданных способствует дальнейшему расширению перспектив применения онтологического подхода.

В Институте систем энергетики им. Л.А. Мелентьева (ИСЭМ) СО РАН ведется работа по созданию IT-инфраструктуры научных исследований с использованием онтологий для описания интеллектуальных ресурсов [1], а также предложено использовать онтологическое описание для моделирования и разработки программных комплексов (ПК) [2, 3]. Использование микроформатов является дальнейшим шагом в развитии онтологического подхода к формализованному описанию ресурсов. В данной статье рассматривается возможность их использования для формирования и структурирования HTML-страниц, предназначенных для вывода информации в HTA-прило-жениях, используемых при разработке программных комплексов для исследований теплоэнергетических объектов.

Микроформаты и их назначение. Микроформаты становятся современным новым средством представления данных. Фактически они представляют собой специальные элементы языка разметки, позволяющие закодировать то или иное понятие, наиболее часто встречающееся на Web-страницах. Тем самым

появляется дополнительная возможность выявления семантики страниц на HTML или XHTML программными средствами. Уже формируются стандарты на такие семантические фрагменты, например, hCard (для представления контактной информации о людях, компаниях, организациях), hCalendar (календарные даты и события), hReview (обзоры продуктов, услуг, бизнеса) и др. [6, 7]. Вид понятия представляется как определенный класс объектов, понятный для браузера. Основное назначение микроформатов — дополнительная формализация для обеспечения работы поисковых программ и других программ обработки информации, в том числе и для автономных приложений.

Моделирование и разработка ПК с использованием онтологий. Специфика проведения исследований в энергетике связана с моделированием энергетических объектов и требует постоянной разработки нового программного обеспечения (ПО), все более усложняющихся программных комплексов. Основной особенностью ПО, используемого в исследованиях теплоэнергетических объектов, является тесная взаимосвязь его структуры с описанием исследуемой предметной области. Как правило, ПК предназначаются для моделирования и расчетов тепловых электрических станций (ТЭС) или теплоэнергетических установок (ТЭУ). Такие объекты имеют сложную структуру, как правило, иерархическую, состоят из большого количества элементов. Алгоритмы математического моделирования базируются на разработках системы декларативного программирования, работы по которой ведутся достаточно давно [4]. Для автоматизации создания моделирующих программ используется комплекс СМПП-ПК [5], с помощью которого можно автоматически генерировать программу расчета сложной ТЭУ по информации об элементах и связях технологической схемы. С использованием этого комплекса выполняются многочисленные оптими-

зационные исследования теплосиловых систем различных типов. Происходит постоянное развитие методик расчетов и усложнение исследуемых объектов, что требует современных подходов к моделированию ПО, в частности, базирующихся на концепции MDA (Model Driven Architecture — архитектура, управляемая моделью), предполагающей зависимость структуры разрабатываемого ПО от предметной области.

В ИСЭМ СО РАН для разработки ПК, предназначенных для моделирования ТЭУ и ТЭС используется концептуальная схема ПК, основанная на распространенном паттерне проектирования MVC (Model-View-Controller — Модель-Вид-Контроллер), позволяющем разделить все объекты проектируемого ПК на отдельные группы, каждая из которых отвечает за свой набор функций. Объединение всех вычислительных модулей реализуется на основе HTA-приложения, которое позволяет организовать гибкий расширяемый интерфейс любого вида с помощью возможностей языка сценариев JavaScript или VBscript. HTA объединяют в себе все возможности Internet Explorer — объектную модель, поддержку протоколов, отображают меню, иконки, панели инструментов, заголовки и другую информацию и могут выполняться как любой исполняемый файл (рис. 1).

Моделирование состава конкретного ПК осуществляется на основе описания реальной структуры моделируемой предметной облас-

Рис. 1.Структурная схема ПК

ти, например, описания технических объектов ТЭЦ. Иерархическая структура формируется путем создания дерева каталогов, каждый элемент которого содержит данные о том или ином фрагменте общей модели ТЭЦ и его компонентах. В соответствии с этой структурой программными средствами автоматически создается онтологическое описание моделируемой предметной области, которое представляет собой текстовый файл в формате XML.

Сформированная онтология является базой для формирования всей структуры приложения, в соответствии с ней формируется интерфейс на основе HTA, навигационная структура меню с набором основных команд приложения. Каждый элемент навигационной структуры содержит привязку к соответствующему HTML-файлу, который создается в соответствии с потребностями пользователя и особенностями данного компонента, содержит необходимые данные и отображается в рабочем окне (рис. 2). HTML-формат обеспечивает гибкие возможности как для отображения любой необходимой информации, так и для формирования гипертекстовых переходов и связей с другими компонентами приложения.

Использование микроформатов для представления данных на HTML-страницах.

Содержимым рабочего окна могут быть разные компоненты — графические схемы (общая схема ТЭЦ, схема группы турбин, схема турбогенератора и др.), числовые данные в виде таблиц значений параметров расчета, текст, рисунки, гиперссылки, элементы управления (поля редактирования, кнопки и др.). Информация в рабочем окне может формироваться динамически в соответствии с текущей выполняемой командой.

HTML-страниц, содержащих данные приложения предлагается использовать микроформаты для формализации наиболее часто используемых видов отображаемой информации. В разрабатываемых ПК для теплоэнергетических исследований такой типичной информацией, требующей отображения, являются гиперссылки, простые текстовые фрагменты, графическая информация и таблицы данных.

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

Рис. 2. Фрагмент навигационной структуры и рабочего окна

В Интернет уже получили распространение микроформаты, используемые в ссылках с помощью атрибута ге! такие как rel-directory, указывающий, что ссылка указывает на директорию или rel-tag, показывающий, что ссылка указывает на метку, находящуюся на той же странице. Данные микроформаты показывают связь текущей страницы с той, на которую ссылается. Атрибут гс1 предоставляет широкие возможности для семантического сопровождения страниц, так как для него не существует определенного списка значений и можно использовать произвольные в соответствии

Расширяет возможности и использование атрибута class, который может иметь разное назначение : во-первых, для использования стандартным механизмом каскадного стилевого оформления CSS; во-вторых, может быть обработан и трансформирован стандартными средствами XSLT (или специальным про-граммым обработчиком поддержки данного микроформата) для запуска команды операционной системы (типа AT для MS Windows); в-третьих, обладает явной семантической «читабель-множественного применения для

свойством ности» и подготовленного пользователя.

Далее приведен пример микроформата для запуска программного модуля ПК в заданное время [10]:

3aпycк программного модуля,

^рап >4 августа 2 00 8 осуществить,

Спецификой разработанного ПК для мо

с потребностями. Примеры использования на делирования ТЭУ являются иерархические

страницах приложения: связи между моделируемыми объектами, ко-

1.
. страницы, содержащие графическую инфор-

Данная ссылка описывается с использова- мацию, связываются ссылками, обеспечиваю-

нием атрибута гс1, который указывает, что щими переходы по уровням иерархии, Тот же

документ с названием «ТЭЦ» является альтер- относится и к страницам, отображающим чис-

нативным по отношению к текущему, т.е. ловые параметры. По аналогии с универсаль-


представляет, например, графическое отобра- ными микроформатами можно использовать

жение ТЭЦ. собственные, дополнительно описывающие,

2.группатурбин T-100 . графическими данными одного и того же мо-

Данное значение атрибута указывает на делируемого объекта. Возможны и другие ва-то,чтоссылкаявляетсяметкойнатомжедоку- рианты использования аналогичных микроменте. форматов, описывающих типовые компонен-

Существует возможность указывать и об- ты представляемых данных, например, для

ратную связь между страницами с помощью формирования типовых таблиц, содержащих

атрибута rev. Например, страницы помощи, списки редактируемых и не редактируемых

содержащие подсказки пользователю, целесо- параметров и др.

образно снабжать ссылками, использующими микроформат, указывающий, что текущая страница является вспомогательной по отношению к той, на которую указывает ссылка для возврата:

При необходимости работы в WWW распределенные по страницам метаданные в микроформатах могут быть обработаны и представлены в стандартных онтологических форматах OWL (OWL Lite, OWL DL, OWL Full). Ожидается, что ряд стандартных микрофор-

матов и их развитие (например, RDFA, hCard, hCaledar, AtomOWL и др.) будут поддерживаться в стандарте W3C языка HTML версии 5.0.

Заключение. Использование универсальных микроформатов, которые находят все большее применение в Интернет а также разработка собственных мини-структур данных, аналогичных микроформатам, может способствовать лучшему структурированию информации на страницах и обеспечивать дополнительные возможности программной обработки типовых данных для аналогичных страниц и их фрагментов. Разработанная модель ПК является достаточно универсальной, т.к. позволяет создавать программные комплексы для разных предметных областей на основе формализованного описания в виде онтологической модели реальной структуры данных и решаемых задач, включая в свой состав прикладные алгоритмы обработки данных и расчетов, реализованные на разных языках программирования, в виде исполняемых программных модулей. Представление данных в виде HTML-страниц или фреймов с использованием как универсальных, так и специальных микроформатов для формализации типовых компонентов данных, также обеспечивает большую гибкость и возможность динамического формирования данных в зависимости от потребностей пользователя, особенно в случаях совместного использования одних и тех же данных разными приложениями.

1. Ворожцова Т.Н., Скрипкин С.К. Онтологический подход к моделированию программного комплекса // Вестник ИрГТУ. — 2006. — № 2 (26). — С. 72-78.

2. Ворожцова Т.Н., Скрипкин С.К. Моделирование программно-вычислительного

комплекса на основе онтологий // Информационные и математические технологии в науке, технике и образовании / Труды X Байкальской Всероссийской конференции «Информационные и математические технологии в науке, технике и образовании». Часть 1. — Иркутск: ИСЭМ СО РАН, 2005. — С. 87-94.

3. Копайгородский А.Н., Массель Л.В. разработка и интеграция основных компонентов информационной инфраструктуры научных исследований // Вест.ИрГТУ. 2006. №2 (26). С. 20-24.

4. Карпов В.Г., Попырин Л.С., Самусев В.И., Эпельштейн В.В. Автоматизация построения программ для расчета схем теплоэнергетических установок // Изв. АН СССР. Энергетика и транспорт. — 1973. -№ 1.-С.129-137.

5. Математическое моделирование и оптимизация в задачах оперативного управления тепловыми электростанциями / Клер, Н.П. Деканова, С. К. Скрипкин и др. — Новосибирск: Наука. 1997. — 120 с.

6. Latest microformats news. http://microformats.org

7. Microformat From Wikipedia, the free encyclopedia.

8. Алексей Копылов. Семантическая сеть, основанная на микроформатах. http://www.gui.ru.copylove/microformats/

9. Юч Огбуджи. Микроформаты в контексте их применения

Лабораторная работа №1 Использование семантических сетей для представления знаний

Лабораторная работа №1

Использование семантических сетей

для представления знаний

Цель работы: Научиться использовать семантические сети для представления знаний в информационных аналитических системах.

Семантическая сеть – это один из способов представления знаний. Изначально семантическая сеть была задумана как модель представления долговременной памяти в психологии, но впоследствии стала одним из способов представления знаний в экспертной системе.

Семантика – означает общие отношения между символами и объектами из этих символов.

Рис.1. Простейший образец семантической сети.

Вершины – это объекты, дуги – это отношения. Семантическая модель не раскрывает сама по себе, каким образом осуществляется представление знаний. Поэтому семантическая сеть рассматривается как метод представления знаний и структурирования знаний.

Характерная особенность семантических сетей – это обязательное наличие 3 типов отношений.

Пример: класс – элемент класса, свойство – значение.

Пример элемента класса.

Существует несколько классификаций семантических сетей:

1) По количеству отношений

1. Однородные с единственным типом отношений;

2. Неоднородные с различными типами отношений.

2) По типам отношений

1. Бинарные сети – в которых отношения связывают 2 объекта;

2. Парные сети – в которых отношения связывают более чем 2 понятия.

Наиболее часто используются в семантических сетях:

1. Связь “часть – целое” (класс подкласс, элемент — множество);

2. Функциональные связи (производит, владеет);

Микроформаты

Микроформаты (иногда используются сокращения μF или uF) — часть языка разметки HTML (и XHTML), которая позволяет семантически размечать разнообразные сущности в Web-страницах: события, информацию об организациях и людях, о товарах и т.п. Одной из ключевых особенностей микроформатов является то, что их может свободно воспринимать как человек, просматривающий страницу с размеченным микроформатом, так и различные программные средства обработки, которые с помощью определённого соглашения о разметке могут легко получить необходимую информацию из Web-страницы.


Ещё одна особенность микроформатов заключается в том, что они базируются на существующих стандартах, таких как HTML и XHTML, что облегчает их добавление на существующие страницы в сети.

Как добавлять микроформаты Править

Чтобы добавить микроформаты на уже существующую страницу, нет необходимости изучать какие-то новые технологии. Если вы владеете HTML или XHTML, то вы довольно быстро сможете добавить в разметку любой микроформат. Для этого вам лишь потребуются спецификации основных микроформатов, в которых подробно описано, что нужно изменить в разметки для её соответствия нужному микроформату.

Так как для разметки применяются существующие стандарты, то к разметке, в основном, лишь добавляются новые составляющие, только наполненные особым, специально-определённым заранее смыслом. Например, используется атрибут class , подходящий ко всем элементам. С помощью него, а точнее, с помощью его содержания, можно передать необходимый смысл, которым наполнен данный элемент. Таким образом, люди приходят к соглашению об использовании определённых имён атрибутов для того, чтобы облегчить задачу друг другу и себе остальным в обработке такой разметки машинными средствами. Учитывая использование стандартных элементов и атрибутов HTML и XHTML, это приводит ещё и к возможности необходимой стилизации элемента с помощью CSS, так что и пользователи получат читабельную информацию.

Для разметки микроформатами подходят любые элементы XHTML и HTML, однако особое значение придаётся элементам без семантического значения по умолчанию:

В данный момент в микроформатах, в основном, используются следующие атрибуты языка разметки:

Примеры Править

Предположим, что имеется контейнер с уже размеченной информацией о человеке:

С помощью микроформата hCard мы можем добавить семантическую значимость вышеуказанному блоку кода, тогда не только человек, но и роботы научаться понимать его:

К элементам данного блока мы добавили необходимые атрибуты и он стал микроформатом. Содержание атрибутов говорит само за себя: видно, что мы лишь дали понять, где конкретно располагается в блоке та или иная информация. Весь блок при этом заключён в , (см. vCard), который является родительским для микроформата hCard. Это означает, что элемент с данным классом и все элементы, вложенные в него, составляют микроформат hCard, предназначенный для разметки информации о человеке (или организации).

Дополнения к браузерам могут извлекать данную информацию и передавать её другим приложениям, например, адресной книге, календарям.

Существующие микроформаты Править

Существует большое число микроформатов, каждый из которых решает определённую, специфичную задачу. Среди них особо выделяют следующие:

  • hCard ([1]) — информация об организациях и людях;
  • hCalendar ([2]) — события;
  • hAtom ([3]) — ленты новостей (как аналог RSS и ATOM) из обычного HTML или XHTML;
  • XFN — социальные взаимоотношения;
  • rel-tag ([4]) — метки (теги) и образование фолксономии;
  • xFolk ([5]) — помеченные ссылки;
  • adr ([6]) — почтовые адреса;
  • geo ([7]) — географические координаты (широта; долгота);
  • hReview ([8]) — обзоры;
  • nofollow — попытка предотвратить индексацию поисковыми системами документа по ссылке, которая содержит такой атрибут.

Предлагаемые микроформаты Править

Огромное сообщество Web-разработчиков может предлагать свои собственные микроформаты. Для этого они должны вынести идею своего микроформата на суд других Web-разработчиков, представить задачу, которую должен будет решать данный микроформат и обсудить вместе со всеми его плюсы, минусы и возможность интеграции в существующую инфраструктуру стандартов.

Среди множества предлагаемых микроформатов наиболее близки к завершению микрформаты для оформления цитат и валют.

Микроформат

Микроформат (англ. microformat ; иногда сокращённо μF или uF) — способ семантической разметки сведений о разнообразных сущностях (событиях, организациях, людях, товарах и так далее) на веб-страницах с использованием стандартных элементов языка HTML (или XHTML). Пользователь-человек может воспринимать страницу с микроформатом как обычную веб-страницу (через браузер), тогда как программы-обработчики способны извлечь из такой страницы структурированную информацию, следуя определённым соглашениям.

Поскольку микроформаты основаны на уже существующих стандартах (таких, как HTML и XHTML), их легко добавлять на существующие страницы в паутине.

Содержание

Принципы построения

При использовании микроформатов к существующей HTML-разметке добавляются новые составляющие, наполненные особым, заранее определённым смыслом. Например, с помощью атрибута class можно обозначить смысл того или иного HTML-элемента на странице (этот атрибут определён для всех элементов). Таким образом, люди приходят к соглашению об использовании определённых значений атрибутов (в том числе class ) для разметки определённых фрагментов информации. В дальнейшем такую разметку можно обрабатывать машинными средствами.

Мастер Йода рекомендует:  Хитрости с битовыми операциями на примере языка Си

Для разметки микроформатами подходят любые элементы HTML, но особое значение придаётся элементам, которые не имеют собственного, стандартного семантического значения — div и span . Из атрибутов в настоящее время используются в основном следующие: class , rel , rev , title .

Примеры

Предположим, что имеется контейнер с уже размеченной информацией о человеке:

С помощью микроформата hCard можно добавить семантическую значимость этому блоку кода:

Содержимое самих элементов не изменилось; к ним только были добавлены атрибуты, указывающие, где именно в блоке находится та или иная информация (имя, телефон и так далее). Весь блок при этом имеет атрибут , который является родительским для микроформата hCard. Это означает, что данный элемент и все вложенные в него элементы вместе составляют микроформат hCard.

Одним из способов использования такой информации являются плагины к браузерам, способные находить её на странице, извлекать и передавать другим приложениям (адресной книге, календарям).

Существующие микроформаты

Каждый микроформат решает определённую, отдельную задачу. Вот наиболее известные из них:

  • hCard — организации и люди;
  • hCalendar — события;
  • hAtom — ленты новостей (как аналог RSS и Atom) в обычном HTML или XHTML;
  • XFN — социальные взаимоотношения;
  • rel-tag — метки (теги) и образование фолксономии;
  • xFolk — помеченные ссылки;
  • adr — почтовые адреса;
  • geo — географические координаты (широта и долгота);
  • hReview — отзывы (о товарах, услугах, событиях и тому подобном); [1]
  • hProduct — товары; [2]
  • nofollow — для предотвращения индексации поисковыми системами определённых документов;
  • hRecipe — кулинарные рецепты приготовления блюд. [3]

Новые микроформаты

Разработка новых микроформатов происходит в открытом режиме.

Среди множества предлагаемых микроформатов наиболее близки к завершению микроформаты для разметки цитат и валют.

Микроформат

Микроформат (англ. microformat ; иногда сокращённо μF или uF) — способ семантической разметки сведений о разнообразных сущностях (событиях, организациях, людях, товарах и так далее) на веб-страницах с использованием стандартных элементов языка HTML (или XHTML). Пользователь-человек может воспринимать страницу с микроформатом как обычную веб-страницу (через браузер), тогда как программы-обработчики способны извлечь из такой страницы структурированную информацию, следуя определённым соглашениям.

Поскольку микроформаты основаны на уже существующих стандартах (таких, как HTML и XHTML), их легко добавлять на существующие страницы в паутине.

Содержание

Принципы построения [ | ]

При использовании микроформатов к существующей HTML-разметке добавляются новые составляющие, наполненные особым, заранее определённым смыслом. Например, с помощью атрибута class можно обозначить смысл того или иного HTML-элемента на странице (этот атрибут определён для всех элементов). Таким образом, люди приходят к соглашению об использовании определённых значений атрибутов (в том числе class ) для разметки определённых фрагментов информации. В дальнейшем такую разметку можно обрабатывать машинными средствами.

Для разметки микроформатами подходят любые элементы HTML, но особое значение придаётся элементам, которые не имеют собственного, стандартного семантического значения — div и span . Из атрибутов в настоящее время используются в основном следующие: class , rel , rev , title .

Примеры [ | ]


Предположим, что имеется контейнер с уже размеченной информацией о человеке:

С помощью микроформата hCard можно добавить семантическую значимость этому блоку кода:

Содержимое самих элементов не изменилось; к ним только были добавлены атрибуты, указывающие, где именно в блоке находится та или иная информация (имя, телефон и так далее). Весь блок при этом имеет атрибут , который является родительским для микроформата hCard. Это означает, что данный элемент и все вложенные в него элементы вместе составляют микроформат hCard.

Одним из способов использования такой информации являются плагины к браузерам, способные находить её на странице, извлекать и передавать другим приложениям (адресной книге, календарям).

Существующие микроформаты [ | ]

Каждый микроформат решает определённую, отдельную задачу. Вот наиболее известные из них:

  • hCard — организации и люди;
  • hCalendar — события;
  • — ленты новостей (как аналог RSS и Atom) в обычном HTML или XHTML;
  • XFN — социальные взаимоотношения;
  • — метки (теги) и образование фолксономии;
  • — помеченные ссылки;
  • — почтовые адреса;
  • geo — географические координаты (широта и долгота);
  • hReview — отзывы (о товарах, услугах, событиях и тому подобном); [1]
  • hProduct — товары; [2]
  • nofollow — для предотвращения индексации поисковыми системами определённых документов;
  • hRecipe — кулинарные рецепты приготовления блюд. [3]

Новые микроформаты [ | ]

Разработка новых микроформатов происходит в открытом режиме.

Среди множества предлагаемых микроформатов наиболее близки к завершению микроформаты для разметки и .

Семантический веб и микроформаты. О пользе семантической паутины

Семантическая паутина (Semantic Web) — часть глобальной кон­цепции развития сети Интернет, целью которой является реализация возможности компьютерной обработки информации, доступной во Всемирной сети . Основной акцент концепции делается на работе с метаданными, однозначно характеризующими свойства и содержа­ние ресурсов веб, вместо используемого в настоящее время тексто­вого анализа документов . Термин впервые введен Тимом Бернерсом-Ли в мае 2001 г. и называется им «следующим шагом в развитии Всемирной паутины». В семантической паутине предполагается по­всеместное использование, во-первых, универсальных идентифика­торов ресурсов (URI), а во-вторых, онтологии и языков описания метаданных. Эта концепция была принята и продвигается Консор­циумом WZC, для ее внедрения предполагается создание сети доку­ментов, содержащих метаданные о ресурсах Интернета, существу­ющей параллельно с ними. Метаданные могут использоваться поис­ковыми роботами и другими интеллектуальными агентами для проведения логических заключений о свойствах этих ресурсов.

В инфраструктуре современного бизнеса Интернет занимает все более важное место.

С развитием Интернета и информационно-коммуникационных технологий появляются новые формы организации предприятий, такие, как виртуальные корпорации. Виртуальная корпорация — это организация, состоящая из нескольких бизнес-партнеров, разделя­ющих затраты и ресурсы с целью производства продукта или услуги. В виртуальной корпорации ресурсы бизнес-парнеров остаются на их прежних местах, но являются интегрированными в общий процесс. Так как партнеры находятся в различных местах, им требуются ин­формационные системы для поддержки коммуникаций и сотрудни­чества.

С развитием Интернета развиваются сетевые бизнес-структуры в глобальной экономике, включающие сети поставщиков, сети про­изводителей, потребительские сети, коалиции по стандартам и тех­нологическую кооперацию. Это позволяет объединять ресурсы, сни­жать издержки, обмениваться знаниями и технологиями и более полно удовлетворять потребности клиентов.

10. «Электронный бизнес» (e-business), «электронная коммерция» (е-commеrсе) и электронный маркетинг (e-marketing) — определения, основные отличия .

В начале 1990-х гг. с активной коммерциализацией Интернета появились термины «электронный бизнес» (e-business), «электронная коммерция» (е-соттеrсе) и электронный маркетинг (e-marketing). Анализируя особенности глобальной сетевой экономики и опыт раз­личных компаний в области электронного бизнеса, можно построить модель, отражающую новые категории, и сформулировать опреде­ления, адекватные сегодняшним реалиям (рис. 5.1).

В широком смысле электронный бизнес — реализация бизнес-про­цессов с использованием информационно-коммуникационных технологий и систем . В узком смысле электронный бизнес — это бизнес на элект­ронном рынке в сети Интернет.

В соответствии с этим подходом электронный маркетинг — реализация маркетинговой деятельности с использованием информационно-коммуникационных технологий и сис­тем , а в узком смысле — маркетинговая деятельность субъектов на электронном рынке.

Сегодня онлайн-торговля обеспечивает 7% продаж в США. По прогнозам журнала «Forbes», к 2020 г. электронный бизнес достигнет уровня 20 трлн долл., что превосходит текущий ВНП США. Ниже приведены цифры и факты, отражающие состояние электронного бизнеса в России, отметим лишь, что, по оценкам Национальной ассоциации участников электронной торговли, объем рынка элект­ронной торговли в 2005 г. составил 4474 млн долл. США, а средние темпы роста за период с 2001 до 2005 г. составили 138%.

Приведем данные статистики по росту электронной торговли в мире (рис. 5.2) и в России (рис. 5.3). В 2007 г. оборот электронной коммерции достиг 259 млрд долл., что на 18% больше, чем в 2006 г. Однако к концу десятилетия, по прогнозу компании Jupiter Research, рост онлайн-продаж будет составлять лишь 9% в год, что является существенным спадом по сравнению с 2004 г., когда эта цифра со­ставляла 25%.

Семантическая паутина — группа методов и технологий, созданных для того, чтобы позволить машинам понимать значение — или «семантику» — информации о всемирной паутине.

Термин был введен на собрании директором Тимом Бернерсом-Ли. Согласно исходному видению, доступность машиночитаемых метаданных позволила бы автоматизированным агентам и другому программному обеспечению более разумно получать доступ к сети. Агенты были бы в состоянии автоматически выполнять задачи и определять местоположение соответствующей информации от имени пользователя.

В то время как слову «семантическая паутина» формально не дают определение, однако можно сказать, что это понятие главным образом используется для того, чтобы описать модель и технологии, предложенные . Эти технологии включают платформу описания ресурсов (RDF), множество форматов обмена данными (например, RDF/XML, N3, Turtle, N-Triples), и нотации, такие как схема RDF (RDFS) и веб-язык онтологии (OWL), которые предназначены для того, чтобы обеспечить формальное описание понятий, сроки и отношения в пределах данной области знаний.

Многие из технологий, предложенных , уже существуют и используются в различных проектах. Семантическая паутина как глобальное видение, однако, осталась в значительной степени неосуществленной, и критика проекта подвергла сомнению возможность выполнения данного подхода.

Кроме того, другие технологии с подобными целями, такими как микроформаты, развились, однако они не всегда описываются как «семантическая паутина».

Люди используют сеть для того, чтобы выполнять задачи, такие как обнаружение ирландского варианта для слова «каталог», резервирование библиотечной книги и поиск низкой цены на DVD. Однако один компьютер не может выполнить все эти задачи без человечека, потому что разработаны, чтобы быть просмотренными людьми, а не машинами. Семантическая паутина — это видение информации, которая понятна компьютерами, таким образом, компьютеры могут выполнять утомительную работы, включающую в себя открытие, объединение и показ информации в сети.

Прикладные области семантической паутины испытываю быстрый рост в сети, связанный с новшеством и реконструкцией информационных технологий контента. Семантическая паутина расценивается как интегратор различнго контента и информационных приложений и систем, она обслуживает механизмы реализации информационных систем. Скорость роста является стимулом для исследователей, чтобы они могли сосредоточиться на создании и распространении инновационных технологий семантической паутины, где давно ожидается внедрение семантической паутины в качестве исходного понятия.

Критика

Практическая выполнимость

Критики подвергают под сомнение основную возможность полной или даже частичной реализации семантической паутины. Примером критики является скептический анализ Кори Доктороу с точки зрения человеческого поведения и персонального предпочтения. Например, люди лгут: они могут включать побочные метаданные в веб-страницы в попытке ввести в заблуждение механизмы семантической паутины, которые наивно принимают метаданные за верные. Это явление было известно с метатегами, которые дурачили алгоритм ранжирования AltaVista в момент ранжирования определенных веб-страниц: скажем, Google ищет такие попытки манипулирования. Питер Гэрденфорс и Тимо Хонкела говорят о том, что основанные на логике технологии семантической паутины покрывают только часть соответствующих явлений, связанных с семантикой.

Потенциал идеи в быстром продвижении

В своей научной статье (2001) Тим Бернерс-Ли описал ожидаемое развитие семантической паутины. Полное же развитие должно также произойти. В 2006 Бернерс-Ли и коллеги утверждали, что: «Эта простая идея, однако, остается в значительной степени неосуществленной.» В то время как идея все еще в процессе создания, она развивается быстро и вдохновляет многих. В период 2007-2010 несколько ученых уже исследовали первые приложения и социальный потенциал семантической паутины в бизнесе и секторах здравоохранения, также для социальных сетей и даже для более широкого развития демократии.

Цензура и конфиденциальность

Энтузиазм о семантической паутине мог быть умерен проблемами относительно цензуры и конфиденциальности. Например, анализирующие текст методы могут легко обойтись использованием других слов, например, метафор, или использованием изображений вместо слов. Усовершенствованная реализация семантической паутины сделала бы намного более простым управление просмотром и созданием онлайн-информации для правительства, поскольку эта информация будет намного легче для понимания машиной и последующей автоматизации блокировки контента. Кроме того, с использованием файлов FOAF и географического расположения метаданных, будет очень небольшая анонимность, связанная с авторством статей относительно таких вещей, как персональный блог.

Удвоение выходных форматов

Другой спорный момент в использовании семантической паутины состоит в том, что это отнимает больше времени для того, чтобы создать и опубликовать контент, потому что должно быть два формата для одной части данных: один для просмотра человеком и один для машин. Однако множество веб-приложений решают эту проблему, создавая машиночитаемый формат после публикации данных или запроса машины для таких данных. Разработка микроформатов была одной реакцией на эту критику. Другой аргумент в защиту выполнимости семантической паутины — сниженная цена задач агентурной разведки на цифровых рынках труда типа Amazon Mechanical Turk.

Такие спецификации, как eRDF и RDFa позволяют встраивать произвольные данные RDF в страницы HTML. Механизм GRDDL (Gleaning Resource Descriptions from Dialects of Language) позволяет существующему материалу (включая микроформаты) автоматически интерпретироваться как RDF, таким образом, издатели только должны использовать один формат HTML.

Потребность

Идея семантической паутины, которая в состоянии описать и связать значение с данными, имеет больше чем простой код разметки XHTML. Это основано на предположении, что для того, чтобы можно было обеспечить машины возможностью точно интерпретировать контент, нужны не простые упорядоченные отношения, включающие в себя буквы и слова, а необходима базовая инфраструктура. Иначе большая часть благосклонной функциональности была бы доступна в Web 2.0 (и более ранних версиях), и было бывозможно получить семантически способную сеть с незначительными, инкрементными дополнениями.

Дополнения к инфраструктуре, чтобы поддерживать семантическую функциональность, включают в себя скрытые динамические сетевые модели, которые при определенных условиях могут изучить значение, основанное на данных порядка в отношениях ‘изучения’ процесса с порядком (своего рода элементарная рабочая грамматика).

Семантическая паутина потенциально способна привести к революции в принципах получения и передачи информации, а также управления ею конечными пользователями, однако, как отмечают авторы доклада о «самодельных» базах данных , ситуация с инструментами достаточно мрачная. Выяснилось, в частности, что, не имея специальных приложений, в компаниях и организациях в большинстве случаев вынуждены пользоваться таблицами Excel, списками заданий из Outlook, а также бумажными листками, индексными карточками и скоросшивателями. Использование этого «инструментария» приводит к неразберихе с версиями документов, огромным затратам времени на ввод и передачу данных и трудностям организации, опроса и наглядного представления информации. При этом речь вообще не идет о Больших Данных — обычный сценарий работы служащих заключался в ответах на элементарные вопросы вроде «Кто из сотрудников отвечает за ту или иную деятельность?» или «Каков общий объем работы, проделанной таким-то специалистом?». Для опытного администратора базы данных SQL это тривиальные операции, но далеко не у всех сотрудников компаний есть такие навыки. Для всех, кто занимается базами данных и Семантической паутиной, такая ситуация — это просто позор. Мы заняты решением великих задач, в то время как рядовые пользователи не могут справиться с подобными простыми проблемами.

В чем проблема?

Суть проблемы в том, что имеющиеся приложения «мешают» сохранять информацию, организовывать ее и извлекать. Традиционные приложения обычно разрабатываются с расчетом на использование фиксированной схемы данных, определяющей типы сохраняемой информации, способы ее отображения и принципы управления. Пользователям, чья информация отвечает другой схеме, не повезло — они не могут записывать ее в нужной форме. К примеру, врачу-специалисту, не имеющему возможности занести определенные сведения о своих пациентах в систему электронных медицинских карт, приходится пользоваться полем комментариев, вследствие чего ценность системы сводится на нет. Сегодня, когда данные отвечают нестандартным схемам, выбор инструментов скуден — чаще всего используются электронные таблицы, что создает массу сложностей, причем схемы нередко приходится менять вручную по мере изменения самой информации.


Кроме того, фиксированные схемы не позволяют соединять информацию из нескольких приложений — например, связать человека из адресной книги с написанной им музыкой в медиаплеере. Поскольку соответствующие приложения «не знают» схемы друг друга, они не могут работать с чужими данными и даже ссылаться на них .

Семантическая паутина

Семантическая паутина обещает возможность создания приложений, поддерживающих гибкие схемы данных. Приведем примеры.

Haystack

Одной из попыток реализовать принцип гибких схем стала система Haystack (рис. 1), позволяющая сохранять произвольные заданные пользователем сущности, которые имеют произвольные свойства и связи с другими сущностями, а также формирующая произвольные наглядные представления сущностей . Можно, к примеру, реализовать подобие традиционного приложения с любой удобной для пользователя схемой данных.

Первая версия Haystack была создана еще до появления концепции Семантической паутины, но позднее стало ясно, что это как раз приложение для нее, и когда была разработана стандартная модель представления данных RDF, то ее стали использовать в Haystack, которая реализует главное обещание Семантической паутины — поддержку «паутины» данных с многообразием схем. Разработчики баз данных посвятили немало усилий возможности их интеграции, классический пример — объединение крупных баз при слиянии двух компаний, однако ничего не было предложено для более «анархичной» ситуации с разнообразием схем данных, используемых на различных веб-сайтах.

Вместо традиционных приложений с жестко закодированными схемами и интерфейсами сегодня нужны приложения, позволяющие эффективно манипулировать информацией на основе любых схем, но это непросто — разработчики пользовательских интерфейсов и движков обработки данных привыкли полагаться на известность схемы.

Related Worksheets

Авторы Related Worksheets (рис. 2) — инструмента для управления информацией — решили, что раз уж пользователи «проголосовали» за электронные таблицы, то последние можно оптимизировать, обеспечив возможность управления данными с меняющейся схемой. В усовершенствованной электронной таблице лучше отображаются сущности и связи, а также проще навигация. Рассмотрим типичный документ: таблица с перечнем университетских курсов (по строке на каждый), которая ссылается на другую таблицу со списком литературы для каждого курса (по строке на каждое наименование) и на одну таблицу со списком преподавателей. В традиционной электронной таблице такая «ссылка» — это просто условное соответствие: в таблице курсов есть ячейка с названием публикации из таблицы со списком литературы.

Представив список литературы в виде сущности, можно каждую позицию списка литературы сделать «вложенной» в соответствующую ячейку таблицы курсов, чтобы сразу видеть дополнительные сведения, не делая отдельно поиск по таблице литературы. Кроме того, можно сразу «телепортироваться» из наименования публикации, отображаемого в таблице курсов, в соответствующую строку перечня литературы, где можно просматривать и менять дополнительные данные, а также «телепортироваться» дальше — к автору публикации. Тестирование показало, что эти функции позволяют пользователям гораздо быстрее получать нужную информацию. По сути, такие связки соответствуют операции соединения, которая есть в СУБД, но отсутствует в электронных таблицах.

Exhibit

Система Exhibit (рис. 3), как и Haystack, позволяет создавать интерактивные наглядные репрезентации данных с нефиксированной схемой для сайтов. Профессионалы могут строить очень сложные сайты с эффектными схемами визуализации, но у рядовых разработчиков нет необходимых для этого навыков программирования и администрирования баз данных, поэтому они ограничиваются текстом и статичными изображениями. Авторы Exhibit обратили внимание на то, что профессионально сделанные сайты часто имеют много общего и что можно было бы создать расширение HTML для описания типовых элементов таких сайтов. В таком расширении определены отображения (списки, таблицы, карты и оси времени), фильтры и «линзы» для данных (HTML-шаблоны для вывода единиц информации разного типа). Такой элемент можно буксировкой разместить на веб-странице и мгновенно опубликовать интерактивную наглядную визуализацию, перенеся на него файл данных (CSV, электронную таблицу или документ JSON). Для платформы WordPress на базе Exhibit разработали расширение Datapress, которое позволяет публиковать визуализации в блоге.

На сегодня существует уже 1800 сайтов на Exhibit, среди которых дела Европейского суда по правам человека, мониторинг загрязнения воздуха в Испании, картографические материалы, композиторы классической музыки, расписания спортивных состязаний и т. п., причем, судя по отзывам, Exhibit полностью удовлетворяет потребности пользователей в создании интерактивных визуализаций данных без специальных знаний.

Atomate

Приложение Atomate (рис. 4) позволяет составлять правила для автоматической обработки входящих информационных потоков, например из социальных СМИ. Руководствуясь идеями Семантической паутины, такие потоки можно было бы направлять в единую личную базу данных пользователя, где они автоматически обрабатывались бы с помощью постоянных запросов. Можно, к примеру, сделать так, чтобы пользователь получал предупреждение, когда одновременно в календаре появляется уведомление, что скоро выступает его любимая группа, а социальная сеть сообщает, что в город приехал его друг и можно вместе сходить на концерт. А еще можно обеспечить автоматическую отправку уведомления вашему секретарю, когда приложение, следящее за вашим местонахождением, определяет, что вы опаздываете.

Одной из важных задач является разработка для подобных систем языка запросов, достаточно простого для рядовых пользователей. Специально для Automate был создан язык — подмножество английского, лишенное неоднозначностей и поддающееся машинной обработке. С его помощью для пользовательских данных можно назначать триггеры и действия. Триггеры — постоянные запросы, при выполнении условий которых запускается отправка сообщений либо модификация хранимых данных.

Достаточно популярным стал похожий инструмент — онлайн-сервис If This Then That (IFTTT), на котором доступны информационные потоки, поступающие с различных онлайн-сервисов. Пользователи могут составлять «рецепты», в которых триггерам, реагирующим на информацию из каналов, ставятся в соответствие действия. IFTTT, по сути, реализует возможности, которые могла бы дать Семантическая паутина, но сейчас операторам сервиса для каждого источника данных приходится писать специальный код, с использованием соответствующих API для переноса информации в канал. Концепция Семантической паутины между тем предусматривает создание единого API для доступа к данным на всех сайтах. Такой API избавил бы от необходимости разрабатывать специальный код для каждого канала — пользователи бы просто писали триггеры и действия для любых сайтов, которые сочтут полезными.

Что делать?

Как видно по приведенным примерам, методы Семантической паутины позволяют создавать полезные инструменты, работающие с нефиксированными схемами данных. Учитывая, насколько широкие возможности управления пользовательской информацией могли бы дать такие инструменты, разочаровывает, как мало разработчики концепции Семантической паутины вкладывают в ее развитие. Исследования, посвященные приложениям для конечных пользователей, сегодня практически не ведутся. Например, в программу Европейской конференции по семантической паутине (ESWC) в 2013 году вошли 36 докладов, большинство из которых были посвящены базовым технологиям Семантической паутины и лишь один был по пользовательскому приложению. Аналогичная ситуация с нехваткой приложений наблюдалась и на Международной конференции по Семантической паутине (ISWC) 2013 года. Чем можно объяснить этот «дефицит»?

Меньше семантики, больше паутины

Судя по докладам на ESWC и ISWC, мало кто занимается вопросами применения Семантической паутины, а такими темами, как представление знаний, логические заключения и онтологии, уже десятки лет озабочены исследователи, работающие в области искусственного интеллекта. Эти задачи важны для достижения долгосрочных целей — моделирования процесса познания и создания истинного искусственного разума, но почему те же исследования выполняются и в сообществе Семантической паутины? Разве то, что логические заключения выводятся по данным из WWW, а не из базы знаний экспертной системы, меняет суть задачи?

Мастер Йода рекомендует:  Объясняем React так доходчиво, что поймет даже ребенок

Главные новшества, которые обещает Семантическая паутина, касаются WWW, а не семантики — революция WWW заключалась в том, что абсолютно всем стало проще готовить информацию, управлять и делиться ею, причем дело было не в новизне каких-то систем (все нужные элементы были созданы раньше) — благодаря определенному сочетанию элементов пользователи получили совершенно новые возможности. Теперь эту революцию могли бы продолжить структурированные данные, но при условии, что акцент по-прежнему будет делаться на конечных пользователях.

Молотки и гвозди

Для академических исследований обычный риск — слишком увлечься «молотками» (методами решения) и забыть о «гвоздях» (самих проблемах, требующих решения), что и произошло в сообществе Семантической паутины. В свое время исследователи пришли к убеждению, что паутина структурированных данных будет полезной, а теперь посвящают всю свою энергию изобретению инфраструктуры для такой паутины. Но как именно она будет использоваться, так и не определились. Конечно, если создать искусственный интеллект, то можно заставить его выполнять всю работу по Семантической паутине, но тогда он сможет понимать текст на естественном языке и Семантическая паутина уже не понадобится.

Сегодня необходимо лучше демонстрировать очевидные преимущества Семантической паутины, что можно сделать, только показывая, как она позволяет решать задачи, стоящие перед пользователями прямо сейчас, и не излагать общий утопичный замысел, а четко продемонстрировать, как «забивать гвозди». Нужно описать конкретные пользовательские проблемы и реализовать приложения, решающие их. Если этого не сделать — изобрести молотки без гвоздей, то даже сомнительно, что это будут правильные молотки. Кто-то другой решит насущные задачи (пусть и менее хорошо) без Семантической паутины, а про нее вскоре просто забудут.

Нужно больше исследований начинать с обозначения конкретной пользовательской задачи, чтобы была реальная причина, требующая создания решения. Именно так поступили авторы перечисленных приложений, предложив средства управления личной информацией, усовершенствованную электронную таблицу, систему публикации интерактивных визуализаций без программирования и механизм автоматической обработки входящих потоков информации. Кстати, система Atomate похожа на агенты, предложенные в докладе Тима Бернерза-Ли о концепции Семантической паутины. И поскольку еще не известно, как создавать автономные агенты для такой паутины, то можно умерить амбиции, создать простой язык запросов и разработать что-то, что было бы полезным прямо сейчас. Если бы Семантическая паутина реально использовалась, то подобные решения нашлись бы для многих задач.

Справедливость опасений по поводу того, что Семантическую паутину забудут, подтверждается сервисом IFTTT, решающим те же задачи, что и Atomate, только без применения методов Семантической паутины. В определенном смысле это делает его менее удачным (добавить новый источник данных нельзя, если этого не пожелают операторы сервиса), но он явно лучше хотя бы в том, что активно используется для решения актуальных задач. Если тянуть слишком долго, не предлагая чего-то более совершенного на основе Семантической паутины, люди привыкнут к тому, что уже есть. Если не продемонстрировать превосходство ее методов, то другие выиграют за неимением конкуренции.

В качестве точечного решения можно было бы провести традиционный конкурс Semantic Web Challenge по созданию версии IFTTT, основанной на Семантической паутине. Можно было бы сравнить различные реализации по удобству использования и широте возможностей. Само существование IFTTT говорит о том, что, если бы создали аналогичный инструмент на основе Семантической паутины, на него бы явно был спрос.

Семантическая паутина потенциально улучшает возможности управления информацией, но полезных практических реализаций этих возможностей нет — слишком много сил уделяется исследованиям в областях представления знаний, логических выводов и извлечения информации, которые традиционно обсуждаются на конференциях по искусственному интеллекту и которым, возможно, только там и место. Приложения есть, но в основном демонстрационные, и многие из них даже не имеют отношения к Семантической паутине — это просто традиционные приложения, хранящие данные в RDF. Иначе говоря, сегодня упускаются колоссальные возможности, и стоит задуматься о том, как это предотвратить.

Литература

  1. A. Voida, Harmon, B. Al-Ani. Homebrew Databases: Complexities of Everyday Information Management in Nonprofit Organizations. Proc. 2011 Ann. Conf. Human Factors in Computing Systems, 2011, P. 915–924.
  2. D.A. Norman. The Design of Everyday Things, Basic Books, 2002.
  3. D.R. Karger. It’s All the Same to Me: Data Unification in Personal Information Management. Personal Information Management, W. Jones and J. Teevan, eds., Univ. of Washington Press, 2007, P. 127–152. URL: http://people.csail.mit.edu/karger/Papers/pimchapter.pdf
  4. D.R. Karger. Haystack: Per-User Information Environments. Beyond the Desktop Metaphor: Designing Integrated Digital Work Environments, V. Kaptelinin and M. Czerwinski, eds., MIT Press, 2007, P. 49–100. URL: http://people.csail.mit.edu/karger/Papers/desktopchapter.pdf (дата обращения: 15.12.2014).

Дэвид Каргер ([email protected]) — профессор, Массачусетский технологический институт.

David R. Karger, The Semantic Web and End Users: What’s Wrong and How to Fix It. IEEE Internet Computing, November/December 2014, IEEE Computer Society. All rights reserved. Reprinted with permission.

семантическая паутина шарлотты, семантическая паутина 5
Семанти́ческая паути́на (англ. semantic web) — это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки.

В обычной Всемирной паутине, основанной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком. Семантическая паутина состоит из машинно-читаемых элементов — узлов семантической сети, с опорой на онтологии. Благодаря этому программы-клиенты получают возможность непосредственно получать из интернета утверждения вида «предмет — вид взаимосвязи — другой предмет» и вычислять по ним логические заключения. Семантическая паутина работает параллельно с обычной Всемирной паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

Название «Семантическая паутина» было впервые введено сэром Тимом Бернерсом-Ли (изобретателем Всемирной паутины) в сентябре 1998 года, и называется им «следующим шагом в развитии Всемирной паутины». Позже в своём блоге он предложил в качестве синонима термин «гигантский глобальный граф» (англ. giant global graph, GGG, по аналогии с WWW). Концепция семантической паутины была принята и продвигается консорциумом Всемирной паутины.

  • 1 Основная идея
  • 2 Архитектура
    • 2.1 Логический вывод
  • 3 Критика
    • 3.1 Проблемы реализации
    • 3.2 Дублирование информации
    • 3.3 Последствия реализации

  • 4 Проекты
    • 4.1 Дублинское ядро
    • 4.2 RSS (версий 0.90 и 1.0)
    • 4.3 FOAF
    • 4.4 DBpedia
  • 5 См. также
  • 6 Примечания
  • 7 Литература
  • 8 Ссылки

Основная идея

Семантическая паутина — это надстройка над существующей Всемирной паутиной, придуманная для того, чтобы сделать размещаемую в Интернете информацию пригодной для машинной обработки. Доступная в сети информация удобна для прочтения человеком. Семантическая паутина создана для того, чтобы сделать информацию пригодной для автоматического анализа, синтеза выводов и преобразования как самих данных, так и сделанных на их основе заключений в различные представления, полезные на практике.

Граф визитной карточки основателя Википедии в формате RDF. Элементы этого графа — как узлы, так и дуги (кроме литерала, изображённого в оранжевом прямоугольнике) — являются URI.

Машинная обработка возможна благодаря двум характеристикам семантической паутины:

  • наличию URI;
  • использованию семантических сетей и онтологий.

URI — унифицированный идентификатор ресурса или адрес, используемый для указания ссылок на какой-либо объект (например, веб-страницу, файл или ящик электронной почты). URI используются для именования объектов. Каждый объект глобальной семантической сети имеет уникальный URI. URI однозначно называет некоторый объект. Отдельные URI создают не только для страниц, но и для объектов реального мира (людей, городов, художественных произведений и так далее), и даже для абстрактных понятий (например, «имя», «должность», «цвет»). Благодаря уникальности URI одни и те же предметы можно называть одинаково в разных местах семантической паутины. Используя URI, можно собирать информацию об одном предмете из разных мест. Рекомендуется включать в адрес URI название одного из протоколов Всемирной паутины (HTTP или HTTPS). То есть адрес URI рекомендуют начинать с «http://» или «https://»). Такой адрес можно одновременно использовать как адрес URI и как адрес веб-страницы (URL). На веб-страницах, адреса URL которых совпадают с URI, W3C рекомендует размещать описание предмета. Описание желательно предоставлять в двух форматах:

  • в формате, удобном для чтения человеком;
  • в формате, удобном для чтения машиной.

Использование семантических сетей и онтологий . Данные во Всемирной паутине, как правило, представлены в виде текста, записанного на естественных языках. Такие тексты предназначены для восприятия человеком, но машина может понять их смысл, используя один из методов обработки естественного языка. Методы выполняют частотный анализ и/или лексический анализ текста.

В качестве формата, удобного для чтения машиной, W3C предлагает использовать язык RDF. Язык RDF позволяет описывать структуру семантической сети в виде графа. Каждому узлу и каждой дуге графа можно назначить отдельный URI. Утверждения, записанные на языке RDF, можно интерпретировать с помощью онтологий. Для создания онтологий рекомендуют использовать языки RDF Schema (англ.) и OWL. Онтологии создаются для получения из данных логических заключений. основе онтологий лежат математические формализмы, называемые дескрипционными логиками.

Архитектура

Техническую часть Семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:

  • XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
  • XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры так называемой схеме документа, описанной в XML Schema.
  • RDF представляет собой простой способ описания экземплярных данных в формате субъект-отношение-объект, в котором в качестве любого элемента этой тройки используются только идентификаторы ресурсов. Существует стандартизованное отображение этих троек на XML-документы предопределённой структуры (то есть консорциумом W3 определена схема XML-документов, содержащих RDF-описания), а также на другие форматы представления (например, в нотацию N3).
  • RDF Schema описывает набор атрибутов (здесь их точнее назвать отношениями), таких, как rdfs:Class, для определения новых типов RDF-данных. Языком поддерживается также отношение наследования типов rdfs:subClassOf.
  • OWL расширяет возможности по описанию новых типов (в частности, добавлением перечислений), а также позволяет описывать новые типы данных RDF Schema в терминах уже существующих (например, определять тип, являющийся пересечением или объединением двух существующих).
  • Микроданные (HTML microdata) — это международный стандарт семантической разметки HTML-страниц, с помощью атрибутов, описывающих смысл информации, содержащейся в тех или иных HTML-элементах. Такие атрибуты делают контент страниц машиночитаемым, то есть позволяют в автоматическом режиме находить и извлекать нужные данные.

Логический вывод

Форматы описания метаданных в Семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Формализм, лежащий в основе формата, даёт возможность делать заключения о свойствах программ, обрабатывающих данные в этом формате.

Особенно сильно это относится к языку OWL. Базовым формализмом для него являются дескрипционные логики, а сам язык разбит на три вложенных подмножества (в порядке вложенности): OWL Lite, OWL DL и OWL Full. Доказано, что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (другими словами, задача вывода принадлежит к классу P). OWL DL описывает максимальное обладающее разрешимостью подмножество дескрипционных логик, но некоторые запросы по таким данным могут требовать экспоненциального времени выполнения. OWL Full реализует все существующие конструкторы дескрипционных логик за счёт отказа от обязательной разрешимости запросов.

Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов и т. д.

Критика

Проблемы реализации

В 2006 году журнал «IEEE Intelligent Systems» опубликовал новую статью Тима Бернерса-Ли «Semantic Web Revisited» («Семантическая паутина: пересмотр»), в которой автор называет описанный подход к организации информации в вебе «простой идеей, до сих пор в большой степени нереализованной», несмотря на все преимущества, предоставляемые Семантической паутиной в случае её внедрения.

На сегодняшний день нет общедоступных средств просмотра и прямого использования информации, предоставляемой сайтами в Семантическую паутину. Редкие образцы разрозненны, а программы-клиенты не выходят за уровень локальных исследовательских проектов отдельных энтузиастов.

Комментаторы указывают на различные причины, которые препятствуют активному развитию Семантической паутины, начиная с человеческого фактора (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на различимые концепты. Это ставит под сомнение возможность существования онтологии верхнего уровня, критической для Семантической паутины. Аристотель в «Топике» использует понятие differentia specifica, или наличие у понятий различимого качества, как основу для группировки понятий в классы. Философ уверен в наличии бесконечного числа понятий, из чего следует бесконечность числа классов, в которые их можно объединить. Для выделения такого количества классов необходимо бесконечно много различимых качеств, наличие которых Аристотель подвергает сомнению.

Дублирование информации

Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток Семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFа. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц. Кроме того, в самих стандартах HTML появляются семантические теги.

Последствия реализации

  • Лёгкость машинной обработки позволяет посреднику вроде поисковой системы выбирать, какую информацию предоставлять пользователю.
    • Это делает возможным предоставление только необходимой части информации. результате пользователь может получать информацию, не посещая сайт-источник, а посредник может выводить информацию, не давая ссылки на источник (или давая её при условии, что посредник узнает о переходе). Таким образом уменьшается посещаемость сайта-источника, и увеличивается посещаемость посредника; а от посещаемости зависит действие Интернет-рекламы, обеспечивающей основное финансирование многих сайтов. Цитирование частей новостей веб-агрегаторами было предметом судебных разбирательств с разными исходами. Для сайтов, публикующих контент для привлечения читателей к размещаемой рядом рекламе, предоставление контента в машинно-читаемом виде не выглядит выгодным, однако для сайтов, чей контент сам по себе является информацией о рекламируемом объекте — например, для сайтов производителей товаров и услуг — предоставление информации о рекламируемых объектах в машинно-читаемом виде выгодно, так как способно облегчать её распространение и использование.
    • Это облегчает автоматическую цензуру.
  • Предпочтение поисковыми системами размеченных страниц делает неразмеченные частью (относительно) Глубокой паутины.
  • Облегчается нахождение персональных данных и их связей с другой информацией (авторы, местонахождения, социальные связи).

Проекты

Дублинское ядро

Одним из первых серьёзных и популярных проектов, основанных на принципах Семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.

RSS (версий 0.90 и 1.0)


Версии 0.90 и 1.0 формата RSS основаны на RDF. Информация в нём представляется как и в RDF, тройками субъект-отношение-объект. Необходимо отметить, что несмотря на то, что ему присущи многие недостатки Семантической паутины (например, дублирование информации), этот простейший формат быстро стал чрезвычайно популярным за счёт узкой категоризации подмножества используемых метаданных. Отличие RSS от RDF состоит в том, что субъектом тройки всегда является сайт-источник RSS-файла, а в качестве отношений используются самые очевидные свойства документов, имеющие отношение к часто обновляющимся источникам информации: дата написания, автор, постоянная ссылка, и т. д. Другими словами, RSS — узкоспециализированное подмножество RDF.

Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf).

Проект «Friend of a Friend» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.

DBpedia

DBpedia — проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Wikipedia. DBpedia позволяет пользователям запрашивать информацию, основанную на отношениях и свойствах ресурсов Википедии, в том числе ссылки на соответствующие базы данных. Начат группой добровольцев из Свободного университета Берлина и Лейпцигского университета, в сотрудничестве с OpenLink Software, и впервые был опубликован в 2007 году. Проект DBpedia использует Resource Description Framework (RDF) для представления извлеченной информации. По состоянию на апрель 2010, базы данных DBpedia состоят из более чем 1 млрд единиц информации, из которых 257 млн были взяты из английской версии Википедии и 766 млн извлечены из версий на других языках.

См. также

  • Отображение онтологий
  • Семантическая вики
  • Семантические веб-сервисы
  • Семантический рабочий стол
  • «Haystack», проект Массачусетского технологического института

Примечания

  1. Tim Berners-Lee. Semantic Web Road map (09.1998).
  2. Giant Global Graph., русский перевод: Тим Бёрнерс-Ли. Гигантский Глобальный Граф
  3. Раздел о семантической паутине на сайте W3C (англ.)
  4. Resource description framework (RDF): concepts and abstract syntax (англ.). Консорциум Всемирной паутины (10 февраля 2004 года). — W3C Recommendation. Проверено 12 сентября
  5. Cool URIs for the Semantic Web (англ.). Консорциум Всемирной паутины (3 декабря 2008 года). — W3C Interest Group Note. Проверено 12 сентября 2010. Архивировано из первоисточника 24 августа 2011.
  6. The Species of OWL in OWL Language Gu >
    Веб и веб-сайты Глобально

Всемирная паутина (Веб 1.0 Веб 2.0 Веб 3.0) Нейронет

Сайт Портал Страница Служба Кольцо

Виды сайтов
и сервисов

Виртуальный атлас Баннерная сеть Библиотека Блог (платформа) Видеохостинг Вики Сайт-визитка Вопрос-ответ Закладки Службы знакомств Браузерная игра Каталог ресурсов Интернет-магазин Микроблог Новостной сайт Поисковая система Порносайт Веб-почта Социальная сеть Тамблелог BitTorrent-трекер Файлообменник Форум (Сервис Имиджборд) Фотохостинг Чат

Создание и
обслуживание

Мастер Разработка Дизайн Вёрстка Программирование Юзабилити Опыт взаимодействия Продвижение сайта Поисковая оптимизация (SEO) Хостинг Системный администратор Модератор Учётная запись Авторизация

Типы макетов,
страниц, сайтов

Статический Динамический Фиксированный Резиновый Динамично эластичный Адаптивный

Техническое

Веб-сервер (сравнение) Браузер (сравнение) DNS CMF CMS HTTP (ответы заголовки) SPDY QUIC CGI HTML XHTML CSS PHP JavaScript DHTML Cookie DOM XML AJAX JSON Flash RSS Atom Микроформат favicon.ico robots.txt Sitemaps Карта сайта .htaccess

Маркетинг Социум и культура

Блогосфера Интернет-сообщество (районное) Сетевая литература

Синтаксис: RDF (RDF/XML · Нотация 3 · Turtle · N-Triples · JSON-LD) · SPARQL · URI · HTTP · XML

Схемы, онтологии: RDFS · OWL · Rule Interchange Format · Semantic Web Rule Language · Common Logic · Schema.org

Семантическое аннотирование: RDFa · eRDF · GRDDL · Микроформаты · Микроданные

Словари: DOAP · FOAF · SIOC · Дублинское ядро · SKOS · UMBEL

История: Plain Old Semantic HTML DAML+OIL

семантическая паутина 5, семантическая паутина интернет, семантическая паутина сериал, семантическая паутина шарлотты

Семантическая паутина Информацию О

КАПЕЛЬ УТРОМ И ВЕЧЕРОМ

Еще с детства у меня постоянные головные боли. Когда проходила медосмотр, врач сказал, что у меня сужение сосудов головного мозга. Выписал таблетки, которые сначала помогли, а потом стало еще хуже.

Зная, что у меня часто болит голова, брат привез лекарство, которое сделал сам по где-то вычитанному рецепту. Когда он мне дал его выпить, боль прошла почти моментально. После этого я начала принимать это лекарство 2 раза в день по 25 капель. Прошло 6 месяцев, а я ни разу не выпила ни одной таблетки. Шумы бывают, правда, иногда бывают, но без шума.

А лекарство такое:

понадобятся по 100 мл настоек

по 50 мл настоек

10 штук гвоздик

1 пакетик имбиря (10 г)

Все это слить в литровую бутылку темного цвета.

Настаивайте 25 дней, периодически встряхивая.

Затем хорошо процедить и разлить в пузыречки с дозатором.

Принимать по 25 капель два раза в день, утром и вечером.

Материал из Википедии — свободной энциклопедии

15 октября 2011

Стабильная версия была проверена 15 октября 2011 . Имеются непроверенные изменения в шаблонах или файлах.

Перейти к: навигация, поиск

Не следует путать с Семантическая сеть.

Семанти́ческая паути́на (англ. Semantic Web ) — это направление развития Всемирной паутины, целью которого является представление информации в виде, пригодном для машинной обработки.

В обычной Паутине, основанной на HTML-страницах, информация заложена в тексте страниц и извлекается человеком с помощью браузера. Семантическая же паутина предполагает запись информации в виде семантической сети с помощью онтологий. Таким образом программа-клиент может непосредственно извлекать из паутины факты и делать из них логические заключения. Семантическая паутина работает параллельно с обычной Паутиной и на её основе, используя протокол HTTP и идентификаторы ресурсов URI.

Термин «семантическая паутина» был впервые введён сэром Тимом Бернерсом-Ли (изобретателем Всемирной паутины) в мае 2001 года в журнале «Scientific American» , и называется им «следующим шагом в развитии Всемирной паутины». Эта концепция была принята и продвигается Консорциумом Всемирной паутины .

[править] Основная идея

Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам.

Граф визитной карточки основателя Википедии в формате RDF. Элементы этого графа — как узлы, так и дуги (кроме литерала , изображённого в оранжевом прямоугольнике ) — являются URI.

Добавить комментарий
Основы Всемирная паутина · Интернет · Гипертекст · Базы данных · Семантические сети · Онтологии · Дескрипционная логика
Подразделы Linked data · Data Web · Hyperdata · Dereferenceable URIs · Rule bases · Data Spaces
Приложения Семантическая вики · Семантическая публикация · Semantic search · Семантические вычисления · Semantic advertising · Semantic reasoner · Semantic matching · Semantic mapper · Semantic broker · Semantic analytics · Semantic service oriented architecture
Связанные темы Фолксономия · Библиотека 2.0 · Веб 2.0 · Ссылки · Информационная архитектура · Управление знаниями · Коллективный интеллект · Тематические карты · Mindmapping · Метаданные · Геотегинг · Web science
Стандарты