AAA
Обычный Черный

Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)

Основы построения понятийного аппарата информационных ресурсов. Классификаторы. Словари. Тезаурусы. Онтологии

Основы построения понятийного аппарата информационных ресурсов. Классификаторы. Словари. Тезаурусы. Онтологии

« »

Основы построения понятийного аппарата информационных ресурсов

Организация – это целевое объединение ресурсов, предназначенное для удовлетворения каких-либо потребностей общества. Организация действует под воздействием изменяющихся внешних факторов, таких как экономическое состояние отрасли, рынка к которой относится организация, технические и другие инновации, социальные ценности общества, поведение заинтересованных групп  (конкуренты, потребители, поставщики), политика государства и т.д.

Для того чтобы организация своевременно и положительно реагировала на изменения внешней среды необходимо эффективное управление ею.

Система управления – совокупность управляющей части (орган управления) и управляемого процесса (объект управления).

Система управления деятельностью организации, реализованная на базе информационной системы, позволяет отслеживать изменения во внешней среде, адекватно на них реагировать, стабилизировать ситуацию, сохранять качественную определенность процессов, совершенствовать внутреннюю среду, поддерживать динамическое равновесие с внешней средой в целях достижения тех или иных преимуществ.

Веб-сайт представляет собой совокупность взаимосвязанных систем со сложными зависимостями. Отдельная ссылка на странице может одновременно быть составной частью структуры, организации, систем пометки, навигации и поиска. Эти системы полезно изучать независимо, но важно также рассматривать их взаимодействие. Ограничив себя, мы не узнаем всей правды.

Метаданные и управляемые словари дают нам волшебное стекло, через которое можно рассмотреть сеть связей между системами. На многих веб-сайтах, управляемых метаданными, управляемые словари стали связующим веществом, удерживающим системы вместе. Тезаурус на сервере может обеспечить более гладкие и удовлетворительные условия работы пользователя на стороне клиента.

Кроме того, при проектировании тезауруса можно перекрыть разрыв, существующий между прошлым и будущим. Первые тезаурусы были разработаны для библиотек, музеев и правительственных учреждений задолго до появления Всемирной паутины. Информационные архитекторы могут опираться на десятилетия накопленного при этом опыта, но нельзя копировать все подряд. Проектируемые вебсайты и интрасети выдвигают новые проблемы и требуют творческих решений.

Классификаторы

Классификатор (от лат. classis — разряд и facere — делать) — систематизированный перечень наименованных объектов, каждому из которых в соответствие дан уникальный код. Классификация объектов производится согласно правилам распределения заданного множества объектов на подмножества (классификационные группировки) в соответствии с установленными признаками их различия или сходства. Применяется в Автоматизированных системах управления и обработке информации. Классификатор является стандартным кодовым языком документов, финансовых отчётов и автоматизированных систем.

В классификаторах применяется три метода классификации: иерархический, фасетный и дескрипторный. Выбор между этими тремя методами зависит от особенностей конкретной предметной области.

Существуют следующие требования для выбранной системы классификации:

  • достаточная ёмкость и необходимая полнота, которые гарантируют охват всех объектов классификации в заданных границах;
  • оправданная глубина;
  • обеспечение возможности решения комплекса задач различного уровня;
  • возможность расширения множества классифицируемых объектов и внесения необходимых изменений в структуры классификации;
  • обеспечение возможности сопряжения с другими классификациями однородных объектов;
  • обеспечение простоты ведения классификатора.

Иерархический метод классификации

Под Иерархическим методом классификации понимается метод, при котором заданное множество последовательно делится на подчиненные подмножества, постепенно конкретизируя объект классификации. При этом основанием деления служит некоторый выбранный признак. Совокупность получившихся группировок при этом образует иерархическую древовидную структуру в виде ветвящегося графа, узлами которого являются группировки.

Выбор последовательности признаков зависит, прежде всего, от характера информации. При построении классификации выбор последовательности признаков зависит от вероятности обращения к тому или иному признаку. При этом наиболее вероятным обращениям должны соответствовать высшие уровни классификации.

Фасетный метод классификации

Фасетный метод классификации подразумевает параллельное разделение множества объектов на независимые классификационные группировки. При этом не предполагается жёсткой классификационной структуры и заранее построенных конечных группировок. Классификационные группировки образуются путём комбинации значений, взятых из соответствующих фасетов. Последовательность расположения фасетов при образовании классификационной группировки задается фасетной формулой. Количество фасетных формул определяется возможными сочетаниями признаков.

Дескрипторный метод классификации

Для организации поиска информации, для ведения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска. Суть дескрипторного метода классификации заключается в следующем:

  1. отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
  2. выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
  3. создается словарь дескрипторов, т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
  4. между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации.

связи могут быть трех видов:

  1. синонимические, указывающие на некоторую совокупность ключевых слов как синонимов («студент – учащийся – обучаемый»);
  2. родовидовые, отображающие включение некоторого класса объектов в более представительный класс («университет – факультет – кафедра»);
  3. ассоциативные, соединяющие дескрипторы, обладающие общими свойствами («студент – экзамен – профессор – аудитория»).

Словари

Управление словарями принимает различные формы. Самое расплывчатое определение состоит в том, что управляемый словарь - это любое заданное подмножество естественного языка. В простейшем случае управляемый словарь представляет собой список эквивалентных терминов в виде колец синонимов (synonym rings), или список предпочтительных терминов в виде нормативного файла (authority file). Определите иерархические отношения между терминами (например, «шире», «уже»), и получится схема классификации. Смоделируйте ассоциативные связи между понятиями (например, «см. также», «см. близкое»), и получится тезаурус.

Кольца синонимов

Кольцо синонимов соединяет группу слов, которые определены как эквивалентные для задач извлечения информации. На практике эти слова не всегда являются подлинными синонимами. Представьте себе, например, что проектируете заново портал потребителей, предоставляющий информацию о рейтингах бытовой техники, производимой разными компаниями.

 

Изучая журналы поиска и беседуя с пользователями, можно обнаружить, что люди, которые ищут одну и ту же вещь, вводят разные термины. Тот, кто хочет купить кухонный процессор, может ввести «blender» или одно из названий изделия (возможно, с орфографическими ошибками). Взгляните на содержимое и вы найдете много таких вариаций.

Предпочтительный термин может отсутствовать, как и достаточное основание для его выбора. Вместо этого можно обратиться к готовым возможностям поискового механизма и построить кольца синонимов. Для этого может потребоваться всего лишь ввести эквивалентные слова в текстовый файл. Когда пользователь вводит слово в поисковый механизм, оно сравнивается с содержимым этого текстового файла.

Если слово найдено, запрос «расширяется» путем добавления всех эквивалентных слов. Например, с применением булевой логики: (kitchenaid) превращается в (kitchenaid or "kitchen aid" or blender or "food processor" or cuisinart or cuizinart)/

Конечно, идеально было бы одновременно добиться высокой точности и высокой полноты, но те, кто занимается извлечением информации, понимают, что одно можно увеличить только за счет другого. Это имеет важные последствия для применения контролируемых словарей.

Как можно догадаться, кольца синонимов резко увеличивают полноту.

Нормативные файлы

Строго говоря, нормативный файл (authority file) - это список предпочтительных терминов или приемлемых значений. В него не входят альтернативы или синонимы. Нормативные файлы традиционно применялись в библиотеках и правительственных учреждениях, чтобы определять правильные названия для группы сущностей внутри некоторой ограниченной области.

На практике нормативные файлы часто содержат как предпочтительные, так альтернативные термины. Иными словами, нормативные файлы - это кольца синонимов, в которых один из терминов определен как предпочтительный или как приемлемое значение.

Тезаурусы

Dictionary.com определяет тезаурус как «книгу синонимов, часто содержащую близкие или противоположные слова и антонимы». Такое применение возвращает нас к урокам языка в старших классах, когда 

мы находили в тезаурусе такие слова, которые могли произвести впечатление на учителей.

Наша разновидность тезауруса - та, которая интегрируется с веб-сайтом или интрасетью, - имеет общее со знакомым учебным справочником происхождение, но отличается форматом и функциями. Как и этот справочник, наш тезаурус представляет собой семантическую сеть понятий, связывая слова со своими синонимами, омонимами, антонимами, вышестоящими и нижестоящими дескрипторами, а также с ассоциативными дескрипторами.

Однако наш тезаурус имеет формат сетевой базы данных, тесно связанной с пользовательским интерфейсом для веб-сайта или интрасети. И в то время как обычный тезаурус помогает перейти от одного слова ко многим, наш тезаурус выполняет противоположную функцию. Это важнейший инструмент управления синонимами, который отображает многие синонимы и альтернативы слов в один предпочтительный термин или понятие, чтобы неоднозначность языка не помешала пользователю найти нужную информацию.

Таким образом, задачи обусловливают следующее определение тезауруса:

Управляемый словарь, в котором определены эквивалентность, иерархические и ассоциативные связи для целей улучшения извлечения информации.

Тезаурус основывается на конструкциях более простых управляемых словарей, моделируя указанные три базовые типа семантических отношений.

Типы тезаурусов

Приняв решение о создании тезауруса для своего веб-сайта, надо выбрать один из трех возможных для него типов: классический, индексный или поисковый. Этот выбор будет иметь важные последствия для проектирования, и его следует делать, основываясь на предполагаемой сфере применения данного тезауруса.

Классический тезаурус

Классический тезаурус применяется в операциях индексирования и поиска. С его помощью составители указателя отображают альтернативные термины в предпочтительные при индексировании на уровне документа. Те, кто выполняет поиск, применяют этот тезаурус для извлечения информации, даже если не осведомлены о том, какую роль он играет в операциях поиска. Термины, участвующие в запросе, сравниваются с богатым словарем тезауруса, позволяющим управлять синонимами, осуществлять иерархический просмотр и ассоциативное связывание. Это полноценный, полностью интегрированный тезаурус.

Индексирующий тезаурус

Однако создание классического тезауруса не всегда необходимо или возможно. Допустим, у вас есть возможность разработать управляемый словарь и проиндексировать документы, но вы не можете встроить средства управления синонимами в операции поиска. Например, поисковый механизм находится в ведении другого подразделения, не желающего сотрудничать с вами, либо он может поддерживать такую функцию только после существенной модификации.

Как бы то ни было, вы можете выполнить индексирование по управляемому словарю, но не можете применить результат при поиске и отображении альтернативных терминов пользователей в предпочтительные. Это существенный недостаток, но лучше иметь индексирующий тезаурус, чем ничего, по следующим причинам:

  • Он систематизирует процедуру индексирования, способствуя достижению последовательности и эффективности. Составители указателя могут действовать как единое целое благодаря общему пониманию предпочтительных терминов и принципов индексирования.
  • Он позволяет строить доступные для навигации указатели из предпочтительных терминов, которые дают пользователям возможность находить все документы по конкретной теме или продукту через единственную точку доступа.

Такая согласованность в индексировании может представлять реальную ценность для информационных систем с устойчивой аудиторией.

В условиях, когда некоторое приложение интрасети систематически используется одними и теми же людьми, можно рассчитывать, что эти люди по прошествии некоторого времени выучат предпочтительные термины. В такой среде согласованность в индексировании по ценности начинает соперничать с качеством индексирования.

И наконец, индексирующий тезаурус облегчает следующий шаг - переход к классическому тезаурусу. Когда словарь разработан и применен к собранию документов, можно сосредоточить усилия на интеграции на уровне интерфейса пользователя. Начало этому может быть положено в результате добавления исходного словаря к просматриваемым указателям в надежде, что удастся подогнать туда же и поиск, так чтобы в поиске и просмотре была задействована вся сила тезауруса.

Поисковый тезаурус

Иногда классический тезаурус нельзя применить из-за трудностей, связанных с содержимым, препятствующим индексированию на уровне документов. Содержимое может принадлежать третьей стороне или состоять из обновляемых ежедневно динамических новостей. Объем содержимого может быть настолько велик, что его ручное индексирование обошлось бы в астрономическую сумму. По разным причинам во многих средах Интернета и интрасетей индексирование с помощью управляемого словаря всей совокупности документов оказывается неосуществимым. Это не значит, что тезаурус никак не может улучшить условия работы пользователей.

Поисковый тезаурус применяет управляемый словарь в момент поиска, а не в момент индексирования. Например, когда пользователь вводит термин в поисковый механизм, поисковый тезаурус может отобразить этот термин на управляемый словарь, прежде чем выполнять запрос в полнотекстовом указателе. Этот тезаурус может просто выполнять расширение эквивалентными терминами, как мы это видели на примере колец синонимов, либо не ограничиваться отношением эквивалентности и расширить запрос, включив все нижестоящие согласно иерархии дескрипторы (обычно это называют «posting down»). Очевидно, такие методы повышают полноту за счет точности.

Кроме того, существует возможность предоставить больший контроль пользователям, дав им право задать в своем запросе любую комбинацию из предпочтительных, альтернативных, вышестоящих, нижестоящих или ассоциативных дескрипторов. При тщательной интеграции в интерфейс поиска и результаты поиска такие средства дают пользователям возможность при необходимости сужать, расширять и модифицировать свои поисковые запросы.

Поисковый тезаурус может также обеспечить большую гибкость навигации. Можно разрешить пользователям просматривать весь тезаурус или его часть, перемещаясь в соответствии с отношениями эквивалентности, иерархии и ассоциативности. Термины (или комбинацию предпочтительных и альтернативных терминов) можно использовать как заранее подготовленные или «законсервированные» запросы, выполняемые в полнотекстовом указателе. Иными словами, ваш тезаурус может стать подлинным порталом, предоставляя новый способ навигации и получения доступа к потенциально необъятному содержимому. Главное преимущество поискового тезауруса в том, что стоимость его разработки и сопровождения фактически не зависят от объема содержимого. С другой стороны, он предъявляет значительно более высокие требования к качеству эквивалентности и отображения.

Онтологии

В информационных технологиях и компьютерных науках под онтологией подразумевается явное описание множества объектов и связей между ними (концептуализация): англ. Ontology is the theory of objects and their ties.

Формально, онтология состоит из:

  • Понятий терминов, организованных в таксономию;
  • Их описаний;
  • Правил вывода.

Таксономия - учение о принципах и практике классификации и систематизации сложноорганизованных иерархически соотносящихся сущностей. Принципы таксономии применяются во многих научных областях знаний, для упорядочивания объектов географии, геологии, языкознания, этнографии и всего многообразия органического мира. Математически таксономией является древообразная структура классификаций определенного набора объектов. Вверху этой структуры — объединяющая единая классификация — корневой таксон — которая относится ко всем объектам данной таксономии. Таксоны, находящиеся ниже корневого, являются более специфическими классификациями, которые относятся к поднаборам общего набора классифицируемых объектов.

Типы онтологий

  • Мета-онтологии — описывают наиболее общие понятия, которые не зависят от предметных областей;
  • Онтология предметной области — формальное описание предметной области; обычно применяется для того, чтобы уточнить понятия, определённые в мета-онтологии (если используется), и/или определить общую терминологическую базу предметной области;
  • Онтология конкретной задачи — онтология, определяющая общую терминологическую базу, относящуюся к задаче или проблеме;
  • Сетевые онтологии — часто используются для описания конечных результатов действий, выполняемых объектами предметной области или задачи.

10.12.2017, 72 просмотра.


Уважаемые посетители! С болью в сердце сообщаем вам, что этот сайт собирает метаданные пользователя (cookie, данные об IP-адресе и местоположении), что жизненно необходимо для функционирования сайта и поддержания его жизнедеятельности.

Если вы ни под каким предлогом не хотите предоставлять эти данные для обработки, от слова «совсем» - пожалуйста, срочно покиньте сайт и мы никому не скажем что вы тут были. Всем остальным - добра и печенек. С неизменной заботой, администрация сайта.