[17-Сен-12] | |
про набувальну давність (0) |
[05-Май-11] | |
О НАЛОГОВЫХ СПОРАХ (0) |
[16-Окт-12] | |
застосування судами при розгляді справ окремих норм трудового права (0) |
[22-Июл-12] | |
Щодо деяких спірних питань застосування норм цивільного процесуального права (0) |
[20-Июн-12] | |
Щодо застосування окремих норм цивільного законодавства (0) |
[10-Фев-12] | |
Щодо адміністративних позовів майнового характеру (1) |
[01-Май-11] | |
СУД С НАЛОГОВОЙ (ВЕБМАНИ) (0) |
[17-Июн-12] | |
Про особливості провадження у справах за зверненням органів державної податкової служби (0) |
[20-Сен-12] | |
стамбульская конвенция (0) |
[22-Сен-12] | |
Жалоба (0) |
« Декабрь 2011 » | ||||||
Пн | Вт | Ср | Чт | Пт | Сб | Вс |
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
[02-Окт-12] | [Мои статьи] |
Процент раскрываемости (0) |
[15-Сен-12] | [Мои статьи] |
Правила въезда иностранцев на территорию Украины (0) |
[11-Апр-12] | [Мои статьи] |
судебный пресс для бизнеса (0) |
[27-Окт-12] | [Мои статьи] |
Как получить загранпаспорт в Украине (1) |
[06-Дек-11] | [Мои статьи] |
Еще один из вариантов как «обидеть» конкурента… (0) |
[02-Май-11] | [Мои статьи] |
СТАТУС БЕЖЕНЦА В УКРАИНЕ (1) |
[01-Сен-12] | [Мои статьи] |
о взятке (0) |
[21-Сен-12] | [Мои статьи] |
Как отличить фальшивые деньги от настоящих (1) |
[15-Сен-12] | [Мои статьи] |
Уголовное право Франции (0) |
[01-Ноя-12] | [Мои статьи] |
Верховный суд США (1) |
20:27 Юридические документы: семантический анализ без использования лингвистических моделей | |
Первый подход (назовем его лингвистическим) концентрирует внимание исследователей на поиске методов интерпретации синтаксических и поверхностно-семантических конструкций естественного языка – ассоциации лексем и словокомплексов текста с некоторой соответствующей им системой понятий. Такая постановка проблемы позволяет эффективно решать задачи, связанные со знаковой системой языка (задачи смыслового поиска, автоматического реферирования и т.п.). Однако поверхностно-семантические модели (словари понятий, на которые отображаются лексемы и правила этого отображения) сложны, объемны и существенно изменяются от одной предметной области к другой, что снижает эффективность их практического использования. Второй подход заключается в создании искусственных семантических моделей (глубинно-семантических моделей) как универсальных, так и для определенных предметных областей. Семантическая модель – это необъемная система однозначных и строго структурированных понятий, полученных путем обобщения концептов (понятий) естественного языка или его некоторого подмножества. С семантической моделью ассоциируется формализованная нотация, еще более упрощающая автоматический анализ. В последние десять лет подобный подход получил довольно большое распространение (наиболее ярким примером является язык web-онтологий OWL). Однако и у него есть существенный недостаток: семантическая модель представляет собой лишь каркас. Для реализации семантического анализа этот каркас должен быть заполнен конкретной информацией, в нашем случае – содержащейся в естественно-языковом документе. Сделать это под силу пока лишь человеку. Таким образом, оба указанных подхода оказываются малопригодными в контексте анализа юридических документов: первый подход позволяет создавать лишь относительно простые алгоритмы анализа, а второй требует предварительной ручной формализации документа. Второй причиной, препятствующей автоматизации смыслового анализа юридических документов, является – как это не парадоксально звучит – низкий спрос на данную технологию со стороны самих ²производителей информации² (в частности, нотариальных контор). Дело в том, что юридические документы как база знаний интересны, главным образом, аналитическим организациям. Нотариальные же конторы к таковым не относятся. То есть в юридическом документообороте имеет место разграничение производства и потребления информации. Итак, отсутствие прямого спроса, с одной стороны, и слабая развитость технологий семантического анализа, с другой стороны, делают чрезвычайно затруднительным использование большого пласта юридических документов (в частности, в области гражданских правоотношений) как базы знаний. За последние десять лет было предпринято несколько попыток кардинально решить эту проблему, однако широкого распространения они не получили. Со стороны производителей информации нет спроса на аналитические программные средства, зато они чрезвычайно заинтересованы в программах, ускоряющих собственно процесс создания документов – синтезаторах документов шаблонного типа. Подобные синтезаторы представляют собой гибкие, легко настраиваемые, шаблоны, позволяющие учитывать всевозможные особые ситуации (в этом их принципиальное отличие от механизма форм в Microsoft Word). Кроме того, они интегрированы с базами данных, содержат возможности ускорения ввода текста (расшифровка прописью чисел, склонение ФИО и т.п.). Очевидно, что именно в таких инструментах прежде всего и нуждаются нотариальные конторы. Что мешает нам объединить гибкий шаблон, являющийся, по сути дела, формализованным представлением документа с глубинной семантической моделью документов данного класса? Тогда в процессе синтеза документа возможно автоматическое наполнение модели соответствующей информацией и последующий ее анализ. При этом эксперт, разбирающийся в данном классе документов, создает шаблон этого класса, его семантическую модель и устанавливает связи между полями шаблона и элементами модели. Следует учесть, что семантическая модель создается не с нуля, а на базе типовой модели. Далее за дело принимается оператор, который заполняет поля шаблона, даже и не подозревая, что автоматически создает смысловое представление документа (наполняет конкретной информацией семантическую модель). Смысловые представления используются аналитиками для реализации семантического анализа (в роли аналитиков могут выступать как сами нотариальные конторы, так и сторонние организации). Поскольку смысловые представления документов хранятся в формальном виде, то не представляет особого труда создать достаточно сложные алгоритмы их анализа с использованием специальных инструментальных средств (XML-анализаторов). Таким образом, данная технология позволяет избежать использования лингвистического подхода в процессе смыслового анализа документов и задействует второй подход – применение глубинных семантических моделей. Платой за это становится использование труда эксперта, правда, использование достаточно эффективное, так как шаблоны и семантические модели создаются сразу для целых классов документов и не требуют каждодневного изменения. Кроме того, эксперту предлагается в качестве инструмента типовая семантическая модель. В качестве типовой семантической модели могут выступать далеко не все известные языки представления знаний. В частности, модель RDF, лежащая в основе упомянутого языка web-онтологий OWL, является по своей сути хорошо известной в теории искусственного интеллекта семантической сетью, серьезный недостаток которой – статичность смыслового представления. В юридических же документах любого аналитика прежде всего заинтересует ретроспектива некоторых изменений (движение объектов собственности, изменение отношений между людьми и т.п.). Поэтому была предложена смысловая модель документа, нацеленная на моделирование динамической семантики. В основе семантической модели лежит достаточно очевидная идея: человек представляет окружающий мир в виде объектов, характеризуемых свойствами и отношениями между собой, или, другими словами, своими состояниями. Состояния объектов постоянно изменяются. Существует два способа рассмотрения этих изменений: временной (изменения состояний рассматриваются относительно некоторого эталонного изменения – времени) и причинно-следственный (изменения состояний одних объектов рассматриваются относительно состояний других объектов, с которыми они взаимодействуют). Таким образом, динамическая семантическая модель должна представлять собой описание временной и причинно-следственной составляющих изменения свойств и отношений взаимодействующих между собой объектов. В модели предложено два способа для описания движения объектов. Первый способ заключается в разбиении процесса изменения свойств и отношений объекта на статические состояния (мгновенные снимки). Ему, например, соответствует математическая модель абстрактный автомат. Второй способ заключается в формировании последовательности переходов (то есть единичных изменений) объекта. Он позволяет более точно и компактно описывать каждое конкретное изменение и по своей сущности напоминает табличное представление функции. Модель в определенной степени напоминает по своей структуре сети Петри, хотя в понятие перехода здесь вкладывается совершенно иной смысл. Элементами верхнего уровня семантической модели являются временная шкала и объект. При моделировании явления, описываемого в документе, в нем выделяются взаимодействующие объекты, после чего движение каждого объекта описывается отдельно. Временная шкала разбивает моделируемое явление на несколько последовательных интервалов путем введения ключевых моментов. Описание осуществляется либо посредством указания абсолютного времени момента, либо путем его ассоциации с некоторым ключевым событием. Заданные таким образом моменты используются далее при описании временных промежутков конкретных переходов и состояний объектов. Объект характеризуются своими свойствами, отношениями, и если он является системой – структурными связями (парами вида ²объект1–объект2², множество которых позволяет задать структуру системы). При описании объекта прежде всего задаются статические свойства, отношения и структурные связи (те, которые не изменяются на всем протяжении моделируемого явления; например, наименование объекта). Они размещаются внутри элемента ²объект² и не входят в элементы ²переход² и ²состояние². Далее осуществляется описание движения объекта. Для этого вводится последовательность переходов (они группируются друг за другом в порядке их возникновения). Каждый переход содержит в себе следующие элементы: ²характер², ²время², ²условие², ²причина², ²следствие² и набор элементов, которые, собственно подвергаются изменению (²свойство², ²отношение², ²структурная связь²). Характер описывает сущность изменения: появление, прекращение, изменение, совершение (появление или исчезновение свойства, отношения; изменения значения свойства или роли отношения, совершение действия). Время ассоциирует данный переход с одним из интервалов временной шкалы. Для этого в него входят такие элементы, как ²В_МОМЕНТ², ²ДО² и ²ПОСЛЕ², значения которых – моменты абсолютного времени или ключевые события. Множество таких элементов определяет конкретный временной интервал данного перехода. Условие, причина и следствие характеризуют данный переход как элемент некоторой причинно-следственной связи. Эти элементы указывают на переходы, отношения, конкретные элементы переходов (свойства, отношения, структурные связи), которые являются соответственно условиями, причинами и следствиями данного перехода. Помимо описания движения в виде переходов, модель также поддерживает описание движения в виде совокупности состояний, расположенных в порядке их смены. Этот уровень описания является более абстрактным, чем основной способ, и дополняет его. Он присутствует в модели как минимум в виде пары начальное и конечное состояния. Однако эксперт, формирующий модель, может ввести в нее любое число промежуточных состояний. Каждое состояние содержит описание временного промежутка, в течение которого оно имеет смысл, и всех свойств, отношений и всех структурных связей объекта, которыми он обладает в данном временном промежутке. В статье мы кратко описали подход, позволяющий реализовывать полноценный семантический анализ документов без использования лингвистических инструментов. Данный подход был апробирован в нескольких нотариальных конторах г. Челябинска и показал свою принципиальную работоспособность. Однако авторам пришлось столкнуться с рядом неожиданных проблем, для решения которых пришлось ввести в язык описания шаблонов конструкции, близкие к операторам структурных языков программирования (конструкции условия и цикла). Также выяснилось, что правильнее создавать не шаблоны документов, а шаблоны стандартных ситуаций, описываемых в них, например: шаблон описания физического или юридического лица, шаблон описания определенного правоотношения и т.д. С одной стороны, это усложняет исходную задачу семантического анализа. Однако, с другой стороны, идя таким путем, мы фактически формализуем ику предметной области нотариальных документов, выделяем базовые конструкции юридического языка как подмножества естсемантественного языка. Все это сближает глубинную семантическую модель с лингвистическими моделями, что в перспективе позволит существенно повысить эффективность семантического анализа. Возможно, даже удастся анализировать юридические документы в их непосредственном, неформализованном виде. | |
|