Представление формализованных знаний связывают с разработкой моделей предметной области, адекватно отображающих понимание человеком реального мира, и полагают, что правильно выбранный формальный способ представления знаний обеспечивает и продуктивность исследований, и эффективность проектируемых систем. Базу направлений по формализации знаний составляют исчисление предикатов и идеи формализма (построение функций принадлежности) нечетких множеств, а основа собственно процессов реализации связана с языками представления знаний (языками смысла – ЯС) [110].
Считается, что основные вопросы тематики обуславливают следующие моменты. Во-первых, исследования самого этнического языка: его грамматики и семантики, способов передачи смысла посредством синтаксических конструкций (структур) языка, его лексики и морфологии[111]. Во-вторых, проблемы моделирования внешнего мира в памяти ЭВМ, соотнесения языковых текстов с моделями действительности и, в целом, реализации процесса понимания текста. То есть, это вопросы построения семиотических моделей действительности[112].
Общеприняты следующие представления о принципах перевода, о формализации текстов на естественных языках и, в целом, о языках представления знаний (ЯС).
Восприятие и формализация[113]. Проблемы формализации естественного языка возникли в 50-х годах прошлого века в связи с развитием машинного перевода. Вначале перевод мыслился, как прямое преобразование конструкций одного языка в конструкции другого языка. Роль ЭВМ сводилась лишь к хранению введенных в нее словарей Я1 и Я2 [рис. 27], некоторых средств для организации поиска в этих словарях и соединению найденных конструкций между собой. Процесс перевода сводился к механическому исполнению акций соотнесения элементов словарей. Попытка осуществления такой идеи перевода ведет к созданию словарей таких значительных объемов для реализации всех возможных конструкций языков, что делает ее неприемлемой.
Рис. 27. Начальный перевод
Выход из этого кажущегося тупика дал сам язык, представляющий собой синтаксически организованную систему. В нем существует конечный набор правил, которые для любой фразы языка однозначно отвечают на вопрос, является ли она синтаксически правильной. Это положение приводит к схеме, в которой вместо словарей языков Я1 и Я2 для преобразования используется словарь соответствия синтаксических конструкций этих языков и обычный пословный словарь [рис. 28].
Рис. 28. Введение синтаксического анализа
Процедуры Р1 и Р2 нужны для проведения синтаксического анализа фраз на естественном языке, цель которого состоит в определении синтаксической конструкции данной фразы. При таком подходе к переводу требуются специальные процедуры для определения таких характеристик слов, как число, падеж, род и т.д. Эти процедуры носят название процедур морфологического анализа. Наряду с морфологическим анализом требуются процедуры морфологического синтеза для согласования слов, входящих в окончательную
фразу [рис. 29].
Однако попытки строить системы машинного перевода на базе структур [рис. 29] оказались недолговечными в виду поверхностного уровня синтаксического анализа. Новый этап наступил в начале 70-х годов прошлого века после появления принципиально новой идеи перевода. Ее суть заключается в том, что вводится модель внешнего мира M, посредством которой идет взаимодействие между носителями различных языков
[рис. 30].
Рис. 29. Перевод с морфологическим и синтаксическим этапами
Рис. 30. Переход на обмен между языковыми структурами через модель внешнего мира
Эта модель мира содержит всю языковую и неязыковую информацию о внешнем мире. Если модели двух носителей языков (индивидуумов, агрегатов) совпадают, то можно утверждать, что взаимопонимание определяется совпадением некоторых конструкций (структур) в этих моделях. При несовпадении моделей взаимопонимание невозможно.
Введение модели внешнего мира усложняет структуру схемы перевода [рис. 31]. Фраза, написанная на языке Я1, поступает на вход блока морфологического анализа. Словарь V1 помогает этому блоку произвести необходимый анализ. В этом словаре хранятся списки основ слов, а в самом блоке A1 хранится набор правил морфологического анализа и процедур их использования. После этого в блоке P1 производится синтаксический анализ, с помощью которого определяется синтаксический тип фразы, а затем с помощью процедур, хранящихся в блоке Q1, и информации, содержащейся в словаре W1 (где находятся так называемые семантические модели), происходит перевод исходной фразы в модельное представление. Иначе говоря, фраза, написанная на естественном языке Я1, после этой цепочки преобразований оказывается представленной на языке представления знаний, используемом при описании действительности в модели внешнего мира.
Рис. 31. Схема перевода
Язык представления знаний ЯС должен удовлетворять следующим требованиям:
– если некоторая фраза F естественного языка, по мнению экспертов-носителей этого языка, является осмысленной, то должна существовать фраза в ЯС, соответствующая F. Если F в ЯС соответствует несколько фраз, то с помощью некоторой конструктивной и эффективной процедуры эти фразы в языке ЯС должны переводиться (соответствовать) одна в другую;
– если некоторая фраза F естественного языка, по мнению экспертов-носителей этого языка, не является осмысленной, то не должна существовать фраза в ЯС, соответствующая F;
– если, по мнению экспертов-носителей естественного языка, две фразы этого языка F1 и F2 эквивалентны по смыслу, то должна существовать либо одна и та же фраза в ЯС, либо различные фразы, но такие, что они формально преобразуются в ЯС одна в другую.
Надо отметить следующее. Понятие осмысленности фраз естественного языка не формализуется и определяется через экспертизу. Это ведет к неоднозначному толкованию осмысленности. Процедуры перевода должны учитывать контекст, в котором находится переводимая фраза. Правила анализа и учета этого контекста и составляют семантическую модель. В определении ЯС содержатся требования о наличии эффективных процедур трех типов: перевода фраз, имеющих смысл; обратного перевода на естественный язык; процедуры эквивалентных преобразований в множестве фраз ЯС.
Переход от Я2 к ЯС происходит аналогично переходу от Я1 к ЯС. Обратный перевод с языка ЯС на естественные языки Я1 и Я2 происходят однотипно. Сначала по модельному представлению строится обобщенная синтаксическая структура фразы (блоки N1 и N2), затем эта структура согласуется с синтаксической структурой соответствующего естественного языка (блоки L1 и L2) и происходит переход к основам слов и морфологической обработки этих основ. Если использовать принцип обратимости (все процедуры, обеспечивающие переход от фраз естественного языка к фразам языка ЯС, устроены так, что они являются обратимыми, то есть если выходы этих процедур считать их входами и все операции заменить на обратные, то те же самые процедуры, которые использовались при переходе от естественного языка к ЯС, можно использовать при переходе от ЯС к фразам естественного языка), и считать, что ЭВМ использует язык ЯС, то схема перевода [рис. 31] упрощается [рис. 32].
Рис. 32. Схемы диалоговых систем
Пользователь, являющийся носителем естественного языка Я, при общении с системой во всех практических случаях использует не все возможные средства языка Я, а лишь те из них, которые помогают ему в решении задач, связанных с обращением к системе управления. Поэтому для всех диалоговых систем в АСУ пользователь обращается с системой не на языке Я, а на значительно более бедном по своим выразительным возможностям подъязыке Я*. Этот вариант естественного языка и воспринимается системой.
Этап морфологической обработки включает в себя процедуры A и C, синтаксический
этап – процедуры P и L, а семантический этап – процедуры Q и N [рис. 31].
Прагматический этап отражает внутренние действия системы, связанные с необходимостью проведения некоторых дополнительных процедур, необходимых для формирования ответа пользователю. Обычно процедуры, образующие морфологический, синтаксический и семантический этапы, объединяют под общим названием лингвистического процессора.
На морфологическом этапе к каждому слову предложения добавляется его полная грамматическая характеристика, взятая из словаря. Для этого каждое слово расчленяется на составляющие (префикс, словообразовательная основа, суффикс, окончание, постфикс). Такая возможность обеспечивается наличием словаря основ для всех слов, используемых в языке Я*, а также списков допустимых элементов для всех остальных позиций. Такие списки составляются из правил сочетаемости разных элементов и полных грамматических характеристик, определенных списками окончаний и постфиксов. Также в лингвистическом процессоре должны храниться правила морфологического анализа для нестандартных словоформ и так называемых аналитических форм (связанных между собой цепочек словоформ, например, буду писать).
Результаты морфологического этапа позволяют на синтаксическом этапе построить дерево грамматического разбора фразы, поступившей на вход лингвистического процессора. Простейшая форма такого разбора – это вычленение подлежащего, сказуемого, дополнения, обстоятельства различного типа и т.п. На синтаксическом этапе строится дерево зависимостей с набором отношений между словами, находящимися в узлах дерева. Обычно вершины дерева взвешены словами в том виде, в котором они хранятся в словаре, совместно с частью данных, полученных на морфологическом этапе. Основная часть морфологических сведений, таких, как падеж существительного, род и число отражаются в самих отношениях. Выбор списка отношений, используемых при построении синтаксических деревьев, происходит с учетом дальнейшего перехода к семантическому этапу: необходимо сохранить все синтаксические сведения, которые позволяют правильно понять текст на семантическом этапе.
Для перехода от морфологической информации к дереву синтаксических зависимостей используются, как правило, специальные правила вывода:
H; S1(s1)m1; S2(s2)m2; D ? S1R12S2,
где S1, S2– две словоформы, между которыми устанавливается связь R12; si, mi – соответственно, синтаксическая и морфологическая информация, присвоенная этим словоформам;
D – данные о расположении этих словоформ в анализируемой фразе (в частности, порядок следования, контактность и т.д.), H – условие применимости этого правила, зависящее от других словоформ, входящих или не входящих в данное предложение, условия на связь s1 с s2, с m2 и т.п.
На семантическом этапе происходит преобразование синтаксического дерева в модельное представление, но язык ЯС не представляет собой чего-то синтаксически изоморфного естественному языку. Полная реализация требований, предъявляемых к языкам смыслов ЯС, крайне затруднена ввиду их некоторой противоречивости. С одной стороны, от ЯС требуется, чтобы он содержал некоторую формальную систему (в частности, систему формальных эквивалентных преобразований). С другой стороны, – требуется некий гомоморфизм между естественным языком и ЯС, хотя естественный язык, по всеобщему мнению экспертов-языковедов, есть объект гораздо более широкий, чем формальная система.
Эта двойственность при выборе варианта языка ЯС приводит к компромиссу между различными требованиями к его структуре. Интерес представляют несколько групп языков представления знаний ЯС, включая языки описания нечетких моделей. Каждая имеет свои преимущества при удовлетворении требований, предъявляемых к языкам смысла.
Контрольные вопросы по лекции 12:
1. Какая связь между концептуальной моделью и идеями перевода с языка на язык?
2. Поясните исходную идею перевода с языка на язык.
3. Что даёт введение этапа синтаксического анализа?
4. В чём особенности морфологического этапа?
5. Чем отличаются новые и старые идеи перевода текстов?
6. Основные требования к языку представления знаний.
7. Объясните схему диалоговых систем.