Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания

2.6. Правило принятия решения при нормальной плотности вероятностей признаков

В соответствии с выражением (2.4.1) структура байесовского алгоритма принятия решения определяется в основном видом условных плотностей doros059.wmf. Из множества различных функций плотности наибольшее значение имеет многомерная нормальная плотность распределения по следующим соображениям.

1. Многочисленные эксперименты и практические исследования говорят о чрезвычайно широком распространении названной плотности во многих практических ситуациях.

2. В силу центральной предельной теоремы при условии, что рассматриваемый признак есть по существу результат сложения большого количества примерно равнозначных явлений (ток – сумма электронов, тепловое движение – сумма перемещений атомов и т.п.), его распределение, по крайней мере в асимптотике, стремится к нормальному.

3. Многомерная нормальная плотность распределения дает подходящую модель для одного важного случая, когда значения векторов признаков x для данного класса представляются непрерывнозначными, слегка искаженными версиями единственного типичного вектора, или вектора-прототипа m. Именно этого ожидают, когда классификатор выбирается так, чтобы выделять те признаки, которые, будучи различными для образов, принадлежащих различным классам, были бы, возможно, более схожи для образов из одного и того же класса.

4. Немаловажную роль при использовании нормальной плотности играет удобство ее аналитического представления и операций над ней.

Многомерная нормальная плотность распределения в общем виде представляется выражением

doros060.wmf (2.6.1)

где doros061.wmf есть d-компонентный вектор-столбец; doros062.wmf – есть d-компонентный вектор среднего значения; R – ковариационная матрица размера d×d; doros063.wmf – транспонированный вектор doros064.wmf; R–1 – матрица, обратная R, а |R| – детерминант матрицы R. Для простоты выражение (1.6.1) часто записывается сокращенно в виде doros065.wmf

Вектор doros066.wmf представляет собой вектор математических ожиданий вектора doros067.wmf, а матрица doros068.wmf – матрицу ковариаций вектора doros069.wmf, (М[ ] – операция вычисления математического ожидания).

Ковариационная матрица R всегда симметрична и положительно полуопределена. Ограничимся рассмотрением случаев, когда R положительно определена, так что ее детерминант строго положителен. Диагональный элемент матрицы R представляет собой дисперсию Rii = σii, а недиагональный элемент Rij есть ковариация xi и xj. Если xi и xj статистически независимы, то Rij = 0. Если все недиагональные элементы равны нулю, то doros070.wmf сводится к произведению одномерных плотностей компонент вектора doros071.wmf.

Многомерная нормальная плотность распределения полностью определяется d + d(d + 1)/2 параметрами – элементами вектора среднего значения doros072.wmf и независимыми элементами ковариационной матрицы R. Выборки нормально распределенной случайной величины имеют тенденцию попадать в одну область или кластер. Центр кластера определяется вектором среднего значения, а форма – ковариационной матрицей. Из соотношения (1.6.1) следует, что точки постоянной плотности образуют гиперэллипсоиды, для которых квадратичная форма doros073.wmf постоянна. Главные оси этих гиперэллипсоидов задаются собственными векторами R, причем длины осей определяются собственными значениями. Величину

doros074.wmf

называют квадратичным махаланобисовым расстоянием от doros075.wmf до doros076.wmf. Линии постоянной плотности, таким образом, представляют собой гиперэллипсоиды постоянного махаланобисова расстояния doros077.wmf. Объем этих гиперэллипсоидов служит мерой разброса выборок относительно среднего значения.

Как мы показали выше, классификация с минимальным уровнем ошибки может осуществляться посредством разделяющих функций вида

doros078.wmf

Когда многомерная плотность doros079.wmf нормальна, согласно выражению (2.6.1) получаем

doros081.wmf (2.6.2)

Последнее слагаемое определяется априорными вероятностями гипотез. Мы его учитывать не будем, т.к. названное слагаемое может быть добавлено на любом этапе работы алгоритма.

Рассмотрим ряд частных случаев.

1. Признаки статистически независимы и имеют одинаковую дисперсию

R = σ2E,

где E – единичная матрица.

В этом случае разделяющая функция сводится к вычислению эвклидова расстояния между вектором признаков и каждым вектором математических решений. Решение выбирается в пользу той гипотезы, для которой названное расстояние минимально.

doros082.wmf (2.6.3)

где doros083.wmf (2.6.4)

Такой классификатор называют классификатором по минимуму расстояния. Если каждый из векторов средних значений считать идеальным прототипом или эталоном для образов своего класса, то это по существу будет процедура сравнения с эталоном.

Если априорные вероятности не равны, то, согласно соотношениям (2.6.2) и (2.6.3), квадрат расстояния (2.6.4) должен быть нормирован по дисперсии (поделен на 2σ2) и смещен на величину logP(Hi); поэтому в случае, когда вектор doros084.wmf одинаково близок к двум различным векторам средних значений, при принятии решения следует предпочесть класс, априори более вероятный.

Произведя перемножение в формуле (2.6.2) и отбросив одинаковое для всех i слагаемое, приходим к линейной разделяющей функции:

doros085.wmf (2.6.5)

где doros086.wmf

doros087.wmf

Классификатор, основанный на использовании линейных разделяющих функций, называется линейной машиной.

2. Ковариационные матрицы для всех классов одинаковы Ri = R.

Это соответствует ситуации, при которой выборки попадают внутрь гиперэллипсоидальных областей (кластеров) одинаковых размеров и формы, с вектором средних значений в центре каждой.

После того как мы пренебрегаем не зависящими от i слагаемыми, получаем разделяющие функции вида

doros088.wmf (2.6.6)

Если априорные вероятности для всех М классов равны, то последним слагаемым в формуле (2.6.6) можно пренебречь. Оптимальное решающее правило в таком случае снова оказывается очень простым: для классификации вектора признаков следует определить квадратичное махаланобисово расстояние от doros089.wmf до каждого из М векторов средних значений и отнести doros090.wmf к классу, соответствующему ближайшему среднему значению. Как и прежде, в случае неравных априорных вероятностей, при принятии решения несколько большее предпочтение отдается классу, априори более вероятному.

После раскрытия квадратичной формы и отбрасывания слагаемых, не изменяющихся при разных значениях i, получаем выражения:

doros091.wmf (2.6.7)

doros092.wmf

doros093.wmf

3. Произвольные корреляционные матрицы Ri.

В общем случае многомерного нормального распределения ковариационные матрицы для каждого класса разные. В этом случае разделяющие функции получаются квадратичными:

doros094.wmf (2.6.8)

где doros095.wmf

doros096.wmf

doros097.wmf

Таким образом, в зависимости от ситуации (независимые признаки, одинаковые ковариационные матрицы, различающиеся ковариационные матрицы) решение принимается в пользу той гипотезы, для которой выражение решающей функции (2.6.6), (2.6.7) и (2.6.8) соответственно максимально.


Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674