Научная электронная библиотека
Монографии, изданные в издательстве Российской Академии Естествознания

2.7. Оценка параметров по максимуму правдоподобия. Обучение с учителем

В практических условиях апостериорные плотности вероятностей doros098.wmf, как правило, либо неизвестны вообще, либо известны с точностью до ряда параметров. В то же время обычно имеется набор так называемых обучающих выборок, достоверно принадлежащих каждому из распознаваемых классов. Число этих выборок зачастую достаточно мало, чтобы вынести решение о функциональном виде требуемых плотностей вероятностей, но достаточно велико для построения оценок параметров названных плотностей, если их функциональный вид предполагается известным.

Допустим, что есть основания предполагать, что плотность вероятности doros099.wmf имеет нормальное распределение со средним значением doros100.wmf и ковариационной матрицей Ri, хотя точные значения названных величин точно неизвестны.

В этом случае решение принимается в соответствии с теми же принципами и правилами, что и в разделе 2.6, где в формулы (2.6.5), (2.6.6) и (2.6.8) подставляются не точно известные значения doros101.wmf и Ri, а их оптимальные в каком-то смысле оценки. Среди таких оценок наилучшими в практических ситуациях свойствами обладают оценки, полученные по методу максимального правдоподобия.

Рассмотрим оценку по методу максимального правдоподобия. Предположим, что множество имеющихся обучающих выборок разбито на М классов X1, X2, …, XM, причем выборки в каждом Xi статистически независимы и имеют плотность распределения doros102.wmf. Будем считать, что плотность doros103.wmf задана в параметрической форме, т.е. известно ее аналитическое выражение с точностью до неизвестного векторного параметра Q. Например, нам известно, что выборки подчиняются нормальному закону распределения с неизвестным вектором математических ожиданий doros104.wmf и ковариационной матрицей Ri. В этом случае компоненты вектора Q составлены из компонент doros105.wmf и Ri.

Для того чтобы в явном виде показать зависимость от неизвестных параметров, запишем плотность вероятностей в виде doros106.wmf. Задача оценки неизвестных параметров заключается в определении их величин по наблюдаемым данным наилучшим образом.

Будем считать, что выборки, принадлежащие наблюдаемым данным Xi, не содержат информации о векторе параметров Θj, т.е. предполагается функциональная независимость параметров, принадлежащих разным классам. Последнее обстоятельство дает возможность рассматривать отдельно каждый класс.

Пусть X содержит n выборок doros107.wmf Так как выборки получены независимо, имеем:

doros108.wmf (2.7.1)

Рассматриваемая как функция от Q плотность doros109.wmf называется функцией правдоподобия. Оценка по максимуму правдоподобия величины Q есть такая величина doros110.wmf, при которой выражение (2.7.1) максимально.

На практике эквивалентным, но более простым по своим вычислениям является отыскание максимума не собственно плотности вероятности, а ее логарифма. Если ввести оператор градиента:

doros111.wmf

где p – размерность вектора параметров и обозначить функцию логарифма правдоподобия:

doros112.wmf

то оптимальная оценка вектора параметров Q может быть получена из решения уравнения:

doros113.wmf

Применим полученные результаты для многомерного нормального распределения. Начнем со случая, когда неизвестно только среднее значение. Запишем выражение для логарифма функции правдоподобия и оператора градиента:

doros114.wmf

doros115.wmf

С учетом (2.7.1) получаем уравнение

doros116.wmf

из которого следует:

doros117.wmf (2.7.2)

Полученный результат свидетельствует о том, что оценка по максимуму правдоподобия равна среднему арифметическому выборок. Для ковариационной функции аналогичным образом может быть получена ее оценка по максимуму правдоподобия, которая имеет вид:

doros118.wmf (2.7.3)

Полученные результаты (2.7.2) и (2.7.3) представляются совершенно естественными и интуитивно понятными.

В результате процедура классификации выглядит следующим образом.

1. Этап обучения. По обучающим выборкам строятся оценки математических ожиданий и ковариационных функций (формулы (2.7.2) и (2.7.3)) для каждой из М конкурирующих гипотез.

2. Далее вычисляются М решающих функций: формулы (2.6.5), (2.6.7), (2.6.8).

3. Решение принимается в пользу той гипотезы, для которой решающая функция максимальна.

Рассматриваемые решающие функции, основанные на вычислении взвешенных расстояний между наблюдаемым вектором признаков и вектором математических ожиданий, полученным на этапе обучения, дают хорошие результаты в случае, когда вектор признаков имеет нормальное или близкое к нему распределение.


Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674