Оценка апостериорного максимума

В статистике метод оценки с помощью апостериорного максимума (MAP) тесно связан с методом максимального правдоподобия (ML), но дополнительно при оптимизации использует априорное распределение величины, которую оценивает.

Введение

Предположим, что нам нужно оценить cтатистический параметр $\theta$ на основе наблюдений $x$ . Пусть $f$ — выборочное распределение $x$ , так что $f(x|\theta )$ — вероятность $x$ при условии, что параметр выборки принимает значение $\theta$ . Тогда функция

\theta \mapsto f(x|\theta )

— функция правдоподобия, а оценка

{\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )

— оценка максимального правдоподобия $\theta$ .

Теперь предположим, что существует априорное распределение $g$ величины $\theta$ . Это позволяет рассматривать $\theta$ как случайную величину в байесовской статистике. Тогда апостериорное распределение $\theta$ :

\theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}

где $g$ плотность распределения $\theta$ , $\Theta$ — область определения $g$ . Это прямое приложение Теоремы Байеса.

Метод оценки апостериорного максимального правдоподобия даёт оценку $\theta$ как моды апостериорного распределения этой случайной величины:

{\hat {\theta }}_{\mathrm {MAP} }(x)=\arg \max _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{\theta }f(x|\theta )\,g(\theta )

Знаменатель апостериорного распределения не зависит от $\theta$ и поэтому не играет роли в оптимизации. Заметим, что MAP-оценка $\theta$ соответствует ML-оценке, когда априорное распределение $g$ постоянно (то есть $g$ — константа).

Пример

Предположим, что у нас есть последовательность $(x_{1},\dots ,x_{n})$ i.i.d. $N(\mu ,\sigma _{v}^{2})$ случайных величин и априорное распределение $\mu$ задано $N(0,\sigma _{m}^{2})$ . Мы хотим найти MAP оценку $\mu$ .

Функция, которую нужно максимизировать задана

\pi (\mu )L(\mu )={\frac {1}{\sqrt {2\pi \sigma _{m}}}}\exp \left(-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}\right)\prod _{j=1}^{n}{\frac {1}{\sqrt {2\pi \sigma _{v}}}}\exp \left(-{\frac {1}{2}}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right),

что эквивалентно минимизации $\mu$ в

\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}+\left({\frac {\mu }{\sigma _{m}}}\right)^{2}.

Таким образом, мы видим, что MAP оценка для μ задана

{\hat {\mu }}_{MAP}={\frac {\sigma _{m}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\sum _{j=1}^{n}x_{j}.

См. также

EM-алгоритм — один из способов вычисления MAP
Метод максимального правдоподобия

Литература

DeGroot, Morris H. Optimal Statistical Decisions. McGraw-Hill. 1970.
Harold W. Sorenson. Parameter Estimation: Principles and Problems. Marcel Dekker. 1980.