How to calculate Akaike information criterion with probability distribution function?

Akaike information criterion (ACI) is the most useful indicator to select variables in multivariate analysis. It’s assumed that N is free parameter number, ACI is calculated as below;

\displaystyle AIC = -2(Maximum\ Log\ Likelihood)+2N

Free parameter number of model is dimension of the space that parameter value could take in expected models. AIC is an evaluation criterion when expected model is estimated with maximum likelihood method and it indicates that log likelihood bias approximates to free parameter number included in model.

How to find maximum log likelihood? Let’s define log likelihood function as following equation;

\displaystyle l(\theta) = \sum_{\alpha=1}^{n}\log f(x_{\alpha}|\theta)

\hat\theta, that is maximum likelihood estimator, maximizes l(θ) and this is called as maximum-likelihood method. l(\hat\theta) = \Sigma_{\alpha=1}^{n}\log f(x_\alpha |\hat\theta) is called as maximum log-likelihood.

If log likelihood function (l(θ)) could be differentiable, maximum likelihood estimator (\hat\theta) would be given by solving differentiated likelihood equation.

\displaystyle \frac{\partial l(\theta)}{\partial \theta} = 0

References:
Probability density function, expected value and variance of each probability distribution

赤池情報量基準(AIC)を確率分布関数から最尤法を用いて計算する

 多変量解析の際の変数選択の一つの指標として赤池情報量基準 (Akaike information criterion) があります.詳細は成書を参考にしていただきたいのですが,N を自由パラメータ数とすると下式で求まります.

\displaystyle AIC = -2(Maximum\ Log\ Likelihood)+2N

 モデルの自由パラメータ数とは,想定したモデルに含まれるパラメータの値が動く空間の次元のことです.AIC は想定したモデルを最尤法で推定した時の評価基準であり,対数尤度のバイアスが漸近的にモデルに含まれる自由パラメータ数となることを示しています.

 最大対数尤度はどう求めるのでしょうか.ここで下式のように対数尤度関数を定義します.f(x|θ) は確率分布関数であり,分布によって形が変化します.

\displaystyle l(\theta) = \sum_{\alpha=1}^{n}\log f(x_{\alpha}|\theta)

 この l(θ) を最大化する \hat\theta が最尤推定量であり,この方法を最尤法といいます.l(\hat\theta) = \Sigma_{\alpha=1}^{n}\log f(x_\alpha |\hat\theta) を最大対数尤度と呼びます.

 対数尤度関数 l(θ) が微分可能な場合,最尤推定量 \hat\theta は尤度方程式を微分した解が 0 となる θ を求めることで求まります.

\displaystyle \frac{\partial l(\theta)}{\partial \theta} = 0

参照:
確率分布ごとの確率密度関数および期待値と分散