2016-05-30

Sơ lược Log-Likelihood (LL) và Maximum-Likelihood Estimation (MLE)

Sơ lược về LL, MLE

Log-Likelihood

Likelihood function hay đơn giản gọi là likelihood là một hàm tham số trong thống kê.
Bình thường cách dùng của từ khả năng likelihood (đôi khi còn được dịch khả dĩ?) có nghĩa gần giống từ xác xuất probability. Tuy nhiên khi sử dụng trong thống kê học, cách dùng phụ thuộc vào vai trò của kết quả hay thông số.

Xác xuất probability được sử dụng khi mô tả một hàm của kết quả đầu ra (outcome) với một tham số xác định (fixed parameter value) \(P\left( {x|\theta } \right)\). Giả sử có một biến ngẫu nhiên X tuân theo phân phối tham số (parameterized distribution) \(f\left( {x;\theta } \right)\) (ví dụ phân với chuẩn \(f(x;\mu ,\sigma )\) thì \(\theta \)\(\mu ,\sigma \)) với \(\theta \) là tham số của phân phối f.

Khi đó xác xuất X = x sẽ là \(P\left( {X = x} \right) = f\left( {x;{\rm{ }}\theta } \right)\) với \(\theta \) đã biết. Nói cách khác cho giá trị cụ thể \(\theta \), \(P\left( {x|\theta } \right)\) là xác xuất sẽ quan sát thấy kết quả outcome đại diện bởi x (x mô tả outcome).

Ví dụ: tung đồng xu 10 lần, đồng xu cân đối (công bằng), xác xuất xuất hiện mặt ngửa x lần là bao nhiêu?

Ví dụ biết xác xuất xuất hiện một mặt của đồng xu cân đối tuân theo phân phối nhị thức với p = 0.5. Xác xuất xuất hiện mặt ngửa 7 lần x = 7
\(P\left( {X = x} \right) = f\left( {x;n,\;p} \right) = B\left( {n,p} \right) = \left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right){p^x}{\left( {1 - p} \right)^{n - x}} = \left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right){0.5^x}{\left( {1 - 0.5} \right)^{n - x}}\)
với x = 7, n = 10, p = 0.5 thì \(\;f\left( {x;n,\;p} \right) = 0.117\)

Trong khi đó likelihood được sử dụng khi mô tả một hàm của tham số (parameter) cho ra một kết quả outcome (outcome đã biết).

Ví dụ tung đồng xu 10 lần và ngửa 7 lần vậy đồng xu có cân đối? Trong thực tế đây là trường hợp thường xảy ra khi mô hình hóa một quá trình ngẫu nhiên (real life stochastic process) khi không biết \(\theta \) mà chỉ có thể quan sát x. Do đó cần ước tính \(\theta \) để giá trị này phù hợp với giá trị quan sát x.

Trong trường hợp ngược lại này giá trị của p là chưa xác định likelihood function sẽ viết như sau:
\(L\left( {x;n,\;p} \right) = \left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right){p^x}{\left( {1 - p} \right)^{n - x}}\)

Likelihood sẽ là tập hợp của các parameter thỏa mãn các kết quả đầu ra quan sát được và bằng đúng xác xuất xảy ra của những quan sát này. Theo đó hàm likelihood được viết gần như hàm xác xuất với lưu ý là \(\theta \) chưa biết và X = x đã biết.
\(L\left( {\theta |x} \right) = P(x|\theta )\)

Likelihood-ratio test là một kiểm định thống kê dùng kiểm tra goodness of fit (GoF) của hai mô hình trong đó một mô hình là null-model (trường hợp đặc biệt) còn được viết tắt là -2LL (-2 log-likelihood). Kiểm định này sử dụng tỷ số likelihood (likelihood ratio).

Null-hypothesis \({H_0}:\rho  = {\rm{ }}0.50\)
Alternate hypothesis \({H_a}:\rho  \ne {\rm{ }}0.50\)

Likelihood-ratio test dựa trên tỷ số likelihood (likelihood rate) được  bởi ký tự capital lambda
\({\rm{ }}\Lambda {\rm{ }}\left( x \right) = \frac{{L({\theta _0}|x)}}{{L({\theta _a}|x)}} = \frac{{f\left( {x|{\theta _0}} \right)}}{{f(x|{\theta _a})}}\)
Likelihood-ratio test trả lời câu hỏi liệu dữ liệu (data) có ý nghĩa thống kê cho thấy ít có khả năng xảy ra giả thuyết null hơn giả thuyết đối bằng cách tính log-likelihood giữa giả thuyết null và giả thuyết đối và xem xét độ khác nhau giữa hai giá trị này (note \(\log \frac{a}{b} = \log a - \log b\)):
\(D{\rm{ }} = {\rm{ }}2{\rm{ }}\left( {L{L_a} - {\rm{ }}L{L_0}} \right)\)

Việc nhân giá trị \(L{L_a} - {\rm{ }}L{L_0}\) với 2 là một kỹ thuật thống kê với mục đích làm cho giá trị D có phân phối \({\chi ^2}\).

Ví dụ log-likelihood function của một phân phối chuẩn có dạng như sau:
\(l\left( {\mu ,\sigma } \right) =  - n\log \left( {2\pi {\sigma ^2}} \right) - \frac{{\mathop \sum \nolimits_i {{\left( {{X_i} - \mu } \right)}^2}}}{{2{\sigma ^2}}}\)

Maximum-Likelihood Estimation

Ước lượng hợp lý cực đại hay còn dịch là ước lượng khả năng cực đại Maximum-Likelihood Estimation (MLE) là một kỹ thuật trong thống kê dùng để ước lượng giá trị tham số của một mô hình xác suất dựa trên những dữ liệu có được. Phương pháp này được nhà toán học R. A. Fisher phát triển vào khoảng 1912-1922.

MLE dựa trên giả thiết rằng các mẫu dữ liệu \(\;D = \left\{ {{X_{1,}} \ldots ,{X_N}} \right\}\) có được đều độc lập và có cùng phân bố (i.i.d–independent and identically distributed), với hàm phân bố thuộc một lớp cụ thể (ví dụ như Gaussian hoặc luỹ thừa) với tham số \(\theta \) chưa biết. Mục tiêu của MLE là đi tìm giá trị của tham số để tối ưu hoá hàm thiệt hại (loss function).

Trong trường hợp của MLE, hàm thiệt hại được định nghĩa là hàm logarithm của hàm khả năng (likelihood function) \(\ln (P(D|\theta ))\)

Theo giả thiết các mẫu dữ liệu là i.i.d ta có hàm khả năng
\(P\left( {D{\rm{|}}\theta } \right) = P\left( {{X_1}, \ldots ,{X_N}{\rm{|}}\theta } \right) = \mathop \prod \limits_{i = 1}^N P({X_i}|\theta )\)
do đó khi lấy logarithm loss function có giá trị
\(\ln (P(D|\theta )) = \mathop \sum \limits_{i = 1}^N \ln (P({X_i}|\theta ))\)

Tham số của mô hình dựa sẽ được ước lượng bằng các cách gán với các giá trị sao cho hàm số trên giá trị đạt cực đại:

\(\left\{ {{{\hat \theta }_{mle}}} \right\} \subseteq \left\{ {{\rm{argma}}{{\rm{x}}_{\theta  \in {\rm{\Theta }}}}{\rm{ln}}(P(D|\theta ))} \right\}\)

No comments:

Post a Comment