Log-Likelihood
Likelihood function hay đơn giản gọi là likelihood là một
hàm tham số trong thống kê.
Bình thường cách dùng của từ khả năng likelihood (đôi khi còn được dịch khả dĩ?) có nghĩa gần giống từ xác
xuất probability. Tuy nhiên khi sử dụng
trong thống kê học, cách dùng phụ thuộc vào vai trò của kết quả hay thông số.
Xác xuất probability
được sử dụng khi mô tả một hàm của kết
quả đầu ra (outcome) với một tham số
xác định (fixed parameter value) \(P\left(
{x|\theta } \right)\). Giả sử có một biến ngẫu nhiên X tuân theo phân phối
tham số (parameterized distribution)
\(f\left( {x;\theta } \right)\) (ví dụ
phân với chuẩn \(f(x;\mu ,\sigma )\) thì
\(\theta \) là \(\mu ,\sigma \)) với \(\theta \) là tham số của phân phối f.
Khi đó xác xuất X = x sẽ là \(P\left(
{X = x} \right) = f\left( {x;{\rm{ }}\theta } \right)\) với \(\theta \) đã biết. Nói cách khác cho giá trị
cụ thể \(\theta \), \(P\left( {x|\theta } \right)\) là xác xuất sẽ
quan sát thấy kết quả outcome đại diện bởi x (x mô tả outcome).
Ví dụ: tung đồng xu 10 lần, đồng xu cân đối (công bằng), xác
xuất xuất hiện mặt ngửa x lần là bao nhiêu?
Ví dụ biết xác xuất xuất hiện một mặt của đồng xu cân đối
tuân theo phân phối nhị thức với p = 0.5. Xác xuất xuất hiện mặt ngửa 7 lần x =
7
\(P\left( {X = x} \right) =
f\left( {x;n,\;p} \right) = B\left( {n,p} \right) = \left(
{\begin{array}{*{20}{c}}n\\x\end{array}} \right){p^x}{\left( {1 - p} \right)^{n
- x}} = \left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right){0.5^x}{\left(
{1 - 0.5} \right)^{n - x}}\)
với x = 7, n = 10, p = 0.5 thì \(\;f\left( {x;n,\;p} \right) = 0.117\)
Trong khi đó likelihood
được sử dụng khi mô tả một hàm của tham
số (parameter) cho ra một kết quả outcome
(outcome đã biết).
Ví dụ tung đồng xu 10 lần và ngửa 7 lần vậy đồng xu có cân đối?
Trong thực tế đây là trường hợp thường xảy ra khi mô hình hóa một quá trình ngẫu
nhiên (real life stochastic process) khi không biết
\(\theta \) mà chỉ có thể quan sát x. Do
đó cần ước tính \(\theta \) để giá trị
này phù hợp với giá trị quan sát x.
Trong trường hợp ngược lại này giá trị của p là chưa xác định
likelihood function sẽ viết như sau:
\(L\left( {x;n,\;p} \right)
= \left( {\begin{array}{*{20}{c}}n\\x\end{array}} \right){p^x}{\left( {1 - p}
\right)^{n - x}}\)
Likelihood sẽ là tập hợp của các parameter thỏa mãn các kết
quả đầu ra quan sát được và bằng đúng xác xuất xảy ra của những quan sát này. Theo
đó hàm likelihood được viết gần như hàm xác xuất với lưu ý là \(\theta \) chưa biết và X = x đã biết.
\(L\left( {\theta |x} \right)
= P(x|\theta )\)
Likelihood-ratio test
là một kiểm định thống kê dùng kiểm tra goodness of fit (GoF) của hai mô hình
trong đó một mô hình là null-model (trường hợp đặc biệt) còn được viết tắt là
-2LL (-2 log-likelihood). Kiểm định này sử dụng tỷ số likelihood (likelihood
ratio).
Null-hypothesis \({H_0}:\rho = {\rm{ }}0.50\)
Alternate hypothesis \({H_a}:\rho \ne {\rm{ }}0.50\)
Likelihood-ratio test
dựa trên tỷ số likelihood (likelihood rate) được bởi ký tự capital lambda
\({\rm{ }}\Lambda {\rm{
}}\left( x \right) = \frac{{L({\theta _0}|x)}}{{L({\theta _a}|x)}} =
\frac{{f\left( {x|{\theta _0}} \right)}}{{f(x|{\theta _a})}}\)
Likelihood-ratio test trả lời câu hỏi liệu dữ liệu (data) có
ý nghĩa thống kê cho thấy ít có khả năng xảy ra giả thuyết null hơn giả thuyết
đối bằng cách tính log-likelihood giữa giả thuyết null và giả thuyết đối và xem
xét độ khác nhau giữa hai giá trị này (note \(\log
\frac{a}{b} = \log a - \log b\)):
\(D{\rm{ }} = {\rm{ }}2{\rm{
}}\left( {L{L_a} - {\rm{ }}L{L_0}} \right)\)
Việc nhân giá trị \(L{L_a} -
{\rm{ }}L{L_0}\) với 2 là một kỹ thuật thống kê với mục đích làm cho giá
trị D có phân phối \({\chi ^2}\).
Ví dụ log-likelihood function của một phân phối chuẩn có dạng
như sau:
\(l\left( {\mu ,\sigma }
\right) = - n\log \left( {2\pi {\sigma
^2}} \right) - \frac{{\mathop \sum \nolimits_i {{\left( {{X_i} - \mu }
\right)}^2}}}{{2{\sigma ^2}}}\)
Maximum-Likelihood Estimation
Ước lượng hợp lý cực
đại hay còn dịch là ước lượng khả năng cực đại Maximum-Likelihood
Estimation (MLE) là một kỹ thuật trong thống kê dùng để ước lượng giá trị tham
số của một mô hình xác suất dựa trên những dữ liệu có được. Phương pháp này được
nhà toán học R. A. Fisher phát triển vào khoảng 1912-1922.
MLE dựa trên giả thiết rằng các mẫu dữ liệu \(\;D = \left\{ {{X_{1,}} \ldots ,{X_N}} \right\}\)
có được đều độc lập và có cùng phân bố (i.i.d–independent
and identically distributed), với hàm phân bố thuộc một lớp cụ thể (ví dụ
như Gaussian hoặc luỹ thừa) với tham số \(\theta
\) chưa biết. Mục tiêu của MLE là đi tìm giá trị của tham số để tối
ưu hoá hàm thiệt hại (loss function).
Trong trường hợp của MLE, hàm thiệt hại được định nghĩa là
hàm logarithm của hàm khả năng (likelihood function) \(\ln (P(D|\theta ))\)
Theo giả thiết các mẫu dữ liệu là i.i.d ta có hàm khả năng
\(P\left( {D{\rm{|}}\theta }
\right) = P\left( {{X_1}, \ldots ,{X_N}{\rm{|}}\theta } \right) = \mathop \prod
\limits_{i = 1}^N P({X_i}|\theta )\)
do đó khi lấy logarithm loss function có giá trị
\(\ln (P(D|\theta )) =
\mathop \sum \limits_{i = 1}^N \ln (P({X_i}|\theta ))\)
Tham số của mô hình dựa sẽ được ước lượng bằng các cách gán
với các giá trị sao cho hàm số trên giá trị đạt cực đại:
\(\left\{ {{{\hat \theta
}_{mle}}} \right\} \subseteq \left\{ {{\rm{argma}}{{\rm{x}}_{\theta \in {\rm{\Theta }}}}{\rm{ln}}(P(D|\theta ))}
\right\}\)
No comments:
Post a Comment