Untitled

 avatar
unknown
plain_text
a year ago
22 kB
4
Indexable
## 1. Phân phối Gaussian

### 1.1 Tổng quát

Phân phối Gaussian là một trong những phân phối xác suất quan trọng nhất cho các biến liên tục, còn được gọi là phân phối chuẩn (normal distribution).
Đối với trường hợp của một biến thực đơn $x$, phân phối Gaussian được định nghĩa bởi:

$$
\mathcal{N}(x|\mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}} exp(-\frac{1}{2\sigma^2}(x-\mu)^2) \tag{1.1.1}
$$
phân phối này được điều khiển bởi hai tham số: $\mu$, gọi là trung bình (mean), và $\sigma^2$, gọi là phương sai (variance). Căn bậc hai của phương sai, ký hiệu là $\sigma$, được gọi là độ lệch chuẩn (standard deviation), và nghịch đảo của phương sai, viết là $\beta = 1/\sigma^2$, được gọi là độ chính xác (precision).

Từ dạng của $(1.1)$, ta thấy phân phối Gaussian thoả mãn:
$$
\mathcal{N}(x|\mu, \sigma^2) > 0
$$Sở dĩ có điều này là vì:
- $\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}} > 0$. Đây là một hằng số dương, vì trong phân phối Gauss, phương sai $\sigma^2 > 0$ thay vì chỉ không âm, vì nếu phương sai bằng 0 sẽ có ý nghĩa toán học là tất cả các giá trị của biến ngẫu nhiên đều bằng đúng giá trị trung bình $\mu$, không có sự phân tán nào cả. Điều này sẽ khiến cho hàm mật độ xác suất không còn hợp lệ nữa.
- $exp(-\frac{1}{2\sigma^2}(x-\mu)^2) > 0$, vì hàm mũ của một số thực luôn lớn hơn 0, ngay cả khi số thực là một số âm.

Để $(1.1.1)$ là một phân phối xác suất hợp lệ, ta cần chứng minh:

$$
\begin{align*}
&\int_{-\infty}^{\infty}\mathcal{N}(x|\mu, \sigma^2)dx = 1 \\
\Leftrightarrow & \int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}} exp(-\frac{1}{2\sigma^2}(x-\mu)^2)dx = 1 \tag{1.1.2}
\end{align*} 
$$
Từ $(1.1.2)$, ta đặt $z = \frac{x - \mu}{\sigma}$, biểu thức lúc này trở thành:

$$
\begin{align*}
\int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}} exp(-\frac{(\sigma z)^2}{2\sigma^2})\sigma dz &= 1 \\
\Leftrightarrow \int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}} exp(-\frac{z^2}{2})\sigma dz &= 1 \\
\Leftrightarrow \int_{-\infty}^{\infty}\frac{\sigma}{(2\pi\sigma^2)^{\frac{1}{2}}} exp(-\frac{z^2}{2}) dz &= 1 \\
\Leftrightarrow \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}} exp(-\frac{z^2}{2}) dz &= 1 \\
\Leftrightarrow \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} exp(-\frac{z^2}{2}) dz &= 1 \tag{1.1.3}
\end{align*}
$$
vì $\frac{dz}{dx}= \frac{1}{\sigma}$. $({1.1.3})$ là dạng của phân phối chuẩn tắc, một trường hợp đặc biệt của phân phối chuẩn, với mean $= 0$ và phương sai $= 1$. Do đó,  $(1.1.3)$ là một phân phối hợp lệ và vì thế, $(1.1.1)$ cũng là phân phối hợp lệ.

### 1.2 Kỳ vọng và phương sai

Kỳ vọng của một biến $x$ tuân theo phân phối Gaussian được cho bởi:

$$
\mathbf{E}[x] = \int_{-\infty}^{\infty} \mathcal{N}(x|\mu, \sigma^2)xdx = \mu \tag{1.2.1}
$$
Tương tự với mô-men bậc 2:
$$
\mathbf{E}[x^2] = \int_{-\infty}^{\infty} \mathcal{N}(x|\mu, \sigma^2)x^2dx = \mu^2 + \sigma^2\tag{1.2.2}
$$
Từ $(1.2.1)$ và $(1.2.2)$, suy ra phương sai của phân phối Gaussian được cho bởi:

$$
Var(x) = \mathbf{E}[x^2] - \mathbf{E}[x]^2 = \sigma^2
$$

## 1.2.5 Curve fitting re-visited

Chúng ta đã thấy vấn đề khớp đường cong đa thức có thể được biểu diễn bằng các phương pháp tối thiểu hóa lỗi. Ở đây chúng ta quay lại ví dụ khớp đường cong và xem nó từ góc độ xác suất, từ đó đạt được một số hiểu biết sâu sắc về các hàm lỗi và điều chỉnh, cũng như hướng tới một phương pháp tiếp cận Bayes đầy đủ.

Mục tiêu trong bài toán khớp đường cong là có thể dự đoán giá trị mục tiêu $t$ dựa trên một giá trị mới của biến đầu vào $x$ dựa trên tập hợp dữ liệu huấn luyện gồm $N$ giá trị đầu vào $\mathbf{x} = (x_1, \ldots, x_N)^T$ và các giá trị mục tiêu tương ứng $\mathbf{t} = (t_1, \ldots, t_N)^T$. Chúng ta có thể biểu diễn sự không chắc chắn về giá trị của biến mục tiêu bằng cách sử dụng phân phối xác suất. Vì mục đích này, chúng ta sẽ giả định rằng, với giá trị của $x$, giá trị tương ứng của $t$ có phân phối Gaussian với trung bình bằng giá trị của $y(x, \mathbf{w})$ của đường cong đa thức được cho bởi (1.1). Do đó, chúng ta có
 
$$
\begin{equation}

p(t|x, \mathbf{w}, \beta) = \mathcal{N} \left( t | y(x, \mathbf{w}), \beta^{-1} \right)

\end{equation}
$$
ở đây, để thống nhất với ký hiệu trong các chương sau, chúng ta đã định nghĩa một tham số độ chính xác $\beta$ tương ứng với nghịch đảo của phương sai của phân phối. Điều này được minh họa dưới dạng sơ đồ trong Hình 1.16.

![[Pasted image 20240728230301.png]]

Chúng ta bây giờ sử dụng dữ liệu huấn luyện $\{ \mathbf{x}, \mathbf{t} \}$ để xác định các giá trị của các tham số chưa biết $\mathbf{w}$ và $\beta$ bằng cách sử dụng phương pháp khả dĩ cực đại (maximum likelihood). Nếu dữ liệu được giả định là được rút ra độc lập từ phân phối (1.60), thì hàm khả dĩ được cho bởi

$$
\begin{equation}

p(\mathbf{t} | \mathbf{x}, \mathbf{w}, \beta) = \prod_{n=1}^{N} \mathcal{N} \left( t_n | y(x_n, \mathbf{w}), \beta^{-1} \right)

\end{equation}
$$
  
Tương tự như trường hợp của phân phối Gaussian đơn giản trước đó, chúng ta tiện lợi hơn khi tối đa hóa log của hàm khả dĩ. Thay thế dạng của phân phối Gaussian, được cho bởi (1.46), chúng ta có hàm log khả dĩ dưới dạng
  
$$
\begin{equation}

\ln p(\mathbf{t} | \mathbf{x}, \mathbf{w}, \beta) = \frac{\beta}{2} \sum_{n=1}^{N} \left\{ y(x_n, \mathbf{w}) - t_n \right\}^2 + \frac{N}{2} \ln \beta - \frac{N}{2} \ln (2\pi)

\end{equation}
$$
  
Trước tiên, xem xét việc xác định nghiệm khả dĩ cực đại cho các hệ số đa thức, được ký hiệu là $\mathbf{w}_{ML}$. Các hệ số này được xác định bằng cách tối đa hóa (1.62) với $\mathbf{w}$. Vì mục đích này, chúng ta có thể bỏ qua hai số hạng cuối cùng ở vế phải của (1.62) vì chúng không phụ thuộc vào $\mathbf{w}$. Cũng cần lưu ý rằng việc nhân log khả dĩ với một hệ số hằng dương không thay đổi vị trí của cực đại đối với $\mathbf{w}$, vì vậy chúng ta có thể thay hệ số $\beta/2$ bằng $1/2$. Cuối cùng, thay vì tối đa hóa log khả dĩ, chúng ta có thể tối thiểu hóa log khả dĩ âm. Do đó, việc tối đa hóa khả dĩ là tương đương với việc tối thiểu hóa hàm lỗi bình phương được định nghĩa bởi (1.2). Do đó, hàm lỗi bình phương đã xuất hiện như là một hệ quả của việc tối đa hóa khả dĩ dưới giả định nhiễu Gaussian.
  
Chúng ta cũng có thể sử dụng phương pháp khả dĩ cực đại để xác định tham số độ chính xác $\beta$ của phân phối Gaussian điều kiện. Tối đa hóa (1.62) với $\beta$ cho chúng ta

$$
\begin{equation}

\frac{1}{\beta_{ML}} = \frac{1}{N} \sum_{n=1}^{N} \left\{ y(x_n, \mathbf{w}_{ML}) - t_n \right\}^2

\end{equation}
$$
  
Lại một lần nữa, chúng ta có thể xác định vector tham số $\mathbf{w}_{ML}$ điều khiển giá trị trung bình và sau đó sử dụng điều này để tìm độ chính xác $\beta_{ML}$ như trong trường hợp của phân phối Gaussian đơn giản.  

Sau khi xác định các tham số $\mathbf{w}$ và $\beta$, chúng ta có thể dự đoán các giá trị mới của $x$. Vì bây giờ chúng ta có một mô hình xác suất, những giá trị này được biểu diễn dưới dạng phân phối dự đoán cho giá trị $t$, thay vì chỉ đơn thuần là một giá trị điểm, và được nhận bằng cách thay các tham số khả dĩ cực đại vào (1.60) để cho

$$
\begin{equation}

p(t | x, \mathbf{w}_{ML}, \beta_{ML}) = \mathcal{N} \left( t | y(x, \mathbf{w}_{ML}), \beta^{-1}_{ML} \right)

\end{equation}
$$

Bây giờ chúng ta sẽ tiến một bước gần hơn tới phương pháp Bayes và đưa vào phân phối tiên nghiệm cho các hệ số đa thức $\mathbf{w}$. Để đơn giản, chúng ta sẽ xem xét phân phối Gaussian dưới dạng
  
$$
\begin{equation}

p(\mathbf{w} | \alpha) = \mathcal{N} \left( \mathbf{w} | \mathbf{0}, \alpha^{-1} \mathbf{I} \right) = \left( \frac{\alpha}{2\pi} \right)^{(M+1)/2} \exp \left( -\frac{\alpha}{2} \mathbf{w}^T \mathbf{w} \right)

\end{equation}
$$

Đối với phân phối Gaussian đa biến, công thức tổng quát là:
$$
\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}, \mathbf{\Sigma}) = \frac{1}{(2\pi)^{k/2} |\mathbf{\Sigma}|^{1/2}} \exp \left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^\mathrm{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)
$$
Ở đây:
- $\mathbf{x}$ là vectơ ngẫu nhiên,
- $\boldsymbol{\mu}$ là vectơ trung bình,
- $\mathbf{\Sigma}$ là ma trận hiệp phương sai,
- $k$ là số chiều của vectơ $\mathbf{x}$.

Thay vào các giá trị cụ thể với $\mathbf{w}$, $\boldsymbol{\mu} = \mathbf{0}$, và $\mathbf{\Sigma} = \alpha^{-1} \mathbf{I}$:
$$
\mathcal{N}(\mathbf{w}|0, \alpha^{-1} \mathbf{I}) = \frac{1}{(2\pi)^{(M+1)/2} |\alpha^{-1} \mathbf{I}|^{1/2}} \exp \left( -\frac{1}{2} \mathbf{w}^\mathrm{T} (\alpha^{-1} \mathbf{I})^{-1} \mathbf{w} \right)
$$

Tính toán các thành phần:
1. **Định thức của ma trận hiệp phương sai $\mathbf{\Sigma}$**:
$$
|\alpha^{-1} \mathbf{I}| = (\alpha^{-1})^{M+1}
$$
2. **Nghịch đảo của ma trận hiệp phương sai $\mathbf{\Sigma}$**:
$$
(\alpha^{-1} \mathbf{I})^{-1} = \alpha \mathbf{I}
$$
3. **Phần tiền số (normalizing constant)**:
$$
\frac{1}{(2\pi)^{(M+1)/2} (\alpha^{-1})^{(M+1)/2}} = \left( \frac{\alpha}{2\pi} \right)^{(M+1)/2}
$$
4. **Hàm mũ (exponential term)**:
$$
-\frac{1}{2} \mathbf{w}^\mathrm{T} (\alpha^{-1} \mathbf{I})^{-1} \mathbf{w} = -\frac{1}{2} \mathbf{w}^\mathrm{T} \alpha \mathbf{w} = -\frac{\alpha}{2} \mathbf{w}^\mathrm{T} \mathbf{w}
$$
Kết hợp tất cả các thành phần trên lại, ta có:
$$
p(\mathbf{w}|\alpha) = \left( \frac{\alpha}{2\pi} \right)^{(M+1)/2} \exp \left( -\frac{\alpha}{2} \mathbf{w}^\mathrm{T} \mathbf{w} \right)
$$
Tóm tắt:
- **Hệ số chuẩn hóa**: $\left( \frac{\alpha}{2\pi} \right)^{(M+1)/2}$
- **Hàm mũ**: $\exp \left( -\frac{\alpha}{2} \mathbf{w}^\mathrm{T} \mathbf{w} \right)$

  
ở đây $\alpha$ là độ chính xác của phân phối, và $M+1$ là số lượng phần tử trong vector $\mathbf{w}$ cho đa thức bậc $M$. Các biến như $\alpha$, điều khiển phân phối của các tham số mô hình, được gọi là siêu tham số (hyperparameters). Sử dụng định lý Bayes, phân phối hậu nghiệm cho $\mathbf{w}$ tỉ lệ thuận với tích của phân phối tiên nghiệm và hàm khả dĩ
  
$$
\begin{equation}

p(\mathbf{w} | \mathbf{x}, \mathbf{t}, \alpha, \beta) \propto p(\mathbf{t} | \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w} | \alpha)

\end{equation}
$$

> [!IMPORTANT]
Trong ngữ cảnh của bài toán khớp đường cong đa thức từ góc nhìn xác suất, các siêu tham số (hyperparameters) cụ thể có thể bao gồm:
> 
> * Độ chính xác của phân phối Gaussian (Precision of the Gaussian distribution): $\beta$, đây là tham số độ chính xác, là nghịch đảo của phương sai $\sigma^2$. Nó cho biết mức độ "tin cậy" của mô hình đối với các dự đoán của nó. Trong công thức (1.60), $\beta$ xác định độ phân tán của phân phối Gaussian xung quanh giá trị dự đoán $y(x, \mathbf{w})$.
> * Thông số của phân phối tiên nghiệm (Parameters of the Prior Distribution): $\alpha$, đây là tham số của phân phối prior Gaussian áp đặt lên các hệ số $\mathbf{w}$. $\alpha$ là độ chính xác của phân phối tiên nghiệm (nghịch đảo của phương sai), được sử dụng để điều chỉnh mức độ phức tạp của mô hình và giúp tránh overfitting. Trong công thức (1.65), $\alpha$ xác định độ phân tán của phân phối Gaussian xung quanh giá trị trung bình 0.
> 
 Các siêu tham số này kiểm soát những yếu tố quan trọng của mô hình và thường được xác định thông qua các phương pháp tối ưu hóa, chẳng hạn như tối đa hóa hàm posterior (MAP) hoặc thông qua các kỹ thuật cross-validation.


Bây giờ chúng ta có thể xác định $\mathbf{w}$ bằng cách tìm giá trị khả dĩ nhất của $\mathbf{w}$ cho dữ liệu, tức là bằng cách tối đa hóa phân phối hậu nghiệm. Kỹ thuật này được gọi là cực đại hậu nghiệm, hoặc đơn giản là MAP. Lấy log âm của (1.66) và kết hợp với (1.62) và (1.65), chúng ta thấy rằng cực đại của hậu nghiệm được cho bởi cực tiểu của

$$
\begin{equation}

\frac{\beta}{2} \sum_{n=1}^{N} \left\{ y(x_n, \mathbf{w}) - t_n \right\}^2 + \frac{\alpha}{2} \mathbf{w}^T \mathbf{w}

\end{equation}
$$
Do đó chúng ta thấy rằng tối đa hóa phân phối hậu nghiệm tương đương với việc tối thiểu hóa hàm lỗi bình phương có điều chỉnh gặp trước đó trong dạng (1.4), với tham số điều chỉnh được cho bởi $\lambda = \alpha / \beta$.

---
## 1.2.6 Khớp đường cong Bayesian

Mặc dù chúng ta đã bao gồm phân phối tiên nghiệm $p(w|\alpha)$, chúng ta vẫn chỉ đang thực hiện ước tính điểm của $w$ và do đó điều này chưa đủ để trở thành một phương pháp Bayesian. Trong một phương pháp hoàn toàn Bayesian, chúng ta nên nhất quán áp dụng các quy tắc tổng và nhân của xác suất, điều này đòi hỏi, như chúng ta sẽ thấy ngay sau đây, rằng chúng ta phải tích phân qua tất cả các giá trị của $w$. Việc biên độ hoá như vậy nằm ở trung tâm của các phương pháp Bayesian cho nhận dạng mẫu.

Trong vấn đề fitting đường cong, chúng ta được cung cấp dữ liệu huấn luyện $\mathbf{x}$ và $\mathbf{t}$, cùng với một điểm kiểm tra mới $x$, và mục tiêu của chúng ta là dự đoán giá trị của $t$. Do đó, chúng ta muốn đánh giá phân phối dự đoán $p(t|x, \mathbf{x}, \mathbf{t})$. Ở đây, chúng ta sẽ giả sử rằng các tham số $\alpha$ và $\beta$ đã được cố định và biết trước (chúng ta sẽ thảo luận cách các tham số như vậy có thể được suy ra từ dữ liệu trong bối cảnh Bayesian ở các bài viết sau).

Một phương pháp Bayesian đơn giản chỉ tương ứng với việc áp dụng nhất quán các quy tắc tổng và nhân của xác suất, cho phép phân phối dự đoán được viết dưới dạng:
$$p(t|x, \mathbf{x}, \mathbf{t}) = \int p(t|x, w) p(w|\mathbf{x}, \mathbf{t}) \, dw$$
Ở đây, $p(t|x, w)$ được cho bởi (1.60), và chúng ta đã bỏ qua sự phụ thuộc vào $\alpha$ và $\beta$ để đơn giản hóa ký hiệu. Ở đây, $p(w|\mathbf{x}, \mathbf{t})$ là phân phối hậu nghiệm trên các tham số, và có thể tìm thấy bằng cách chuẩn hóa vế phải của (1.66). Chúng ta sẽ thấy trong Mục 3.3 rằng, đối với các vấn đề như ví dụ fitting đường cong, phân phối hậu nghiệm là một Gaussian và có thể được đánh giá phân tích. Tương tự, tích phân trong (1.68) cũng có thể được thực hiện phân tích với kết quả rằng phân phối dự đoán được cho bởi một Gaussian dưới dạng:
$$p(t|x, \mathbf{x}, \mathbf{t}) = \mathcal{N} \left( t | m(x), s^2(x) \right)$$
ở đây, giá trị trung bình và phương sai được cho bởi
$$m(x) = \beta \phi(x)^T S \sum_{n=1}^N \phi(x_n) t_n$$
$$s^2(x) = \beta^{-1} + \phi(x)^T S \phi(x)$$
Ở đây, ma trận $S$ được cho bởi
$$S^{-1} = \alpha I + \beta \sum_{n=1}^N \phi(x_n) \phi(x_n)^T$$

trong đó $I$ là ma trận đơn vị, và chúng ta đã định nghĩa vector $\phi(x)$ với các phần tử $\phi_i(x) = x^i$ cho $i = 0, \ldots, M$.

Chúng ta thấy rằng, phương sai, cũng như giá trị trung bình, của phân phối dự đoán trong (1.69) phụ thuộc vào $x$. Thuật ngữ đầu tiên trong (1.71) đại diện cho sự không chắc chắn trong giá trị dự đoán của $t$ do nhiễu trên các biến mục tiêu và đã được biểu diễn trước đó trong phân phối dự đoán hợp lý tối đa (1.64) thông qua $\beta^{-1}$. Tuy nhiên, thuật ngữ thứ hai phát sinh từ sự không chắc chắn trong các tham số $w$ và là hệ quả của phương pháp Bayesian. Phân phối dự đoán cho vấn đề hồi quy hình sin tổng hợp được minh họa trong Hình 1.17.

![[Pasted image 20240728230331.png]]

---
## Phân tích sự khác biệt khi xử lý bài toán curve fitting bằng hàm đa thức (polynomial function) với hàm mất mát MSE và bằng góc nhìn xác suất Bayes:

#### 1. Sử dụng Polynomial Function với hàm mất mát MSE:

**Phương pháp:**
- **Hàm mục tiêu:** Sử dụng hàm mất mát Mean Squared Error (MSE), được định nghĩa là:
  $$\text{MSE} = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y_i})^2$$
  Trong đó $y_i$ là giá trị thực tế, $\hat{y_i}$ là giá trị dự đoán, và $N$ là số lượng điểm dữ liệu.
- **Ước lượng tham số:** Thông qua việc tối thiểu hóa hàm mất mát MSE. Điều này thường được thực hiện bằng cách sử dụng phương pháp gradient descent hoặc giải pháp bình phương nhỏ nhất (least squares).

**Ưu điểm:**
- **Đơn giản và trực quan:** Việc sử dụng MSE là trực tiếp và dễ hiểu.
- **Tính toán nhanh:** Phương pháp này thường đòi hỏi ít tính toán hơn và có thể sử dụng các giải pháp giải tích đơn giản.
- **Được sử dụng rộng rãi:** Phù hợp với nhiều bài toán fitting cơ bản và được áp dụng rộng rãi trong nhiều lĩnh vực.

**Nhược điểm:**
- **Không tính đến không chắc chắn:** MSE chỉ tối thiểu hóa sai số trung bình mà không tính đến sự không chắc chắn trong dự đoán.
- **Quá khớp (overfitting):** Khi sử dụng hàm đa thức bậc cao, mô hình dễ bị quá khớp với dữ liệu huấn luyện, làm giảm khả năng tổng quát hóa.
- **Không sử dụng thông tin tiên nghiệm:** Phương pháp này không sử dụng bất kỳ thông tin tiên nghiệm nào về tham số hoặc dữ liệu.

#### 2. Sử dụng góc nhìn xác suất Bayes:

**Phương pháp:**
- **Phân phối tiên nghiệm (Prior):** Sử dụng phân phối tiên nghiệm $p(w)$ cho các tham số $w$ trước khi nhìn thấy dữ liệu.
- **Khả năng (Likelihood):** Xác suất của dữ liệu quan sát được cho một bộ tham số cụ thể $p(t|x, w)$.
- **Phân phối hậu nghiệm (Posterior):** Sử dụng định lý Bayes để cập nhật phân phối tiên nghiệm thành phân phối hậu nghiệm $p(w|x, t)$:
  $$p(w|x, t) \propto p(w) p(t|x, w)$$
- **Phân phối dự đoán (Predictive Distribution):** Tích hợp phân phối hậu nghiệm với khả năng để tìm phân phối dự đoán cho điểm dữ liệu mới:
  $$p(t|x, \mathbf{x}, \mathbf{t}) = \int p(t|x, w) p(w|\mathbf{x}, \mathbf{t}) \, dw$$

**Ưu điểm:**
- **Tính đến sự không chắc chắn:** Phương pháp Bayes tính đến sự không chắc chắn trong cả dữ liệu và tham số, cung cấp phân phối xác suất thay vì một giá trị điểm.
- **Khả năng tổng quát hóa tốt hơn:** Bằng cách sử dụng phân phối tiên nghiệm và hậu nghiệm, phương pháp Bayes thường có khả năng tổng quát hóa tốt hơn, đặc biệt là với dữ liệu ít hoặc nhiễu.
- **Sử dụng thông tin tiên nghiệm:** Cho phép kết hợp thông tin tiên nghiệm và kinh nghiệm vào mô hình.

**Nhược điểm:**
- **Tính toán phức tạp hơn:** Việc tính toán phân phối hậu nghiệm và tích phân để tìm phân phối dự đoán đòi hỏi nhiều tài nguyên tính toán hơn.
- **Khó khăn trong lựa chọn tiên nghiệm:** Việc chọn phân phối tiên nghiệm phù hợp có thể khó khăn và ảnh hưởng lớn đến kết quả.

**Kết luận:**
- Polynomial Function với hàm mất mát MSE là phương pháp đơn giản và trực quan, phù hợp với các bài toán fitting cơ bản, nhưng dễ bị quá khớp và không tính đến sự không chắc chắn.
- Phương pháp Bayes phức tạp hơn, nhưng cung cấp một cách tiếp cận đầy đủ hơn bằng cách tính đến sự không chắc chắn và sử dụng thông tin tiên nghiệm, từ đó thường dẫn đến kết quả chính xác và khả năng tổng quát hóa tốt hơn.
Editor is loading...
Leave a Comment