<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Machine Learning Theory on Lê Nhựt Nam</title><link>https://blog.namln.org/vi-vn/tags/machine-learning-theory/</link><description>Recent content in Machine Learning Theory on Lê Nhựt Nam</description><generator>Hugo</generator><language>vi-VN</language><lastBuildDate>Thu, 03 Apr 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.namln.org/vi-vn/tags/machine-learning-theory/index.xml" rel="self" type="application/rss+xml"/><item><title>Vapnik–Chervonenkis (VC) Dimension</title><link>https://blog.namln.org/vi-vn/posts/vc-dim/</link><pubDate>Thu, 03 Apr 2025 00:00:00 +0000</pubDate><guid>https://blog.namln.org/vi-vn/posts/vc-dim/</guid><description>&lt;h2 class="heading" id="1-chiều-vapnikchervonenkis-vc"&gt;
 1. Chiều Vapnik–Chervonenkis (VC)&lt;span class="heading__anchor"&gt; &lt;a href="#1-chi%e1%bb%81u-vapnikchervonenkis-vc"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Để suy rộng Định lý Glivenko-Cantelli cho nhiều thiết lập hơn, ta phát biểu lại định lý theo cách sau:&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Định lý 1.1: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $I = {(-\infty, a] : a \in \mathbb{R}}$. Khi $n \rightarrow \infty$, ta có:&lt;/p&gt;
&lt;p&gt;$$
\begin{equation}
\sup_{S \in I} \left| \frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S) \right| \stackrel{a.s.}{\longrightarrow} 0.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Ta muốn xem xét các tập $S$ khác nằm bên ngoài các khoảng. Tuy nhiên, sau đây là một ví dụ về một lớp các tập đo (class of measurable sets) được mà định lý không áp dụng được.&lt;/p&gt;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Ví dụ 1.1: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F$ là tập hợp các tập con hữu hạn của $\mathbb{R}$, và cho $\mu$ là một phân phối không có nguyên tử (ví dụ: phân phối đều trên $[0,1]$). Sau đó, nếu ta đặt $S_n = {X_1, \ldots, X_n}$, ta có:&lt;/p&gt;
&lt;p&gt;$$
\begin{equation}
\left| \frac{1}{n}\sum_{i=1}^{n}1_{S_n}(X_i) - P_\mu(S_n) \right| = |1 - 0| = 1
\end{equation}
$$
cho mỗi $n$. Vì vậy, trong tình huống này, ta có:&lt;/p&gt;
&lt;p&gt;$$
\begin{equation}
\sup_{S \in F} \left| \frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S) \right| = 1
\end{equation}
$$
với mọi $n$, và sự hội tụ về $0$ không xảy ra.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Ví dụ này cho thấy một số tập hợp có thể quá lớn để mà có thể áp dụng được kết quả của Định lý Glivenko-Cantelli. Nếu chúng ta bao gồm nhiều tập hơn nữa, ta xem xét ví dụ sau:&lt;/p&gt;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Ví dụ 1.2: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F$ là $\sigma$-đại số Borel trên $\mathbb{R}$. Khi đó kết quả của Định lý Glivenko-Cantelli yêu cầu:
$$
\begin{equation}
|\mu_n - \mu| _{TV} \stackrel{a.s.}{\longrightarrow} 0,
\end{equation}
$$
trong đó $\mu _n = \frac{1}{n}\sum _{i=1}^{n}\delta _{X _i}$ là phân phối thực nghiệm (empirical distribution measure).&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Giải pháp cho vấn đề này, được giới thiệu bởi Vapnik và Chervonenkis, là đưa ra một &amp;ldquo;chiều&amp;rdquo; tổ hợp cho lớp $F$ các tập hợp. Khái niệm này sẽ giúp chúng ta xác định loại tập nào thỏa mãn kết quả kiểu Glivenko-Cantelli và tốc độ hội tụ nhanh như thế nào.&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Định nghĩa 1.1: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F$ là một tập hợp các tập con của không gian $\Omega$. Ta nói rằng $F$ chia nhỏ (shatters) một tập $T$ nếu với mọi $U \subseteq T$, tồn tại một $S \in F$ sao cho $S \cap T = U$. Chiều VC (ký hiệu $\text{vc}(F)$) là lực lượng lớn nhất của một tập bị chia nhỏ bởi $F$.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Chiều VC là số lượng điểm lớn nhất mà $F$ có thể phân biệt tất cả các tập con có thể có của các điểm đó.&lt;/p&gt;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Ví dụ 1.3: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $I = {(-\infty, a] : a \in \mathbb{R}}$, như trước. Nếu $T = {0}$, thì $(-\infty, -1] \cap T = \emptyset$ và $(-\infty, 1] \cap T = T$, vì vậy $I$ chia nhỏ $T$.&lt;/p&gt;
&lt;p&gt;Mặt khác, với bất kỳ tập hai điểm $T = {x, y}$ nào với $x &amp;lt; y$, thì $I$ không thể chọn ra tập ${y} \subseteq T$. Vì vậy $I$ không thể chia nhỏ bất kỳ tập nào có ít nhất hai điểm, và ta có $\text{vc}(I) = 1$.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Ví dụ 1.4: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F = {(a, b) : a, b \in \mathbb{R}}$ là tập hợp các khoảng mở có độ dài hữu hạn. $F$ có thể chia nhỏ tập $T = {0, 1}$:
$$
\begin{align*}
(-1, 0) \cap T &amp;amp;= \emptyset\\
(-1/2, 1/2) \cap T &amp;amp;= {0}\\
(1/2, 3/2) \cap T &amp;amp;= {1}\\
(-1, 2) \cap T &amp;amp;= T
\end{align*}
$$&lt;/p&gt;
&lt;p&gt;Tuy nhiên, $F$ không thể chia nhỏ bất kỳ tập nào chứa ít nhất ba điểm. Nếu $x &amp;lt; y &amp;lt; z$, thì $F$ không thể chọn ra ${x, z}$. Vì vậy $\text{vc}(F) = 2$.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Ví dụ 1.5: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F$ là tập hợp các hình chữ nhật (song song với trục) trong $\mathbb{R}^2$. Khi đó $\text{vc}(F) = 4$.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Ví dụ trước đây không thỏa mãn định lý Glivenko-Cantelli có chiều VC vô hạn:&lt;/p&gt;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Ví dụ 1.6: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F$ là tập hợp các tập con hữu hạn của $\mathbb{R}$. Khi đó $F$ chia nhỏ bất kỳ tập hữu hạn $T$ nào vì với mọi $J \subseteq T$, ta có $J \in F$ và $J \cap T = J$. Vì vậy $\text{vc}(F)$ là vô hạn.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;h2 class="heading" id="2-ứng-dụng-của-chiều-vc"&gt;
 2. Ứng dụng của Chiều VC&lt;span class="heading__anchor"&gt; &lt;a href="#2-%e1%bb%a9ng-d%e1%bb%a5ng-c%e1%bb%a7a-chi%e1%bb%81u-vc"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Trong nửa đầu của phần này, chúng ta chứng minh một số mối quan hệ giữa chiều VC và các khái niệm khác về kích thước. Trong nửa sau, chúng ta sử dụng những mối quan hệ này để cung cấp một chứng minh tổng quát của Định lý Glivenko-Cantelli cho nhiều lớp $F$ khác nhau.&lt;/p&gt;
&lt;h3 class="heading" id="21-liên-hệ-chiều-vc-với-các-khái-niệm-kích-thước-khác"&gt;
 2.1 Liên hệ chiều VC với các khái niệm kích thước khác&lt;span class="heading__anchor"&gt; &lt;a href="#21-li%c3%aan-h%e1%bb%87-chi%e1%bb%81u-vc-v%e1%bb%9bi-c%c3%a1c-kh%c3%a1i-ni%e1%bb%87m-k%c3%adch-th%c6%b0%e1%bb%9bc-kh%c3%a1c"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h3&gt;&lt;p&gt;Chúng ta bắt đầu phần này bằng việc thảo luận trường hợp $F$ là hữu hạn. Nếu $F$ là một tập hợp hữu hạn các tập con của $\Omega = {x_1, \ldots, x_n}$, thì có một mối quan hệ thú vị giữa $\text{vc}(F)$ và $|F|$. Đầu tiên, ta có $|F| \geq 2^{\text{vc}(F)}$ vì vế phải là kích thước của tập hợp các phần tử của $F$ giao với $A$, trong đó $A$ là bất kỳ tập chia nhỏ cực đại nào.&lt;/p&gt;
&lt;p&gt;Thực tế, chúng ta có thể chứng minh một cận trên:&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Bổ đề 2.1.1 (Bổ đề Pajor): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $F \subseteq \Omega = {x_1, \ldots, x_n}$, và ký hiệu $\text{SH}(F) = {A \subseteq \Omega : A \text{ bị chia nhỏ bởi } F}$ (bao gồm cả $\emptyset$). Khi đó:
$$
\begin{equation}
|F| \leq |\text{SH}(F)|.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: green 2px solid;"&gt;&lt;span style="color:green"&gt;&lt;b&gt; Chứng minh: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Chứng minh bằng quy nạp theo $|\Omega|$. Khi $|\Omega| = 1$, chúng ta hoàn tất vì vế phải bao gồm tập rỗng. Giả sử bổ đề đúng cho $|\Omega| = n$. Với $|\Omega| = n + 1$, viết $\Omega = \Omega&amp;rsquo; \cup {x_0}$, trong đó $|\Omega&amp;rsquo;| = n$. Ta có thể chia $F$ thành:
$$
\begin{align}
F_+ &amp;amp;= {S \in F : x_0 \in S}\\
F_- &amp;amp;= {S \in F : x_0 \notin S}.
\end{align}
$$&lt;/p&gt;
&lt;p&gt;Theo giả thiết quy nạp:
$$
\begin{equation}
|F| = |F_+| + |F_-| \leq |\text{SH}(F_+)| + |\text{SH}(F_-)|.
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Bây giờ chỉ cần chứng minh rằng $|\text{SH}(F)| \geq |\text{SH}(F_+)| + |\text{SH}(F_-)|$. Đầu tiên, nếu $A$ bị chia nhỏ bởi một trong hai tập $F_+, F_-$, thì nó bị chia nhỏ bởi $F$. Và nếu $A$ bị chia nhỏ bởi cả hai tập $F_+, F_-$, thì $A \cup {x_0}$ bị chia nhỏ bởi $F$ nhưng không bị chia nhỏ bởi $F_+$ hoặc $F_-$. Chứng minh hoàn tất.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Một cách phát biểu điều kiện để $F$ chia nhỏ ${x_1, \ldots, x_n}$ là:&lt;/p&gt;
&lt;p&gt;$$
\begin{equation}
|{S \cap {x_1, \ldots, x_n} : S \in F}| = 2^n.
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Sử dụng Bổ đề Pajor, chúng ta có thể đưa ra một cận trên về số lượng mảnh mà ta nhận được nếu cố gắng chia nhỏ một tập lớn bằng $F$.&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Bổ đề 2.1.2 (Bổ đề Sauer-Shelah): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $x_1, \ldots, x_n \in \Omega$, và cho $F$ là một lớp các tập con của $\Omega$. Khi đó:
$$
\begin{equation}
|{S \cap {x_1, \ldots, x_n} : S \in F}| \leq \sum_{k=0}^{\text{vc}(F)} \binom{n}{k} \leq \left(\frac{en}{\text{vc}(F)}\right)^{\text{vc}(F)}.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: green 2px solid;"&gt;&lt;span style="color:green"&gt;&lt;b&gt; Chứng minh: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Gọi tập hợp ở vế trái là $G$. Theo bổ đề Pajor, ta có:
$$
\begin{equation}
|G| \leq |{A \subseteq {x_1, \ldots, x_n} : A \text{ bị chia nhỏ bởi } G}|.
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Nếu $A$ bị chia nhỏ bởi $G$, thì nó bị chia nhỏ bởi $F$, nên lực lượng của bất kỳ tập $A$ như vậy đều bị giới hạn: $|A| \leq \text{vc}(F)$. Vì vậy ta có:
$$
\begin{equation}
|G| \leq |{A \subseteq {x_1, \ldots, x_n} : |A| \leq \text{vc}(F)}| = \sum_{k=0}^{\text{vc}(F)} \binom{n}{k},
\end{equation}
$$
chứng minh bất đẳng thức đầu tiên.&lt;/p&gt;
&lt;p&gt;Bất đẳng thức thứ hai là kết quả của phép tính sau đây liên quan đến định lý nhị thức: Nếu $d \leq n$, thì:
$$
\begin{equation}
\sum_{k=0}^{d} \binom{n}{k} \leq \sum_{k=0}^{d} \binom{n}{k} \cdot \frac{d^{n-k}}{n^{n-k}} = \left(1 + \frac{d}{n}\right)^n \leq e^d \cdot \left(\frac{n}{d}\right)^d = \left(\frac{en}{d}\right)^d.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Định lý sau đây là đích đến của chúng ta trong phần này. Nó liên hệ chiều VC với một khái niệm kích thước khác, số phủ (covering number).&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Định lý 2.1.1 (Định lý Dudley): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $\mu$ là một phân phối trên $\Omega$, và cho $F$ là một tập hợp các tập con của $\Omega$. Tồn tại một hằng số phổ quát $K$ sao cho:
$$
\begin{equation}
N(F, |\cdot|_{L^2(\mu)}, \varepsilon) \leq \left(\frac{K}{\varepsilon}\right)^{K \cdot \text{vc}(F)}
\end{equation}
$$
với mọi $\varepsilon &amp;lt; 1$.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Ở đây, metric trên $F$ là $\rho(A, B) := |1_A - 1_B|_{L^2(\mu)}$.&lt;/p&gt;
&lt;div style="padding: 6px; border: violet 2px solid;"&gt;&lt;span style="color:violet"&gt;&lt;b&gt; Ghi chú 2.1.1: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cận này độc lập với phân phối $\mu$, vì vậy chúng ta có thể lấy supremum của vế trái trên tất cả các phân phối xác suất $\mu$.&lt;/p&gt;
&lt;p&gt;Cũng so sánh cận này về số phủ với số phủ của đơn vị cầu trong $\mathbb{R}^d$: $(1/\varepsilon)^d$. Điều này giúp giải thích tại sao chúng ta coi $\text{vc}(F)$ như một thước đo chiều.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Ý tưởng như sau: Số phủ và số đóng gói tương đương nhau, vì vậy chúng ta chỉ cần tập trung vào số đóng gói. Theo Luật số lớn mạnh, $|1_ A - 1_ B|_ {L^2(\mu)}$ có thể được xấp xỉ bằng $|1_A - 1_B|_{L^2(\mu_r)}$ với $r$ đủ lớn. Vì $\mu_r$ là rời rạc, ta có một đóng gói trong $L^2(\mu_r)$, thì tất cả các tập thuộc về đóng gói phải có giao khác nhau với ${X_1, \ldots, X_r}$ (miễn là $\varepsilon &amp;lt; 1/r$). Do đó, chúng ta có thể cận trên số đóng gói bằng cách đếm số lượng các giao này, điều này sẽ được thực hiện thông qua bổ đề Sauer-Shelah.&lt;/p&gt;
&lt;p&gt;Bổ đề sau đây làm rõ giá trị $r$ mà chúng ta có thể sử dụng.&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Bổ đề 2.1.3 (Bổ đề Trích xuất xác suất): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $S_1, \ldots, S_m$ là các tập con của $\Omega$ sao cho $|1_ {S_ i} - 1_ {S_ j}|_ {L^2(\mu)} &amp;gt; \varepsilon$ với mọi $i \neq j$. Khi đó tồn tại $r \leq c\varepsilon^{-4}\log m$ điểm $x_ 1, \ldots, x_ r \in \Omega$ sao cho:
$$
\begin{equation}
|1_ {S_i} - 1_ {S_j}|_ {L^2(\mu_x)} &amp;gt; \varepsilon/2
\end{equation}
$$
với mọi $i \neq j$. Ở đây, $\mu_x := \frac{1}{r}\sum_{k=1}^{r} \delta_{x_k}$ là phân phối thực nghiệm cho các điểm này, và $c$ là một hằng số phổ quát.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: green 2px solid;"&gt;&lt;span style="color:green"&gt;&lt;b&gt; Chứng minh: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $X_1, \ldots, X_r \stackrel{iid}{\sim} \mu$, và cho $\mu_r$ là độ đo thực nghiệm. Khi đó:
$$
\begin{align}
\mathbb{P}\left(|1_{S_i} - 1_{S_j}|^2_{L^2(\mu_r)} \leq \frac{\varepsilon^2}{4}\right) &amp;amp;\leq \mathbb{P}\left(|1_ {S_ i} - 1_{S_ j}|^2_ {L^2(\mu_r)} \leq |1_ {S_i} - 1_ {S_ j}|^2_ {L^2(\mu)} - \frac{3\varepsilon^2}{4}\right)
\end{align}
$$&lt;/p&gt;
&lt;p&gt;$|1_{S_i} - 1_{S_j}|^2_{L^2(\mu)}$ là kỳ vọng của $|1_{S_i} - 1_{S_j}|^2_{L^2(\mu_r)}$, vì vậy sử dụng bất đẳng thức Azuma-Hoeffding:
$$
\begin{equation}
\leq e^{-r\varepsilon^4/15}.
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Sử dụng nguyên lý union bound trên tất cả các $i \neq j$, ta có:
$$
\begin{equation}
\mathbb{P}\left(|1_{S_i} - 1_{S_j}|_{L^2(\mu_r)} &amp;gt; \frac{\varepsilon}{2} ; \forall i \neq j\right) \geq 1 - m^2e^{-r\varepsilon^4/15}.
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Với $r &amp;gt; 30\varepsilon^{-4} \log m$, giá trị này $&amp;gt; 0$, do đó tồn tại một số điểm thỏa mãn điều kiện.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Bây giờ hãy chứng minh định lý Dudley.&lt;/p&gt;
&lt;div style="padding: 6px; border: green 2px solid;"&gt;&lt;span style="color:green"&gt;&lt;b&gt; Chứng minh: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $S_1, \ldots, S_m$ là một đóng gói $\varepsilon$ cực đại của $(F, |\cdot|_ {L^2(\mu)})$. Theo bổ đề, ta có thể chọn $r \leq c\varepsilon^{-4}\log m$ điểm $x_1, \ldots, x_ r$ sao cho $S_1, \ldots, S_m$ là một đóng gói $\varepsilon/2$ của $(F, |\cdot|_ {L^2(\mu_x)})$. Ta có thể cận:
$$
\begin{equation}
m \leq |{S \cap {x_1, \ldots, x_r} : S \in F}|
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Sử dụng bổ đề Sauer-Shelah:
$$
\begin{align}
&amp;amp;\leq \left(\frac{er}{\text{vc}(F)}\right)^{\text{vc}(F)} \leq \left(\frac{ec\log m}{\text{vc}(F)}\varepsilon^{-4}\right)^{\text{vc}(F)}\
&amp;amp;= 2^{\text{vc}(F)} \cdot \left(\frac{\log m}{2^{\text{vc}(F)}} \cdot \frac{(ec)^{\text{vc}(F)}}{\varepsilon^{4 \cdot \text{vc}(F)}}\right)
\end{align}
$$&lt;/p&gt;
&lt;p&gt;Sử dụng cận $\alpha \log m \leq m^\alpha$ với $\alpha = 1/(2^{\text{vc}(F)})$:
$$
\begin{equation}
\leq m^{1/2} \cdot \left(\frac{(2ec)^{\text{vc}(F)}}{\varepsilon^{4 \cdot \text{vc}(F)}}\right).
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Vậy ta được:
$$
\begin{equation}
m \leq \left(\frac{(2ec)^{\text{vc}(F)}}{\varepsilon^{8 \cdot \text{vc}(F)}}\right),
\end{equation}
$$
điều này cung cấp một cận trên cho số phủ.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;h3 class="heading" id="22-tốc-độ-glivenko-cantelli-đồng-đều-uniform-glivenko-cantelli-rates"&gt;
 2.2 Tốc độ Glivenko-Cantelli đồng đều (Uniform Glivenko-Cantelli rates)&lt;span class="heading__anchor"&gt; &lt;a href="#22-t%e1%bb%91c-%c4%91%e1%bb%99-glivenko-cantelli-%c4%91%e1%bb%93ng-%c4%91%e1%bb%81u-uniform-glivenko-cantelli-rates"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h3&gt;&lt;p&gt;Chúng ta có thể đưa ra tốc độ hiệu quả cho định lý Glivenko-Cantelli đối với bất kỳ lớp tập hợp nào có chiều VC hữu hạn. Dưới đây là một bổ đề đối xứng hóa mà chúng ta sẽ không chứng minh.&lt;/p&gt;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Bổ đề 2.2.1 (Bổ đề Đối xứng hóa và chuỗi - Symmetrization and chaining): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;$$
\begin{equation}
\mathbb{E}\left[\sup_ {S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_ S(X_ i) - P_ \mu(S)\right|\right] \lesssim \frac{1}{\sqrt{n}} \cdot \mathbb{E}\left[\int_0^1 \sqrt{\log N(F, |\cdot|_ {L^2(\mu_n)}, \varepsilon)} , d\varepsilon\right],
\end{equation}
$$
trong đó $\mu_n := \frac{1}{n}\sum_{i=1}^{n} \delta_{X_i}$ là phân phối thực nghiệm của dữ liệu $X_1, \ldots, X_n$.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: dodgerblue 2px solid;"&gt;&lt;span style="color:dodgerblue"&gt;&lt;b&gt; Định lý 2.2.1 (Định lý Tốc độ Glivenko-Cantelli đồng đều - Uniform Glivenko-Cantelli rates): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Tồn tại một hằng số phổ quát $L$ sao cho với bất kỳ phân phối $\mu$ nào trên $\Omega$ và một tập hợp $F$ các tập con của $\Omega$:
$$
\begin{equation}
\mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] \leq L\sqrt{\frac{\text{vc}(F)}{n}}.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: violet 2px solid;"&gt;&lt;span style="color:violet"&gt;&lt;b&gt; Ghi chú 2.2.1: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Điều này cung cấp các kết quả kiểu Glivenko-Cantelli $L^1$ áp dụng bất kể phân phối $\mu$ nào được chọn, miễn là chiều VC của $F$ là hữu hạn. Nó cũng cung cấp một tốc độ hội tụ rõ ràng của sai số, $1/\sqrt{n}$, mà chỉ tỷ lệ với chiều VC như một hệ số không đổi.&lt;/p&gt;
&lt;p&gt;Nếu $F$ chỉ là một tập duy nhất $S$, thì cận cho chúng ta tốc độ thông thường của Định lý giới hạn trung tâm. Vì vậy để hội tụ đồng đều trên $F$, chúng ta chỉ phải trả giá của một hệ số không đổi: chiều VC.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: green 2px solid;"&gt;&lt;span style="color:green"&gt;&lt;b&gt; Chứng minh: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Sử dụng đối xứng hóa và sau đó là định lý trước đó:
$$
\begin{align}
\mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] &amp;amp;\lesssim \frac{1}{\sqrt{n}} \cdot \mathbb{E}\left[\int_0^1 \sqrt{\log N(F, |\cdot|_{L^2(\mu_n)}, \varepsilon)} , d\varepsilon\right]\
&amp;amp;\leq \sqrt{\frac{\text{vc}(F)}{n}} \cdot \sqrt{K} \cdot \int_0^1 \sqrt{\log(K/\varepsilon)} , d\varepsilon.
\end{align}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;p&gt;Mặc dù đây là kết quả hội tụ $L^1$, chúng ta có thể sử dụng nó để thu được kết quả hội tụ hầu chắc chắn, giống với định lý Glivenko-Cantelli ban đầu.&lt;/p&gt;
&lt;div style="padding: 6px; border: purple 2px solid;"&gt;&lt;span style="color:purple"&gt;&lt;b&gt; Hệ quả 2.2.1 (Glivenko-Cantelli cho các lớp VC hữu hạn - Glivenko-Cantelli for finite VC classes): &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Cho $\mu$ là một phân phối trên $\Omega$, cho $X_1, X_2, \ldots \stackrel{iid}{\sim} \mu$, và cho $F$ là một tập hợp các tập con của $\Omega$ với $\text{vc}(F) &amp;lt; \infty$. Khi $n \rightarrow \infty$:
$$
\begin{equation}
\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| \stackrel{a.s.}{\longrightarrow} 0.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: green 2px solid;"&gt;&lt;span style="color:green"&gt;&lt;b&gt; Chứng minh: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Với $n$ đủ lớn:
$$
\begin{align}
P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| &amp;gt; \varepsilon\right) &amp;amp;\leq P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| - \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] &amp;gt; \frac{\varepsilon}{2}\right)
\end{align}
$$&lt;/p&gt;
&lt;p&gt;Theo bất đẳng thức sai biệt bị chặn:
$$
\begin{equation}
\leq \exp(-c\varepsilon^2n),
\end{equation}
$$
trong đó $c$ là một hằng số phổ quát. Theo bổ đề Borel-Cantelli:
$$
\begin{equation}
P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| &amp;gt; \varepsilon \text{ với vô hạn giá trị } n\right) = 0.
\end{equation}
$$&lt;/p&gt;
&lt;p&gt;Điều này đúng với mọi $\varepsilon &amp;gt; 0$, vì vậy:
$$
\begin{equation}
\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| \stackrel{a.s.}{\longrightarrow} 0.
\end{equation}
$$&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;div style="padding: 6px; border: violet 2px solid;"&gt;&lt;span style="color:violet"&gt;&lt;b&gt; Ghi chú 2.2.2: &lt;/b&gt;&lt;/span&gt; 
&lt;p&gt;Có thể chứng minh rằng nếu $\text{vc}(F) = \infty$, thì Định lý Glivenko-Cantelli không còn đúng.&lt;/p&gt;
&lt;/div&gt;
&amp;nbsp;
&lt;h2 class="heading" id="3-tài-liệu-tham-khảo"&gt;
 3. Tài liệu tham khảo&lt;span class="heading__anchor"&gt; &lt;a href="#3-t%c3%a0i-li%e1%bb%87u-tham-kh%e1%ba%a3o"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;[0] Bản gốc, &lt;a href="https://pillowmath.github.io/Expository%20Notes/VC-Dimension-and-Glivenko-Cantelli-Notes.pdf"&gt;The Glivenko-Cantelli Theorem and Introduction to VC Dimension&lt;/a&gt;, Daniel Raban.&lt;/p&gt;
&lt;p&gt;[1] G.B. Folland. Real Analysis: Modern Techniques and Their Applications. Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts. Wiley, 2013.&lt;/p&gt;
&lt;p&gt;[2] Roman Vershynin. High-Dimensional Probability: An Introduction with Applications in Data Science. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2018.&lt;/p&gt;
&lt;p&gt;[3] Ramon van Handel. Probability in high dimension. Technical report, PRINCETON UNIV NJ, 2014.&lt;/p&gt;
&lt;p&gt;[4] Martin J. Wainwright. High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2019.&lt;/p&gt;</description></item></channel></rss>