Vapnik–Chervonenkis (VC) Dimension

Thu, 03 Apr 2025 00:00:00 +0000

1. Chiều Vapnik–Chervonenkis (VC) #

Để suy rộng Định lý Glivenko-Cantelli cho nhiều thiết lập hơn, ta phát biểu lại định lý theo cách sau:

Định lý 1.1:

Cho $I = {(-\infty, a] : a \in \mathbb{R}}$. Khi $n \rightarrow \infty$, ta có:

$$ \begin{equation} \sup_{S \in I} \left| \frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S) \right| \stackrel{a.s.}{\longrightarrow} 0. \end{equation} $$

Ta muốn xem xét các tập $S$ khác nằm bên ngoài các khoảng. Tuy nhiên, sau đây là một ví dụ về một lớp các tập đo (class of measurable sets) được mà định lý không áp dụng được.

Ví dụ 1.1:

Cho $F$ là tập hợp các tập con hữu hạn của $\mathbb{R}$, và cho $\mu$ là một phân phối không có nguyên tử (ví dụ: phân phối đều trên $[0,1]$). Sau đó, nếu ta đặt $S_n = {X_1, \ldots, X_n}$, ta có:

$$ \begin{equation} \left| \frac{1}{n}\sum_{i=1}^{n}1_{S_n}(X_i) - P_\mu(S_n) \right| = |1 - 0| = 1 \end{equation} $$ cho mỗi $n$. Vì vậy, trong tình huống này, ta có:

$$ \begin{equation} \sup_{S \in F} \left| \frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S) \right| = 1 \end{equation} $$ với mọi $n$, và sự hội tụ về $0$ không xảy ra.

Ví dụ này cho thấy một số tập hợp có thể quá lớn để mà có thể áp dụng được kết quả của Định lý Glivenko-Cantelli. Nếu chúng ta bao gồm nhiều tập hơn nữa, ta xem xét ví dụ sau:

Ví dụ 1.2:

Cho $F$ là $\sigma$-đại số Borel trên $\mathbb{R}$. Khi đó kết quả của Định lý Glivenko-Cantelli yêu cầu: $$ \begin{equation} |\mu_n - \mu| _{TV} \stackrel{a.s.}{\longrightarrow} 0, \end{equation} $$ trong đó $\mu _n = \frac{1}{n}\sum _{i=1}^{n}\delta _{X _i}$ là phân phối thực nghiệm (empirical distribution measure).

Giải pháp cho vấn đề này, được giới thiệu bởi Vapnik và Chervonenkis, là đưa ra một “chiều” tổ hợp cho lớp $F$ các tập hợp. Khái niệm này sẽ giúp chúng ta xác định loại tập nào thỏa mãn kết quả kiểu Glivenko-Cantelli và tốc độ hội tụ nhanh như thế nào.

Định nghĩa 1.1:

Cho $F$ là một tập hợp các tập con của không gian $\Omega$. Ta nói rằng $F$ chia nhỏ (shatters) một tập $T$ nếu với mọi $U \subseteq T$, tồn tại một $S \in F$ sao cho $S \cap T = U$. Chiều VC (ký hiệu $\text{vc}(F)$) là lực lượng lớn nhất của một tập bị chia nhỏ bởi $F$.

Chiều VC là số lượng điểm lớn nhất mà $F$ có thể phân biệt tất cả các tập con có thể có của các điểm đó.

Ví dụ 1.3:

Cho $I = {(-\infty, a] : a \in \mathbb{R}}$, như trước. Nếu $T = {0}$, thì $(-\infty, -1] \cap T = \emptyset$ và $(-\infty, 1] \cap T = T$, vì vậy $I$ chia nhỏ $T$.

Mặt khác, với bất kỳ tập hai điểm $T = {x, y}$ nào với $x < y$, thì $I$ không thể chọn ra tập ${y} \subseteq T$. Vì vậy $I$ không thể chia nhỏ bất kỳ tập nào có ít nhất hai điểm, và ta có $\text{vc}(I) = 1$.

Ví dụ 1.4:

Cho $F = {(a, b) : a, b \in \mathbb{R}}$ là tập hợp các khoảng mở có độ dài hữu hạn. $F$ có thể chia nhỏ tập $T = {0, 1}$: $$ \begin{align*} (-1, 0) \cap T &= \emptyset\\ (-1/2, 1/2) \cap T &= {0}\\ (1/2, 3/2) \cap T &= {1}\\ (-1, 2) \cap T &= T \end{align*} $$

Tuy nhiên, $F$ không thể chia nhỏ bất kỳ tập nào chứa ít nhất ba điểm. Nếu $x < y < z$, thì $F$ không thể chọn ra ${x, z}$. Vì vậy $\text{vc}(F) = 2$.

Ví dụ 1.5:

Cho $F$ là tập hợp các hình chữ nhật (song song với trục) trong $\mathbb{R}^2$. Khi đó $\text{vc}(F) = 4$.

Ví dụ trước đây không thỏa mãn định lý Glivenko-Cantelli có chiều VC vô hạn:

Ví dụ 1.6:

Cho $F$ là tập hợp các tập con hữu hạn của $\mathbb{R}$. Khi đó $F$ chia nhỏ bất kỳ tập hữu hạn $T$ nào vì với mọi $J \subseteq T$, ta có $J \in F$ và $J \cap T = J$. Vì vậy $\text{vc}(F)$ là vô hạn.

2. Ứng dụng của Chiều VC #

Trong nửa đầu của phần này, chúng ta chứng minh một số mối quan hệ giữa chiều VC và các khái niệm khác về kích thước. Trong nửa sau, chúng ta sử dụng những mối quan hệ này để cung cấp một chứng minh tổng quát của Định lý Glivenko-Cantelli cho nhiều lớp $F$ khác nhau.

2.1 Liên hệ chiều VC với các khái niệm kích thước khác #

Chúng ta bắt đầu phần này bằng việc thảo luận trường hợp $F$ là hữu hạn. Nếu $F$ là một tập hợp hữu hạn các tập con của $\Omega = {x_1, \ldots, x_n}$, thì có một mối quan hệ thú vị giữa $\text{vc}(F)$ và $|F|$. Đầu tiên, ta có $|F| \geq 2^{\text{vc}(F)}$ vì vế phải là kích thước của tập hợp các phần tử của $F$ giao với $A$, trong đó $A$ là bất kỳ tập chia nhỏ cực đại nào.

Thực tế, chúng ta có thể chứng minh một cận trên:

Bổ đề 2.1.1 (Bổ đề Pajor):

Cho $F \subseteq \Omega = {x_1, \ldots, x_n}$, và ký hiệu $\text{SH}(F) = {A \subseteq \Omega : A \text{ bị chia nhỏ bởi } F}$ (bao gồm cả $\emptyset$). Khi đó: $$ \begin{equation} |F| \leq |\text{SH}(F)|. \end{equation} $$

Chứng minh:

Chứng minh bằng quy nạp theo $|\Omega|$. Khi $|\Omega| = 1$, chúng ta hoàn tất vì vế phải bao gồm tập rỗng. Giả sử bổ đề đúng cho $|\Omega| = n$. Với $|\Omega| = n + 1$, viết $\Omega = \Omega’ \cup {x_0}$, trong đó $|\Omega’| = n$. Ta có thể chia $F$ thành: $$ \begin{align} F_+ &= {S \in F : x_0 \in S}\\ F_- &= {S \in F : x_0 \notin S}. \end{align} $$

Theo giả thiết quy nạp: $$ \begin{equation} |F| = |F_+| + |F_-| \leq |\text{SH}(F_+)| + |\text{SH}(F_-)|. \end{equation} $$

Bây giờ chỉ cần chứng minh rằng $|\text{SH}(F)| \geq |\text{SH}(F_+)| + |\text{SH}(F_-)|$. Đầu tiên, nếu $A$ bị chia nhỏ bởi một trong hai tập $F_+, F_-$, thì nó bị chia nhỏ bởi $F$. Và nếu $A$ bị chia nhỏ bởi cả hai tập $F_+, F_-$, thì $A \cup {x_0}$ bị chia nhỏ bởi $F$ nhưng không bị chia nhỏ bởi $F_+$ hoặc $F_-$. Chứng minh hoàn tất.

Một cách phát biểu điều kiện để $F$ chia nhỏ ${x_1, \ldots, x_n}$ là:

$$ \begin{equation} |{S \cap {x_1, \ldots, x_n} : S \in F}| = 2^n. \end{equation} $$

Sử dụng Bổ đề Pajor, chúng ta có thể đưa ra một cận trên về số lượng mảnh mà ta nhận được nếu cố gắng chia nhỏ một tập lớn bằng $F$.

Bổ đề 2.1.2 (Bổ đề Sauer-Shelah):

Cho $x_1, \ldots, x_n \in \Omega$, và cho $F$ là một lớp các tập con của $\Omega$. Khi đó: $$ \begin{equation} |{S \cap {x_1, \ldots, x_n} : S \in F}| \leq \sum_{k=0}^{\text{vc}(F)} \binom{n}{k} \leq \left(\frac{en}{\text{vc}(F)}\right)^{\text{vc}(F)}. \end{equation} $$

Chứng minh:

Gọi tập hợp ở vế trái là $G$. Theo bổ đề Pajor, ta có: $$ \begin{equation} |G| \leq |{A \subseteq {x_1, \ldots, x_n} : A \text{ bị chia nhỏ bởi } G}|. \end{equation} $$

Nếu $A$ bị chia nhỏ bởi $G$, thì nó bị chia nhỏ bởi $F$, nên lực lượng của bất kỳ tập $A$ như vậy đều bị giới hạn: $|A| \leq \text{vc}(F)$. Vì vậy ta có: $$ \begin{equation} |G| \leq |{A \subseteq {x_1, \ldots, x_n} : |A| \leq \text{vc}(F)}| = \sum_{k=0}^{\text{vc}(F)} \binom{n}{k}, \end{equation} $$ chứng minh bất đẳng thức đầu tiên.

Bất đẳng thức thứ hai là kết quả của phép tính sau đây liên quan đến định lý nhị thức: Nếu $d \leq n$, thì: $$ \begin{equation} \sum_{k=0}^{d} \binom{n}{k} \leq \sum_{k=0}^{d} \binom{n}{k} \cdot \frac{d^{n-k}}{n^{n-k}} = \left(1 + \frac{d}{n}\right)^n \leq e^d \cdot \left(\frac{n}{d}\right)^d = \left(\frac{en}{d}\right)^d. \end{equation} $$

Định lý sau đây là đích đến của chúng ta trong phần này. Nó liên hệ chiều VC với một khái niệm kích thước khác, số phủ (covering number).

Định lý 2.1.1 (Định lý Dudley):

Cho $\mu$ là một phân phối trên $\Omega$, và cho $F$ là một tập hợp các tập con của $\Omega$. Tồn tại một hằng số phổ quát $K$ sao cho: $$ \begin{equation} N(F, |\cdot|_{L^2(\mu)}, \varepsilon) \leq \left(\frac{K}{\varepsilon}\right)^{K \cdot \text{vc}(F)} \end{equation} $$ với mọi $\varepsilon < 1$.

Ở đây, metric trên $F$ là $\rho(A, B) := |1_A - 1_B|_{L^2(\mu)}$.

Ghi chú 2.1.1:

Cận này độc lập với phân phối $\mu$, vì vậy chúng ta có thể lấy supremum của vế trái trên tất cả các phân phối xác suất $\mu$.

Cũng so sánh cận này về số phủ với số phủ của đơn vị cầu trong $\mathbb{R}^d$: $(1/\varepsilon)^d$. Điều này giúp giải thích tại sao chúng ta coi $\text{vc}(F)$ như một thước đo chiều.

Ý tưởng như sau: Số phủ và số đóng gói tương đương nhau, vì vậy chúng ta chỉ cần tập trung vào số đóng gói. Theo Luật số lớn mạnh, $|1_ A - 1_ B|_ {L^2(\mu)}$ có thể được xấp xỉ bằng $|1_A - 1_B|_{L^2(\mu_r)}$ với $r$ đủ lớn. Vì $\mu_r$ là rời rạc, ta có một đóng gói trong $L^2(\mu_r)$, thì tất cả các tập thuộc về đóng gói phải có giao khác nhau với ${X_1, \ldots, X_r}$ (miễn là $\varepsilon < 1/r$). Do đó, chúng ta có thể cận trên số đóng gói bằng cách đếm số lượng các giao này, điều này sẽ được thực hiện thông qua bổ đề Sauer-Shelah.

Bổ đề sau đây làm rõ giá trị $r$ mà chúng ta có thể sử dụng.

Bổ đề 2.1.3 (Bổ đề Trích xuất xác suất):

Cho $S_1, \ldots, S_m$ là các tập con của $\Omega$ sao cho $|1_ {S_ i} - 1_ {S_ j}|_ {L^2(\mu)} > \varepsilon$ với mọi $i \neq j$. Khi đó tồn tại $r \leq c\varepsilon^{-4}\log m$ điểm $x_ 1, \ldots, x_ r \in \Omega$ sao cho: $$ \begin{equation} |1_ {S_i} - 1_ {S_j}|_ {L^2(\mu_x)} > \varepsilon/2 \end{equation} $$ với mọi $i \neq j$. Ở đây, $\mu_x := \frac{1}{r}\sum_{k=1}^{r} \delta_{x_k}$ là phân phối thực nghiệm cho các điểm này, và $c$ là một hằng số phổ quát.

Chứng minh:

Cho $X_1, \ldots, X_r \stackrel{iid}{\sim} \mu$, và cho $\mu_r$ là độ đo thực nghiệm. Khi đó: $$ \begin{align} \mathbb{P}\left(|1_{S_i} - 1_{S_j}|^2_{L^2(\mu_r)} \leq \frac{\varepsilon^2}{4}\right) &\leq \mathbb{P}\left(|1_ {S_ i} - 1_{S_ j}|^2_ {L^2(\mu_r)} \leq |1_ {S_i} - 1_ {S_ j}|^2_ {L^2(\mu)} - \frac{3\varepsilon^2}{4}\right) \end{align} $$

$|1_{S_i} - 1_{S_j}|^2_{L^2(\mu)}$ là kỳ vọng của $|1_{S_i} - 1_{S_j}|^2_{L^2(\mu_r)}$, vì vậy sử dụng bất đẳng thức Azuma-Hoeffding: $$ \begin{equation} \leq e^{-r\varepsilon^4/15}. \end{equation} $$

Sử dụng nguyên lý union bound trên tất cả các $i \neq j$, ta có: $$ \begin{equation} \mathbb{P}\left(|1_{S_i} - 1_{S_j}|_{L^2(\mu_r)} > \frac{\varepsilon}{2} ; \forall i \neq j\right) \geq 1 - m^2e^{-r\varepsilon^4/15}. \end{equation} $$

Với $r > 30\varepsilon^{-4} \log m$, giá trị này $> 0$, do đó tồn tại một số điểm thỏa mãn điều kiện.

Bây giờ hãy chứng minh định lý Dudley.

Chứng minh:

Cho $S_1, \ldots, S_m$ là một đóng gói $\varepsilon$ cực đại của $(F, |\cdot|_ {L^2(\mu)})$. Theo bổ đề, ta có thể chọn $r \leq c\varepsilon^{-4}\log m$ điểm $x_1, \ldots, x_ r$ sao cho $S_1, \ldots, S_m$ là một đóng gói $\varepsilon/2$ của $(F, |\cdot|_ {L^2(\mu_x)})$. Ta có thể cận: $$ \begin{equation} m \leq |{S \cap {x_1, \ldots, x_r} : S \in F}| \end{equation} $$

Sử dụng bổ đề Sauer-Shelah: $$ \begin{align} &\leq \left(\frac{er}{\text{vc}(F)}\right)^{\text{vc}(F)} \leq \left(\frac{ec\log m}{\text{vc}(F)}\varepsilon^{-4}\right)^{\text{vc}(F)}\ &= 2^{\text{vc}(F)} \cdot \left(\frac{\log m}{2^{\text{vc}(F)}} \cdot \frac{(ec)^{\text{vc}(F)}}{\varepsilon^{4 \cdot \text{vc}(F)}}\right) \end{align} $$

Sử dụng cận $\alpha \log m \leq m^\alpha$ với $\alpha = 1/(2^{\text{vc}(F)})$: $$ \begin{equation} \leq m^{1/2} \cdot \left(\frac{(2ec)^{\text{vc}(F)}}{\varepsilon^{4 \cdot \text{vc}(F)}}\right). \end{equation} $$

Vậy ta được: $$ \begin{equation} m \leq \left(\frac{(2ec)^{\text{vc}(F)}}{\varepsilon^{8 \cdot \text{vc}(F)}}\right), \end{equation} $$ điều này cung cấp một cận trên cho số phủ.

2.2 Tốc độ Glivenko-Cantelli đồng đều (Uniform Glivenko-Cantelli rates) #

Chúng ta có thể đưa ra tốc độ hiệu quả cho định lý Glivenko-Cantelli đối với bất kỳ lớp tập hợp nào có chiều VC hữu hạn. Dưới đây là một bổ đề đối xứng hóa mà chúng ta sẽ không chứng minh.

Bổ đề 2.2.1 (Bổ đề Đối xứng hóa và chuỗi - Symmetrization and chaining):

$$ \begin{equation} \mathbb{E}\left[\sup_ {S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_ S(X_ i) - P_ \mu(S)\right|\right] \lesssim \frac{1}{\sqrt{n}} \cdot \mathbb{E}\left[\int_0^1 \sqrt{\log N(F, |\cdot|_ {L^2(\mu_n)}, \varepsilon)} , d\varepsilon\right], \end{equation} $$ trong đó $\mu_n := \frac{1}{n}\sum_{i=1}^{n} \delta_{X_i}$ là phân phối thực nghiệm của dữ liệu $X_1, \ldots, X_n$.

Định lý 2.2.1 (Định lý Tốc độ Glivenko-Cantelli đồng đều - Uniform Glivenko-Cantelli rates):

Tồn tại một hằng số phổ quát $L$ sao cho với bất kỳ phân phối $\mu$ nào trên $\Omega$ và một tập hợp $F$ các tập con của $\Omega$: $$ \begin{equation} \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] \leq L\sqrt{\frac{\text{vc}(F)}{n}}. \end{equation} $$

Ghi chú 2.2.1:

Điều này cung cấp các kết quả kiểu Glivenko-Cantelli $L^1$ áp dụng bất kể phân phối $\mu$ nào được chọn, miễn là chiều VC của $F$ là hữu hạn. Nó cũng cung cấp một tốc độ hội tụ rõ ràng của sai số, $1/\sqrt{n}$, mà chỉ tỷ lệ với chiều VC như một hệ số không đổi.

Nếu $F$ chỉ là một tập duy nhất $S$, thì cận cho chúng ta tốc độ thông thường của Định lý giới hạn trung tâm. Vì vậy để hội tụ đồng đều trên $F$, chúng ta chỉ phải trả giá của một hệ số không đổi: chiều VC.

Chứng minh:

Sử dụng đối xứng hóa và sau đó là định lý trước đó: $$ \begin{align} \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] &\lesssim \frac{1}{\sqrt{n}} \cdot \mathbb{E}\left[\int_0^1 \sqrt{\log N(F, |\cdot|_{L^2(\mu_n)}, \varepsilon)} , d\varepsilon\right]\ &\leq \sqrt{\frac{\text{vc}(F)}{n}} \cdot \sqrt{K} \cdot \int_0^1 \sqrt{\log(K/\varepsilon)} , d\varepsilon. \end{align} $$

Mặc dù đây là kết quả hội tụ $L^1$, chúng ta có thể sử dụng nó để thu được kết quả hội tụ hầu chắc chắn, giống với định lý Glivenko-Cantelli ban đầu.

Hệ quả 2.2.1 (Glivenko-Cantelli cho các lớp VC hữu hạn - Glivenko-Cantelli for finite VC classes):

Cho $\mu$ là một phân phối trên $\Omega$, cho $X_1, X_2, \ldots \stackrel{iid}{\sim} \mu$, và cho $F$ là một tập hợp các tập con của $\Omega$ với $\text{vc}(F) < \infty$. Khi $n \rightarrow \infty$: $$ \begin{equation} \sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| \stackrel{a.s.}{\longrightarrow} 0. \end{equation} $$

Chứng minh:

Với $n$ đủ lớn: $$ \begin{align} P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| > \varepsilon\right) &\leq P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| - \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] > \frac{\varepsilon}{2}\right) \end{align} $$

Theo bất đẳng thức sai biệt bị chặn: $$ \begin{equation} \leq \exp(-c\varepsilon^2n), \end{equation} $$ trong đó $c$ là một hằng số phổ quát. Theo bổ đề Borel-Cantelli: $$ \begin{equation} P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| > \varepsilon \text{ với vô hạn giá trị } n\right) = 0. \end{equation} $$

Điều này đúng với mọi $\varepsilon > 0$, vì vậy: $$ \begin{equation} \sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| \stackrel{a.s.}{\longrightarrow} 0. \end{equation} $$

Ghi chú 2.2.2:

Có thể chứng minh rằng nếu $\text{vc}(F) = \infty$, thì Định lý Glivenko-Cantelli không còn đúng.

3. Tài liệu tham khảo #

[0] Bản gốc, The Glivenko-Cantelli Theorem and Introduction to VC Dimension, Daniel Raban.

[1] G.B. Folland. Real Analysis: Modern Techniques and Their Applications. Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts. Wiley, 2013.

[2] Roman Vershynin. High-Dimensional Probability: An Introduction with Applications in Data Science. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2018.

[3] Ramon van Handel. Probability in high dimension. Technical report, PRINCETON UNIV NJ, 2014.

[4] Martin J. Wainwright. High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2019.

Machine Learning Theory on Lê Nhựt Nam

Vapnik–Chervonenkis (VC) Dimension

1. Chiều Vapnik–Chervonenkis (VC) #

2. Ứng dụng của Chiều VC #

2.1 Liên hệ chiều VC với các khái niệm kích thước khác #

2.2 Tốc độ Glivenko-Cantelli đồng đều (Uniform Glivenko-Cantelli rates) #

3. Tài liệu tham khảo #