Trang chủ on Lê Nhựt Nam

Vapnik–Chervonenkis (VC) Dimension

Thu, 03 Apr 2025 00:00:00 +0000

1. Chiều Vapnik–Chervonenkis (VC) #

Để suy rộng Định lý Glivenko-Cantelli cho nhiều thiết lập hơn, ta phát biểu lại định lý theo cách sau:

Định lý 1.1:

Cho $I = {(-\infty, a] : a \in \mathbb{R}}$. Khi $n \rightarrow \infty$, ta có:

$$ \begin{equation} \sup_{S \in I} \left| \frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S) \right| \stackrel{a.s.}{\longrightarrow} 0. \end{equation} $$

Ta muốn xem xét các tập $S$ khác nằm bên ngoài các khoảng. Tuy nhiên, sau đây là một ví dụ về một lớp các tập đo (class of measurable sets) được mà định lý không áp dụng được.

Ví dụ 1.1:

Cho $F$ là tập hợp các tập con hữu hạn của $\mathbb{R}$, và cho $\mu$ là một phân phối không có nguyên tử (ví dụ: phân phối đều trên $[0,1]$). Sau đó, nếu ta đặt $S_n = {X_1, \ldots, X_n}$, ta có:

$$ \begin{equation} \left| \frac{1}{n}\sum_{i=1}^{n}1_{S_n}(X_i) - P_\mu(S_n) \right| = |1 - 0| = 1 \end{equation} $$ cho mỗi $n$. Vì vậy, trong tình huống này, ta có:

$$ \begin{equation} \sup_{S \in F} \left| \frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S) \right| = 1 \end{equation} $$ với mọi $n$, và sự hội tụ về $0$ không xảy ra.

Ví dụ này cho thấy một số tập hợp có thể quá lớn để mà có thể áp dụng được kết quả của Định lý Glivenko-Cantelli. Nếu chúng ta bao gồm nhiều tập hơn nữa, ta xem xét ví dụ sau:

Ví dụ 1.2:

Cho $F$ là $\sigma$-đại số Borel trên $\mathbb{R}$. Khi đó kết quả của Định lý Glivenko-Cantelli yêu cầu: $$ \begin{equation} |\mu_n - \mu| _{TV} \stackrel{a.s.}{\longrightarrow} 0, \end{equation} $$ trong đó $\mu _n = \frac{1}{n}\sum _{i=1}^{n}\delta _{X _i}$ là phân phối thực nghiệm (empirical distribution measure).

Giải pháp cho vấn đề này, được giới thiệu bởi Vapnik và Chervonenkis, là đưa ra một “chiều” tổ hợp cho lớp $F$ các tập hợp. Khái niệm này sẽ giúp chúng ta xác định loại tập nào thỏa mãn kết quả kiểu Glivenko-Cantelli và tốc độ hội tụ nhanh như thế nào.

Định nghĩa 1.1:

Cho $F$ là một tập hợp các tập con của không gian $\Omega$. Ta nói rằng $F$ chia nhỏ (shatters) một tập $T$ nếu với mọi $U \subseteq T$, tồn tại một $S \in F$ sao cho $S \cap T = U$. Chiều VC (ký hiệu $\text{vc}(F)$) là lực lượng lớn nhất của một tập bị chia nhỏ bởi $F$.

Chiều VC là số lượng điểm lớn nhất mà $F$ có thể phân biệt tất cả các tập con có thể có của các điểm đó.

Ví dụ 1.3:

Cho $I = {(-\infty, a] : a \in \mathbb{R}}$, như trước. Nếu $T = {0}$, thì $(-\infty, -1] \cap T = \emptyset$ và $(-\infty, 1] \cap T = T$, vì vậy $I$ chia nhỏ $T$.

Mặt khác, với bất kỳ tập hai điểm $T = {x, y}$ nào với $x < y$, thì $I$ không thể chọn ra tập ${y} \subseteq T$. Vì vậy $I$ không thể chia nhỏ bất kỳ tập nào có ít nhất hai điểm, và ta có $\text{vc}(I) = 1$.

Ví dụ 1.4:

Cho $F = {(a, b) : a, b \in \mathbb{R}}$ là tập hợp các khoảng mở có độ dài hữu hạn. $F$ có thể chia nhỏ tập $T = {0, 1}$: $$ \begin{align*} (-1, 0) \cap T &= \emptyset\\ (-1/2, 1/2) \cap T &= {0}\\ (1/2, 3/2) \cap T &= {1}\\ (-1, 2) \cap T &= T \end{align*} $$

Tuy nhiên, $F$ không thể chia nhỏ bất kỳ tập nào chứa ít nhất ba điểm. Nếu $x < y < z$, thì $F$ không thể chọn ra ${x, z}$. Vì vậy $\text{vc}(F) = 2$.

Ví dụ 1.5:

Cho $F$ là tập hợp các hình chữ nhật (song song với trục) trong $\mathbb{R}^2$. Khi đó $\text{vc}(F) = 4$.

Ví dụ trước đây không thỏa mãn định lý Glivenko-Cantelli có chiều VC vô hạn:

Ví dụ 1.6:

Cho $F$ là tập hợp các tập con hữu hạn của $\mathbb{R}$. Khi đó $F$ chia nhỏ bất kỳ tập hữu hạn $T$ nào vì với mọi $J \subseteq T$, ta có $J \in F$ và $J \cap T = J$. Vì vậy $\text{vc}(F)$ là vô hạn.

2. Ứng dụng của Chiều VC #

Trong nửa đầu của phần này, chúng ta chứng minh một số mối quan hệ giữa chiều VC và các khái niệm khác về kích thước. Trong nửa sau, chúng ta sử dụng những mối quan hệ này để cung cấp một chứng minh tổng quát của Định lý Glivenko-Cantelli cho nhiều lớp $F$ khác nhau.

2.1 Liên hệ chiều VC với các khái niệm kích thước khác #

Chúng ta bắt đầu phần này bằng việc thảo luận trường hợp $F$ là hữu hạn. Nếu $F$ là một tập hợp hữu hạn các tập con của $\Omega = {x_1, \ldots, x_n}$, thì có một mối quan hệ thú vị giữa $\text{vc}(F)$ và $|F|$. Đầu tiên, ta có $|F| \geq 2^{\text{vc}(F)}$ vì vế phải là kích thước của tập hợp các phần tử của $F$ giao với $A$, trong đó $A$ là bất kỳ tập chia nhỏ cực đại nào.

Thực tế, chúng ta có thể chứng minh một cận trên:

Bổ đề 2.1.1 (Bổ đề Pajor):

Cho $F \subseteq \Omega = {x_1, \ldots, x_n}$, và ký hiệu $\text{SH}(F) = {A \subseteq \Omega : A \text{ bị chia nhỏ bởi } F}$ (bao gồm cả $\emptyset$). Khi đó: $$ \begin{equation} |F| \leq |\text{SH}(F)|. \end{equation} $$

Chứng minh:

Chứng minh bằng quy nạp theo $|\Omega|$. Khi $|\Omega| = 1$, chúng ta hoàn tất vì vế phải bao gồm tập rỗng. Giả sử bổ đề đúng cho $|\Omega| = n$. Với $|\Omega| = n + 1$, viết $\Omega = \Omega’ \cup {x_0}$, trong đó $|\Omega’| = n$. Ta có thể chia $F$ thành: $$ \begin{align} F_+ &= {S \in F : x_0 \in S}\\ F_- &= {S \in F : x_0 \notin S}. \end{align} $$

Theo giả thiết quy nạp: $$ \begin{equation} |F| = |F_+| + |F_-| \leq |\text{SH}(F_+)| + |\text{SH}(F_-)|. \end{equation} $$

Bây giờ chỉ cần chứng minh rằng $|\text{SH}(F)| \geq |\text{SH}(F_+)| + |\text{SH}(F_-)|$. Đầu tiên, nếu $A$ bị chia nhỏ bởi một trong hai tập $F_+, F_-$, thì nó bị chia nhỏ bởi $F$. Và nếu $A$ bị chia nhỏ bởi cả hai tập $F_+, F_-$, thì $A \cup {x_0}$ bị chia nhỏ bởi $F$ nhưng không bị chia nhỏ bởi $F_+$ hoặc $F_-$. Chứng minh hoàn tất.

Một cách phát biểu điều kiện để $F$ chia nhỏ ${x_1, \ldots, x_n}$ là:

$$ \begin{equation} |{S \cap {x_1, \ldots, x_n} : S \in F}| = 2^n. \end{equation} $$

Sử dụng Bổ đề Pajor, chúng ta có thể đưa ra một cận trên về số lượng mảnh mà ta nhận được nếu cố gắng chia nhỏ một tập lớn bằng $F$.

Bổ đề 2.1.2 (Bổ đề Sauer-Shelah):

Cho $x_1, \ldots, x_n \in \Omega$, và cho $F$ là một lớp các tập con của $\Omega$. Khi đó: $$ \begin{equation} |{S \cap {x_1, \ldots, x_n} : S \in F}| \leq \sum_{k=0}^{\text{vc}(F)} \binom{n}{k} \leq \left(\frac{en}{\text{vc}(F)}\right)^{\text{vc}(F)}. \end{equation} $$

Chứng minh:

Gọi tập hợp ở vế trái là $G$. Theo bổ đề Pajor, ta có: $$ \begin{equation} |G| \leq |{A \subseteq {x_1, \ldots, x_n} : A \text{ bị chia nhỏ bởi } G}|. \end{equation} $$

Nếu $A$ bị chia nhỏ bởi $G$, thì nó bị chia nhỏ bởi $F$, nên lực lượng của bất kỳ tập $A$ như vậy đều bị giới hạn: $|A| \leq \text{vc}(F)$. Vì vậy ta có: $$ \begin{equation} |G| \leq |{A \subseteq {x_1, \ldots, x_n} : |A| \leq \text{vc}(F)}| = \sum_{k=0}^{\text{vc}(F)} \binom{n}{k}, \end{equation} $$ chứng minh bất đẳng thức đầu tiên.

Bất đẳng thức thứ hai là kết quả của phép tính sau đây liên quan đến định lý nhị thức: Nếu $d \leq n$, thì: $$ \begin{equation} \sum_{k=0}^{d} \binom{n}{k} \leq \sum_{k=0}^{d} \binom{n}{k} \cdot \frac{d^{n-k}}{n^{n-k}} = \left(1 + \frac{d}{n}\right)^n \leq e^d \cdot \left(\frac{n}{d}\right)^d = \left(\frac{en}{d}\right)^d. \end{equation} $$

Định lý sau đây là đích đến của chúng ta trong phần này. Nó liên hệ chiều VC với một khái niệm kích thước khác, số phủ (covering number).

Định lý 2.1.1 (Định lý Dudley):

Cho $\mu$ là một phân phối trên $\Omega$, và cho $F$ là một tập hợp các tập con của $\Omega$. Tồn tại một hằng số phổ quát $K$ sao cho: $$ \begin{equation} N(F, |\cdot|_{L^2(\mu)}, \varepsilon) \leq \left(\frac{K}{\varepsilon}\right)^{K \cdot \text{vc}(F)} \end{equation} $$ với mọi $\varepsilon < 1$.

Ở đây, metric trên $F$ là $\rho(A, B) := |1_A - 1_B|_{L^2(\mu)}$.

Ghi chú 2.1.1:

Cận này độc lập với phân phối $\mu$, vì vậy chúng ta có thể lấy supremum của vế trái trên tất cả các phân phối xác suất $\mu$.

Cũng so sánh cận này về số phủ với số phủ của đơn vị cầu trong $\mathbb{R}^d$: $(1/\varepsilon)^d$. Điều này giúp giải thích tại sao chúng ta coi $\text{vc}(F)$ như một thước đo chiều.

Ý tưởng như sau: Số phủ và số đóng gói tương đương nhau, vì vậy chúng ta chỉ cần tập trung vào số đóng gói. Theo Luật số lớn mạnh, $|1_ A - 1_ B|_ {L^2(\mu)}$ có thể được xấp xỉ bằng $|1_A - 1_B|_{L^2(\mu_r)}$ với $r$ đủ lớn. Vì $\mu_r$ là rời rạc, ta có một đóng gói trong $L^2(\mu_r)$, thì tất cả các tập thuộc về đóng gói phải có giao khác nhau với ${X_1, \ldots, X_r}$ (miễn là $\varepsilon < 1/r$). Do đó, chúng ta có thể cận trên số đóng gói bằng cách đếm số lượng các giao này, điều này sẽ được thực hiện thông qua bổ đề Sauer-Shelah.

Bổ đề sau đây làm rõ giá trị $r$ mà chúng ta có thể sử dụng.

Bổ đề 2.1.3 (Bổ đề Trích xuất xác suất):

Cho $S_1, \ldots, S_m$ là các tập con của $\Omega$ sao cho $|1_ {S_ i} - 1_ {S_ j}|_ {L^2(\mu)} > \varepsilon$ với mọi $i \neq j$. Khi đó tồn tại $r \leq c\varepsilon^{-4}\log m$ điểm $x_ 1, \ldots, x_ r \in \Omega$ sao cho: $$ \begin{equation} |1_ {S_i} - 1_ {S_j}|_ {L^2(\mu_x)} > \varepsilon/2 \end{equation} $$ với mọi $i \neq j$. Ở đây, $\mu_x := \frac{1}{r}\sum_{k=1}^{r} \delta_{x_k}$ là phân phối thực nghiệm cho các điểm này, và $c$ là một hằng số phổ quát.

Chứng minh:

Cho $X_1, \ldots, X_r \stackrel{iid}{\sim} \mu$, và cho $\mu_r$ là độ đo thực nghiệm. Khi đó: $$ \begin{align} \mathbb{P}\left(|1_{S_i} - 1_{S_j}|^2_{L^2(\mu_r)} \leq \frac{\varepsilon^2}{4}\right) &\leq \mathbb{P}\left(|1_ {S_ i} - 1_{S_ j}|^2_ {L^2(\mu_r)} \leq |1_ {S_i} - 1_ {S_ j}|^2_ {L^2(\mu)} - \frac{3\varepsilon^2}{4}\right) \end{align} $$

$|1_{S_i} - 1_{S_j}|^2_{L^2(\mu)}$ là kỳ vọng của $|1_{S_i} - 1_{S_j}|^2_{L^2(\mu_r)}$, vì vậy sử dụng bất đẳng thức Azuma-Hoeffding: $$ \begin{equation} \leq e^{-r\varepsilon^4/15}. \end{equation} $$

Sử dụng nguyên lý union bound trên tất cả các $i \neq j$, ta có: $$ \begin{equation} \mathbb{P}\left(|1_{S_i} - 1_{S_j}|_{L^2(\mu_r)} > \frac{\varepsilon}{2} ; \forall i \neq j\right) \geq 1 - m^2e^{-r\varepsilon^4/15}. \end{equation} $$

Với $r > 30\varepsilon^{-4} \log m$, giá trị này $> 0$, do đó tồn tại một số điểm thỏa mãn điều kiện.

Bây giờ hãy chứng minh định lý Dudley.

Chứng minh:

Cho $S_1, \ldots, S_m$ là một đóng gói $\varepsilon$ cực đại của $(F, |\cdot|_ {L^2(\mu)})$. Theo bổ đề, ta có thể chọn $r \leq c\varepsilon^{-4}\log m$ điểm $x_1, \ldots, x_ r$ sao cho $S_1, \ldots, S_m$ là một đóng gói $\varepsilon/2$ của $(F, |\cdot|_ {L^2(\mu_x)})$. Ta có thể cận: $$ \begin{equation} m \leq |{S \cap {x_1, \ldots, x_r} : S \in F}| \end{equation} $$

Sử dụng bổ đề Sauer-Shelah: $$ \begin{align} &\leq \left(\frac{er}{\text{vc}(F)}\right)^{\text{vc}(F)} \leq \left(\frac{ec\log m}{\text{vc}(F)}\varepsilon^{-4}\right)^{\text{vc}(F)}\ &= 2^{\text{vc}(F)} \cdot \left(\frac{\log m}{2^{\text{vc}(F)}} \cdot \frac{(ec)^{\text{vc}(F)}}{\varepsilon^{4 \cdot \text{vc}(F)}}\right) \end{align} $$

Sử dụng cận $\alpha \log m \leq m^\alpha$ với $\alpha = 1/(2^{\text{vc}(F)})$: $$ \begin{equation} \leq m^{1/2} \cdot \left(\frac{(2ec)^{\text{vc}(F)}}{\varepsilon^{4 \cdot \text{vc}(F)}}\right). \end{equation} $$

Vậy ta được: $$ \begin{equation} m \leq \left(\frac{(2ec)^{\text{vc}(F)}}{\varepsilon^{8 \cdot \text{vc}(F)}}\right), \end{equation} $$ điều này cung cấp một cận trên cho số phủ.

2.2 Tốc độ Glivenko-Cantelli đồng đều (Uniform Glivenko-Cantelli rates) #

Chúng ta có thể đưa ra tốc độ hiệu quả cho định lý Glivenko-Cantelli đối với bất kỳ lớp tập hợp nào có chiều VC hữu hạn. Dưới đây là một bổ đề đối xứng hóa mà chúng ta sẽ không chứng minh.

Bổ đề 2.2.1 (Bổ đề Đối xứng hóa và chuỗi - Symmetrization and chaining):

$$ \begin{equation} \mathbb{E}\left[\sup_ {S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_ S(X_ i) - P_ \mu(S)\right|\right] \lesssim \frac{1}{\sqrt{n}} \cdot \mathbb{E}\left[\int_0^1 \sqrt{\log N(F, |\cdot|_ {L^2(\mu_n)}, \varepsilon)} , d\varepsilon\right], \end{equation} $$ trong đó $\mu_n := \frac{1}{n}\sum_{i=1}^{n} \delta_{X_i}$ là phân phối thực nghiệm của dữ liệu $X_1, \ldots, X_n$.

Định lý 2.2.1 (Định lý Tốc độ Glivenko-Cantelli đồng đều - Uniform Glivenko-Cantelli rates):

Tồn tại một hằng số phổ quát $L$ sao cho với bất kỳ phân phối $\mu$ nào trên $\Omega$ và một tập hợp $F$ các tập con của $\Omega$: $$ \begin{equation} \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] \leq L\sqrt{\frac{\text{vc}(F)}{n}}. \end{equation} $$

Ghi chú 2.2.1:

Điều này cung cấp các kết quả kiểu Glivenko-Cantelli $L^1$ áp dụng bất kể phân phối $\mu$ nào được chọn, miễn là chiều VC của $F$ là hữu hạn. Nó cũng cung cấp một tốc độ hội tụ rõ ràng của sai số, $1/\sqrt{n}$, mà chỉ tỷ lệ với chiều VC như một hệ số không đổi.

Nếu $F$ chỉ là một tập duy nhất $S$, thì cận cho chúng ta tốc độ thông thường của Định lý giới hạn trung tâm. Vì vậy để hội tụ đồng đều trên $F$, chúng ta chỉ phải trả giá của một hệ số không đổi: chiều VC.

Chứng minh:

Sử dụng đối xứng hóa và sau đó là định lý trước đó: $$ \begin{align} \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] &\lesssim \frac{1}{\sqrt{n}} \cdot \mathbb{E}\left[\int_0^1 \sqrt{\log N(F, |\cdot|_{L^2(\mu_n)}, \varepsilon)} , d\varepsilon\right]\ &\leq \sqrt{\frac{\text{vc}(F)}{n}} \cdot \sqrt{K} \cdot \int_0^1 \sqrt{\log(K/\varepsilon)} , d\varepsilon. \end{align} $$

Mặc dù đây là kết quả hội tụ $L^1$, chúng ta có thể sử dụng nó để thu được kết quả hội tụ hầu chắc chắn, giống với định lý Glivenko-Cantelli ban đầu.

Hệ quả 2.2.1 (Glivenko-Cantelli cho các lớp VC hữu hạn - Glivenko-Cantelli for finite VC classes):

Cho $\mu$ là một phân phối trên $\Omega$, cho $X_1, X_2, \ldots \stackrel{iid}{\sim} \mu$, và cho $F$ là một tập hợp các tập con của $\Omega$ với $\text{vc}(F) < \infty$. Khi $n \rightarrow \infty$: $$ \begin{equation} \sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| \stackrel{a.s.}{\longrightarrow} 0. \end{equation} $$

Chứng minh:

Với $n$ đủ lớn: $$ \begin{align} P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| > \varepsilon\right) &\leq P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| - \mathbb{E}\left[\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right|\right] > \frac{\varepsilon}{2}\right) \end{align} $$

Theo bất đẳng thức sai biệt bị chặn: $$ \begin{equation} \leq \exp(-c\varepsilon^2n), \end{equation} $$ trong đó $c$ là một hằng số phổ quát. Theo bổ đề Borel-Cantelli: $$ \begin{equation} P_\mu\left(\sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| > \varepsilon \text{ với vô hạn giá trị } n\right) = 0. \end{equation} $$

Điều này đúng với mọi $\varepsilon > 0$, vì vậy: $$ \begin{equation} \sup_{S \in F} \left|\frac{1}{n}\sum_{i=1}^{n}1_S(X_i) - P_\mu(S)\right| \stackrel{a.s.}{\longrightarrow} 0. \end{equation} $$

Ghi chú 2.2.2:

Có thể chứng minh rằng nếu $\text{vc}(F) = \infty$, thì Định lý Glivenko-Cantelli không còn đúng.

3. Tài liệu tham khảo #

[0] Bản gốc, The Glivenko-Cantelli Theorem and Introduction to VC Dimension, Daniel Raban.

[1] G.B. Folland. Real Analysis: Modern Techniques and Their Applications. Pure and Applied Mathematics: A Wiley Series of Texts, Monographs and Tracts. Wiley, 2013.

[2] Roman Vershynin. High-Dimensional Probability: An Introduction with Applications in Data Science. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2018.

[3] Ramon van Handel. Probability in high dimension. Technical report, PRINCETON UNIV NJ, 2014.

[4] Martin J. Wainwright. High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2019.

Định lý Biểu diễn Riesz

Tue, 01 Apr 2025 00:00:00 +0000

1. Định lý Biểu diễn Riesz #

Cho $H$ là một không gian Hilbert trên $\mathbb{R}$ hoặc $\mathbb{C}$, và $T$ là một phiếm hàm tuyến tính bị chặn trên $H$ (một toán tử bị chặn từ $H$ đến trường $\mathbb{R}$ hoặc $\mathbb{C}$, mà $H$ được định nghĩa trên đó). Sau đây được gọi là Định lý Biểu diễn Riesz:

Định lý 1:

Nếu $T$ là một phiếm hàm tuyến tính bị chặn trên không gian Hilbert $H$ thì tồn tại $g \in H$ sao cho với mọi $f \in H$, ta có: $$T(f) = \langle f, g \rangle.$$

Hơn nữa, $|T| = |g|$ (ở đây $|T|$ biểu thị chuẩn toán tử của $T$, trong khi $|g|$ là chuẩn không gian Hilbert của $g$).

Bây giờ, ta chứng minh Định lý này.

Chứng minh:

Giả sử rằng $H$ là khả li cho bây giờ. Việc chứng minh cho bất kỳ không gian Hilbert nào cũng không khó hơn nhiều, nhưng trường hợp khả li sử dụng một cách tốt các ý tưởng mà chúng ta đã phát triển liên quan đến phân tích Fourier. Ngoài ra, ta chỉ làm việc trên $\mathbb{R}$.

Vì $H$ là khả li, ta có thể chọn một cơ sở trực chuẩn $\phi_j$, $j \geq 1$, cho $H$. Cho $T$ là một phiếm hàm tuyến tính bị chặn và đặt $a_j = T(\phi_j)$. Chọn $f \in H$, đặt $c_j = \langle f, \phi_j \rangle$, và định nghĩa $$f_n = \sum_{j=1}^{n} c_j\phi_j.$$

Vì các $\phi_j$ tạo thành một cơ sở, ta biết rằng $|f - f_n| \to 0$ khi $n \to \infty$.

Vì $T$ là tuyến tính, ta có: $$T(f_n) = \sum_{j=1}^{n} a_j c_j. \tag{1}$$

Vì $T$ bị chặn, giả sử với chuẩn $|T| < \infty$, ta có: $$|T(f) - T(f_n)| \leq |T||f - f_n|. \tag{2}$$

Bởi vì $|f - f_n| \to 0$ khi $n \to \infty$, ta kết luận từ phương trình (1) và (2) rằng: $$T(f) = \lim_{n\to\infty}T(f_n) = \sum_{j=1}^{\infty} a_j c_j. \tag{3}$$

Thực tế, dãy $a_j$ phải là bình phương khả tổng. Để thấy điều này, trước tiên lưu ý rằng vì $|T(f)| \leq |T||f|$, ta có: $$\left|\sum_{j=1}^{\infty} c_ja_j\right| \leq |T|\left(\sum_{j=1}^{\infty} c_j^2\right)^{1/2}. \tag{4}$$

Phương trình (4) phải đúng với mọi dãy bình phương khả tổng $c_j$ (vì bất kỳ $c_j$ như vậy tương ứng với một phần tử nào đó trong $H$). Cố định một số nguyên dương $N$ và định nghĩa dãy $c_j = a_j$ với $j \leq N$, $c_j = 0$ với $j > N$. Rõ ràng dãy như vậy là bình phương khả tổng và phương trình (4) cho ta: $$\left|\sum_{j=1}^{N} a_j^2\right| \leq |T|\left(\sum_{j=1}^{N} a_j^2\right)^{1/2}$$

hoặc

$$\left(\sum_{j=1}^{N} a_j^2\right)^{1/2} \leq |T|. \tag{5}$$

Vì vậy $a_j$ là bình phương khả tổng, vì dãy các tổng riêng bị chặn trên.

Vì $a_j$ là bình phương khả tổng, hàm $g = \sum_{j} a_j\phi_j$ được định nghĩa tốt như một phần tử của $H$, và $T(f) = \sum_{j} a_j c_j = \langle f, g \rangle$. Cuối cùng, phương trình (5) làm rõ rằng $|g| \leq |T|$. Nhưng từ bất đẳng thức Cauchy-Schwarz, ta cũng có $|T(f)| = |\langle f, g \rangle| \leq |f||g|$ hoặc $\frac{|T(f)|}{|f|} \leq |g|$, hàm ý $|T| \leq |g|$, vì vậy $|T| = |g|$. Chứng minh hoàn tất.

2. Ứng dụng vào PDE #

Ví dụ này minh họa cách các phương pháp phân tích hàm được sử dụng trong PDE (mặc dù ví dụ dành cho ODE). Xét ODE: $$-f’’(x) + b(x)f(x) = q(x) \tag{6}$$

trên khoảng $0 < x < 1$, với $b(x) \geq \delta > 0$ cho một $\delta$ nào đó; giả sử hàm $b$ và $q$ là liên tục trên $[0, 1]$. Ta muốn tìm một nghiệm cho phương trình (6) với $f’(0) = f’(1) = 0$ (các điều kiện biên khác cũng có thể được áp dụng). Nếu ta nhân (6) với một hàm $C^1$ là $\phi$ và tích phân thành phần thứ nhất, $-f’’\phi$ bằng phép tích phân từng phần từ $x = 0$ đến $x = 1$, ta thu được: $$\int_0^1 (f’(x)\phi’(x) + b(x)f(x)\phi(x)),dx = \int_0^1 q(x)\phi(x),dx. \tag{7}$$

Phương trình (7) phải đúng với mọi $\phi \in C^1([0, 1])$, nếu $f$ là một nghiệm $C^2(0, 1)$ của phương trình (6) liên tục trên $[0, 1]$. Ngược lại, nếu với một hàm $C^2$ là $f$, ta thấy rằng (7) đúng với mọi $\phi$, thì $f$ phải là một nghiệm của phương trình (6), vì nếu ta “hoàn nguyên” phép tích phân từng phần trong (7), ta thu được: $$\phi(1)f’(1) - \phi(0)f’(0) + \phi(x)(-f’’(x) + b(x)f(x)) = \phi(x)q(x)$$ cho mọi $\phi$.

Một lập luận PDE quen thuộc sau đó chỉ ra rằng $f’(0) = f’(1) = 0$ và phương trình (6) phải đúng.

Ta sẽ chỉ ra rằng có một nghiệm duy nhất cho phương trình (7). “Nghiệm” như vậy không nhất thiết phải khả vi hai lần như yêu cầu của phương trình (6), nhưng nó sẽ thỏa mãn phương trình (7). Phương trình (7) thường được gọi là dạng “yếu” của bài toán.

Định nghĩa một tích vô hướng: $$\langle g, h \rangle = \int_0^1 (g’(x)h’(x) + b(x)g(x)h(x)),dx$$

trên không gian $C^1([0, 1])$, và cho $H$ biểu thị sự hoàn chỉnh của không gian này. Đây về cơ bản là thủ tục được sử dụng trên bài toán thứ ba của bài kiểm tra đầu tiên; sự hiện diện của $b(x)$ không tạo ra sự khác biệt. (Lưu ý rằng ta phải sử dụng $b \geq \delta > 0$ để đảm bảo rằng $\langle\cdot, \cdot\rangle$ thực sự là một tích vô hướng, sao cho $|g| = \sqrt{\langle g, g \rangle} = 0$ khi và chỉ khi $g \equiv 0$). Không gian $H$ là một không gian Hilbert, và có thể được hiểu (nếu cần) như một không gian con của $C([0, 1])$.

Định nghĩa một phiếm hàm $T : H \to \mathbb{R}$ bởi: $$T(\phi) = \int_0^1 q(x)\phi(x),dx$$

Bạn có thể dễ dàng kiểm tra rằng $T$ bị chặn trên $H$ (sử dụng Cauchy-Schwarz). Từ Định lý Biểu diễn Riesz, suy ra rằng phải tồn tại một hàm $f \in H$ sao cho: $$T(\phi) = \langle f, \phi \rangle$$

với mọi $\phi \in H$. Đây chính xác là phương trình (7), dạng yếu của ODE!

Hàm $f$ thỏa mãn phương trình (7) nằm trong $H$. Với các điều kiện trên $b$ (đặc biệt, $b \geq \delta > 0$ và $|b|_\infty < \infty$ vì $b \in C([0, 1])$), hàm $f$ nằm trong cùng không gian được định nghĩa trong bài toán thứ ba của bài kiểm tra đầu tiên. Cụ thể, $f$ là một hàm liên tục. Để chứng minh rằng $f$ thực sự khả vi hai lần đòi hỏi nhiều công việc hơn, cùng với các giả định về hàm $q$.

Tài liệu tham khảo #

[1] (Bản gốc) The Riesz Representation Theorem, MA 466, Kurt Bryan

Định lý Glivenko-Cantelli

Tue, 01 Apr 2025 00:00:00 +0000

1. Động lực #

Trong hầu hết thiết lập thống kê chung, chúng ta có một phân phối xác suất chưa biết $\mu$, và chúng ta cố gắng ước lượng các đặc tính của nó bằng cách lấy các mẫu độc lập (independent), đồng phân phối (identically distributed samples) $X_1, X_2, \ldots, X_n$ với phân phối $\mu$ (viết là $X_i \sim \mu$). Hy vọng là khi chúng ta lấy đủ số lượng mẫu ($n \to \infty$), chúng ta có thể khôi phục các đặc tính của phân phối $\mu$. Ví dụ, Luật số lớn mạnh (Strong Law of Large Numbers) phát biểu rằng, với xác suất bằng 1, trung bình mẫu của dữ liệu của chúng ta hội tụ đến trung bình thực của phân phối (true average of the distribution) $\mu$:

$$ \mathbb{P} _\mu \left( \lim _{n\to\infty} \frac{1}{n} \sum _{i=1}^n X_i = \mathbb{E} _\mu[X_1] \right) = 1. $$

Định lý này cũng đúng cho bất kỳ hàm $f(X_i)$ nào của dữ liệu của chúng ta, miễn là $\mathbb{E}[|f(X_1)|] < \infty$.

Theo trực giác, hy vọng và giả định chung của thống kê là có thể ước lượng nhất quán bất kỳ đặc tính nào của phân phối $\mu$. Một phân phối $\mu$ trên $\mathbb{R}$ xác định một hàm phân phối tích lũy (cumulative distribution function - CDF) $$ F_\mu(t) := \mathbb{P}_\mu(X \leq t). $$

CDF cũng xác định duy nhất phân phối mà nó phát sinh từ đó. Chúng ta có $\mu((a, b]) = F_\mu(b) - F_\mu(a)$, điều này xác định giá trị của $\mu$ theo cấu trúc đo ngoài Carathéodory (Carathéodory outer measure construction). Vì vậy, nếu chúng ta có thể ước lượng nhất quán $F_\mu$ với dữ liệu $X_1, \ldots, X_n$ khi $n \to \infty$, chúng ta sẽ có thể ước lượng bất kỳ đặc tính nào của phân phối $\mu$. Định lý Glivenko-Cantelli nói rằng việc ước lượng toàn bộ phân phối này thực sự là khả thi.

2. Phát biểu Định lý Glivenko-Cantelli #

Đầu tiên, chúng ta đề cập đến bộ ước lượng của $F_\mu$ nên là gì.

Định nghĩa 2.1: Hàm phân phối tích lũy theo mẫu hoặc thực nghiệm (sample or empirical CDF) là $$ F_{\mu_n}(t) := \frac{1}{n} \sum_{i=1}^n \mathbf{1}_{(-\infty,t]}(X_i). $$ Đây là một hàm không giảm (nondecreasing), liên tục bên phải (right continuous function), tăng lên $1/n$ mỗi khi chúng ta gặp bất kỳ giá trị $X_i$ nào.

Ví dụ 2.1: Nếu $\mu$ là phân phối đều trên $[0, 1]$, $F_\mu(t) = t$ với $t \in [0, 1]$. Đây là một so sánh về hình dạng của CDF thực nghiệm $F_{\mu_n}$ so với $F_\mu$ cho $n = 10$ và $n = 100$ mẫu.

Picture taken from chapter 4 of Martin J. Wainwright. High-Dimensional Statistics: A Non-Asymptotic Viewpoint. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press, 2019.

Việc tiếp theo cần làm là xác định loại hội tụ hàm mà chúng ta sẽ đề cập khi thảo luận về tính nhất quán. Đáng ngạc nhiên, hội tụ này là hội tụ đều (uniform), về cơ bản là dạng hội tụ mạnh nhất mà người ta có thể hy vọng.

Định lý 2.2 (Glivenko-Cantelli):

Cho $\mu$ là một phân phối trên $\mathbb{R}$, và $X _1, X _2, \ldots \stackrel{iid}{\sim} \mu$, và $F _{\mu _n} = \frac{1}{n}\sum _{i=1}^n \mathbf{1} _{(-\infty,t]}(X_i)$. Khi $n \to \infty$,

$$ \sup_{t\in\mathbb{R}} |F _{\mu_n}(t) - F _\mu(t)| \stackrel{a.s.}{\longrightarrow} 0. $$

3. Chứng minh Định lý Glivenko-Cantelli #

Đầu tiên, chúng ta cần chứng minh một bổ đề tất định như sau:

Bổ đề 3.1:

Cho $F_n$ và $F$ là các hàm bị chặn đều (uniformly bounded), không giảm (nondecreasing) và liên tục bên phải (right-continuous). Nếu

$F_n(t) \to F(t)$ với mọi số hữu tỷ $t$
$F_n(t) \to F(t)$ với mọi nguyên tử của $F$ (những điểm mà $F(t) \neq \lim_{s\uparrow t} F(s)$),

thì $\sup_{t\in\mathbb{R}} |F_n(t) - F(t)| \xrightarrow{n\to\infty} 0$.

Đây là chứng minh của bổ đề trong trường hợp $F$ không có nguyên tử; trường hợp tổng quát cũng tương tự, nhưng việc xây dựng $\varepsilon$-net trong chứng minh phức tạp hơn về mặt ký hiệu, nên chúng tôi bỏ qua.

Chứng minh Bổ đề 3.1:

Cho $\varepsilon > 0$. Tồn tại một mạng hữu hạn $T = {t_1 < \cdots < t_\ell}$ gồm các số hữu tỷ và nguyên tử của $F$ sao cho với mọi $t \in \mathbb{R}$, tồn tại $t’ \in T$ với $t’ > t$ và $F(t’) - F(t) < \varepsilon$. Trong trường hợp $F$ không có nguyên tử, chúng ta có thể đặt $t_j = \sup{x \in \mathbb{R} : F(x) \leq j/N}$ với $1 \leq j \leq N$.

Bây giờ, với mọi $t \in \mathbb{R}$, giả sử $t_j \in T$ là phần tử nhỏ nhất của $T$ mà $\geq t$, chúng ta có $$ \begin{equation} |F_n(t) - F(t)| \leq \begin{cases} F_n(t_j) - F(t_{j-1}) & \text{nếu } F_n(t) \geq F(t) \\ F(t_j) - F_n(t_{j-1}) & \text{nếu } F_n(t) < F(t) \end{cases} \end{equation} $$

Hay $$ \begin{equation} |F_n(t) - F(t)| \leq \begin{cases} |F_n(t_j) - F(t_j)| + |F(t_j) - F(t_{j-1})| & \text{nếu } F_n(t) \geq F(t) \\ |F(t_j) - F(t_{j-1})| + |F(t_{j-1}) - F_n(t_{j-1})| & \text{nếu } F_n(t) < F(t) \end{cases} \end{equation} $$

Chọn $n$ đủ lớn sao cho $|F_n(t’) - F(t’)| < \varepsilon$ với mọi $t’ \in T$, tức là $< 2\varepsilon$.

Vậy, với $n$ đủ lớn, $\sup_{t\in\mathbb{R}} |F_n(t) - F(t)| < 2\varepsilon$. Cho $\varepsilon \downarrow 0$. Chứng minh hoàn tất.

Bây giờ, đây là chứng minh của định lý Glivenko-Cantelli.

Chứng minh Định lý 2.2 (Glivenko-Cantelli):

Với một $t$ cố định, Luật số lớn mạnh cho rằng $$ \begin{equation} \frac{1}{n} \sum_{i=1}^n \mathbf{1} _{(-\infty,t]}(X_i) \stackrel{a.s.}{\longrightarrow} \mathbb{E} _\mu[\mathbf{1} _{(-\infty,t]}(X_i)] = \mathbb{P} _\mu(X_1 \leq t). \end{equation} $$

Tức là, $F_{\mu_n}(t) \to F_\mu(t)$ với xác suất bằng 1. Vậy nếu chúng ta đặt $S = \mathbb{Q} \cup \{ \text{các nguyên tử của } F_\mu \}$, sự hội tụ xảy ra với xác suất bằng 1 cho mỗi trong số đếm được các điểm trong $S$, nên $$ \begin{equation} \mathbb{P} _\mu(F _{\mu_n}(t) \to F _\mu(t) ; \forall t \in S) = 1. \end{equation} $$

Do đó, theo bổ đề, $$ \begin{equation} \mathbb{P} _\mu\left(\sup _{t\in\mathbb{R}} |F _{\mu_n}(t) - F _\mu(t)| \xrightarrow{n\to\infty} 0 \right) = 1. \end{equation} $$

Có hai điều quan trọng cần lưu ý về chứng minh này:

Chứng minh không cung cấp bất kỳ thông tin nào về tốc độ hội tụ của $F_{\mu_n}$ đến $F_\mu$.
Chứng minh phụ thuộc nhiều vào thứ tự tuyến tính của $\mathbb{R}$, nên khó tổng quát hóa cho, chẳng hạn, $\mathbb{R}^n$.

Khái niệm kích thước VC sẽ giải quyết cả hai vấn đề này.

Quy hoạch DC: Một phương pháp tối ưu mà bạn không biết rằng bạn phải biết về nó!

Sun, 16 Mar 2025 00:00:00 +0000

1. Giới thiệu #

1.1 Quy hoạch DC là gì? #

Khi tìm hiểu về Support Vector Machines và Kernels, chúng ta đã liên tục dựa vào việc sử dụng tối ưu lồi để đảm bảo rằng các nghiệm tồn tại và có thể tính toán được. Tuy nhiên, có nhiều trường hợp mà giả định về hàm mục tiêu và các ràng buộc là lồi (hoặc tựa-lồi/quasi convex) không còn đúng/ hợp lệ, và vì vậy các phương pháp trên các hàm lồi mà chúng ta đã phát triển không thể được áp dụng.

Để giải quyết những vấn đề này, chúng ta phải phát triển một lý thuyết tối ưu cho một siêu lớp (superclass) của các hàm lồi, được gọi là hàm DC - Difference of Convex (Hiệu của các hàm lồi). Bây giờ chúng ta sẽ bắt đầu định nghĩa các hàm như vậy.

Định nghĩa 1:

Cho $f$ là một hàm giá trị thực ánh xạ từ $\mathbb{R}^n$ vào $\mathbb{R}$. Khi đó $f$ là một hàm DC nếu tồn tại các hàm lồi, $g, h: \mathbb{R}^n \rightarrow \mathbb{R}$ sao cho $f$ có thể được phân tích như hiệu giữa $g$ và $h$:

$$ f(x) = g(x) - h(x) \quad \forall x \in \mathbb{R}^n $$

Trong phần còn lại của bài giảng này, chúng ta sẽ thảo luận về các giải pháp cho bài toán sau đây - bài toán Quy Hoạch DC (DCP): $$ \begin{align} \min_{x \in \mathbb{R}^n} & \quad f_0(x) \ \quad\text{s.t.} & \quad f_i(x) \leq 0, \quad i = 1, \ldots, m. \end{align} $$ trong đó $f_i: \mathbb{R}^n \rightarrow \mathbb{R}$ là một hàm DC khả vi đối với $i = 0, \ldots, m$.

1.2 Một số trực quan về hàm DC #

Trước khi chúng ta tiếp tục thảo luận về nghiệm cho Bài toán (1), ta thảo luận về một số trực quan về hàm DC. Nhắc lại rằng một hàm $f: \mathbb{R}^n \rightarrow \mathbb{R}$ là lồi nếu với mọi $x_1, x_2 \in \mathbb{R}^n$ và mọi $\alpha \in [0, 1]$, thì $f(\alpha x_1 + (1-\alpha)x_2) \leq \alpha f(x_1) + (1-\alpha)f(x_2)$.

Đặc biệt, nếu $f$ là một hàm khả vi hai lần, thì nó là lồi khi và chỉ khi ma trận Hessian của nó là nửa xác định dương. Để có cảm giác về những gì hàm DC có thể trông như thế nào, chúng ta sẽ xem xét một số hàm lồi phổ biến và các hàm DC mà chúng có thể tạo thành.

Ví dụ 1.2. Xem xét các hàm lồi $f_1(x) = \frac{1}{x}$ và $f_2(x) = x^2$.

Ví dụ 1.3. Xem xét các hàm lồi $f_1(x) = |x|$ và $f_2(x) = -\log(x)$.

Lưu ý rằng trong khi trong các ví dụ này, cực tiểu dễ tìm bằng cách quan sát trong các hàm lồi, thì việc này ít rõ ràng hơn trong hàm DC kết quả. Rõ ràng, có các hàm DC như một phần của bài toán tối ưu hóa thêm một mức độ phức tạp vào bài toán mà chúng ta không gặp phải trong các vấn đề với các hàm lồi. May mắn thay, như ta sẽ thấy sớm, sự phức tạp này không phải là không thể vượt qua.

1.3 Các hàm này mở rộng như thế nào? #

1.3.1 Hartman #

Định lý 1.4:

Ba công thức sau của quy hoạch DC là tương đương:

$\sup\{f(x) : x \in C\}$, $f, C$ lồi
$\inf\{g(x) - h(x) : x \in \mathbb{R}^n\}$, $g, h$ lồi
$\inf\{g(x) - h(x) : x \in C, f_1(x) - f_2(x) \leq 0\}$, $g, h, f_1, f_2, C$ đều lồi.

Chứng minh:

Ta cần chứng minh $(1) \Leftrightarrow (2)$. Định nghĩa một hàm chỉ như sau: \[ I_C(x) = \begin{cases} 0 & \text{nếu } x \in C \\ \infty & \text{nếu không} \end{cases} \] Khi đó $\sup\{f(x) : x \in C\} = \inf\{I_C(x) - f(x) : x \in \mathbb{R}^n\}$.
Ta cần chứng minh $(3) \Leftrightarrow (1)$. Ta có $\inf\{g(x) - h(x) : x \in C, f_1(x) - f_2(x) \leq 0\}$, $g, h, f_1, f_2, C$ đều lồi. Khi đó chúng ta có thể viết: $$\alpha_t = \inf\{g(x) + t\max\{f_1(x), f_2(x)\} - h(x) - tf_2(x) : x \in C\}$$ cho một giá trị $t$ nào đó mà $\alpha = \alpha_{t'}$ với mọi $t' > t$. Có thể chứng minh rằng một $t$ như vậy luôn tồn tại.
Cuối cùng, rõ ràng rằng (2) là một trường hợp đặc biệt của (3). Do đó, chúng ta đã chỉ ra sự chuyển đổi (1) $\rightarrow$ (2) $\rightarrow$ (3) $\rightarrow$ (1), chỉ ra rằng ba công thức là tương đương.

Tiếp theo chúng ta sẽ chứng minh rằng lớp hàm DC lớn như thế nào.

Định lý 1.5:

Một hàm $f$ là DC địa phương nếu tồn tại một quả cầu $\varepsilon$ mà trên đó nó là DC. Mọi hàm DC địa phương đều là DC.

Mệnh đề 1.6:

Cho $f_i$ là các hàm DC với $i = 1, \ldots, m$. Khi đó các hàm sau cũng là DC:

$\sum_i \lambda_i f_i(x)$, với $\lambda_i \in \mathbb{R}$
$\max_i f_i(x)$
$\min_i f_i(x)$
$\prod_i f_i(x)$
$f_i$, khả vi hai lần liên tục
Nếu $f$ là DC và $g$ là lồi, thì hợp thành $(g \circ f)$ là DC./li>
Mọi hàm liên tục trên một tập lồi, $C$ là giới hạn của một chuỗi các hàm DC hội tụ đều.

2. Điều kiện tối ưu #

2.1 Tính đối ngẫu #

Trước khi chúng ta có thể thảo luận về các điều kiện tối ưu toàn cục và địa phương trong bài toán Quy hoạch DC chính tắc, chúng ta cần giới thiệu một số khái niệm liên quan đến tính đối ngẫu trong DCP, và phát triển một số trực giác về những gì điều này mang lại cho chúng ta. Để bắt đầu với điều này, chúng ta giới thiệu các hàm liên hợp và sử dụng chúng để chứng minh mối quan hệ giữa DCP và bài toán đối ngẫu của nó.

Định nghĩa 2.1:

Cho $g: \mathbb{R}^n \rightarrow \mathbb{R}$. Khi đó hàm liên hợp của $g(x)$ là

$$g^*(y) = \sup{x^T y - g(x) : x \in \mathbb{R}^n} $$

Để hiểu tại sao các hàm liên hợp lại quan trọng, chúng ta cần thêm một định nghĩa nữa.

Định nghĩa 2.2:

Epigraph của một hàm, $g: \mathbb{R}^n \rightarrow \mathbb{R}$ là tập hợp các điểm nằm trên hoặc phía trên đồ thị của nó:

$$ \text{epi}(g) = {(x,t) \in \mathbb{R}^n \times \mathbb{R} : g(x) \leq t} $$

Lưu ý rằng $g$ là lồi khi và chỉ khi $\text{epi}(g)$ là một tập lồi.

Đã định nghĩa epigraph, chúng ta giờ đây có thể đưa ra một diễn giải hình học của hàm liên hợp: Hàm liên hợp $g^*$ ‘bao quanh (encloses)’ bao lồi của $\text{epi}(g)$ với các siêu phẳng hỗ trợ (supporting hyperplanes) của $g$. Đặc biệt, chúng ta có thể thấy rằng khi $f$ là khả vi, $$\frac{df}{dx} = \text{argsup}\{x^T y - g^*(y) : y \in \mathbb{R}^n\} = y(x)$$

Tức là, $y$ là một biến đối ngẫu cho $x$, và do đó có thể được diễn giải (xấp xỉ) như gradient (hoặc độ dốc trong $\mathbb{R}^2$) của $f$ tại $x$. Đây phải là một kết quả quen thuộc từ bài giảng về phân tích lồi.

Định lý 2.3:

Cho $g: \mathbb{R}^n \rightarrow \mathbb{R}$ sao cho $g(x)$ là hàm nửa liên tục dưới và lồi trên $\mathbb{R}^n$. Khi đó

$$ g(x) = \sup{x^T y - g^*(y) : y \in \mathbb{R}^n} $$ trong đó $g^*(y)$ là liên hợp của $g(x)$.

Chúng ta cung cấp định lý này mà không cần chứng minh, và bỏ qua thảo luận thêm về tính nửa liên tục dưới, nhưng chúng ta có thể an toàn giả định rằng các hàm mà chúng ta sẽ xử lý đều thỏa mãn điều này. Lưu ý rằng điều kiện này ngụ ý rằng $g^{**} = g$, tức là, liên hợp của liên hợp của $g$ là $g$, nghĩa là định nghĩa của $g$ và $g^*$ là đối xứng. (Điều này có ý nghĩa gì đối với việc cực tiểu hóa $g$?)

Bây giờ chúng ta chứng minh mối quan hệ giữa DCP và bài toán đối ngẫu của nó. Đầu tiên lưu ý dạng của hàm liên hợp $f^*$ cho $f \equiv g - h$: $$(f(x))^* = ((g - h)(x))^* = \sup{x^T y - (g - h)(x) : x \in \mathbb{R}^n} = h^*(y) - g^*(y)$$

Gọi $\alpha$ là giá trị tối ưu cho DCP. $$ \begin{align*} \alpha &= \inf{g(x) - h(x) : x \in X} \\ &= \inf{g(x) - \sup{x^T y - h^*(y) : y \in Y} : x \in X} \\ &= \inf{\inf{g(x) - x^T y + h^*(y) : x \in X} : y \in Y} \\ &= \inf{h^*(y) - g^*(y) : y \in Y} \end{align*} $$

Do đó, chúng ta có rằng giá trị tối ưu cho DCP là giống với giá trị tối ưu cho bài toán đối ngẫu của nó! Đó thực sự là sự đối xứng! Điều này có nghĩa là chúng ta có thể giải quyết bài toán gốc hoặc bài toán đối ngẫu và thu được giải pháp cho cả hai - thuật toán mà chúng ta sẽ sử dụng để giải quyết DCP sẽ phụ thuộc rất nhiều vào sự kiện này.

2.2 Điều kiện tối ưu toàn cục #

Định nghĩa 2.4:

Định nghĩa một $\varepsilon$-dưới đạo hàm ($\varepsilon$-subgradient) của $g$ tại $x_0$ là

$$\partial_{\varepsilon}g(x_0) = {y \in \mathbb{R}^n : g(x) - g(x_0) \geq (x - x_0)^T y - \varepsilon \quad \forall x \in \mathbb{R}^n}$$

Định nghĩa một vi phân (diﬀerential) của $g$ tại $x_0$ là $$\partial g(x_0) = \bigcap_{\varepsilon>0} \partial_{\varepsilon}g(x_0)$$

Với hai định nghĩa này, chúng ta có các điều kiện sau cho tính tối ưu toàn cục:

Định lý 2.5: (Định lý Kuhn-Tucker suy rộng)

Cho $x^*$ là nghiệm tối ưu của bài toán Quy hoạch DC (gốc). Khi đó

$$\partial h(x^*) \subset \partial g(x^*)$$

Cho $y^*$ là nghiệm tối ưu của bài toán Quy hoạch DC đối ngẫu. Khi đó

$$\partial g^*(y^*) \subset \partial h^*(y^*)$$

Chứng minh

Điều kiện này về cơ bản xuất phát từ sự tương đương của tối ưu gốc và đối ngẫu. Chúng ta đã chứng minh trước đó rằng nếu $\alpha$ là giá trị tối ưu của DCP, thì

$$ \alpha = \inf{g(x) - h(x) : x \in X} = \inf{h^*(y) - g^*(y) : y \in Y} $$

Khi đó nếu $\alpha$ là hữu hạn, chúng ta phải có $\text{dom } g \subset \text{dom } h$ và $\text{dom } h^* \subset \text{dom } g^*$ trong đó $\text{dom } g = {x \in \mathbb{R}^n : g(x) < \infty}$, miền của $g$. Tức là, $h$ (tương ứng, $g^*$) là hữu hạn bất cứ khi nào $g$ (tương ứng, $h^*$) là hữu hạn. Lưu ý rằng chúng ta yêu cầu phép bao hàm này bởi vì chúng ta đang cực tiểu hóa hàm mục tiêu, và do đó nếu tồn tại một $x \in \mathbb{R}^*$ sao cho $g(x) < \infty, h(x) = \infty$, thì $g(x) - h(x)$ sẽ được cực tiểu hóa tại $x$, cho một giá trị mục tiêu là $-\infty$. Lưu ý rằng phát biểu này không phải là một phát biểu nếu và chỉ nếu, vì chúng ta làm việc dưới quy ước rằng $\infty - \infty = \infty$.

Do đó, chúng ta có rằng nếu $x^*$ là tối ưu cho DCP gốc, thì $x^* \in \text{dom } g$, và theo tính đối ngẫu yếu,

$$g(x^*) - h(x^*) \leq h^*(y) - g^*(y), \quad \forall y \in \text{dom } h^*$$

và do đó (cho $x^* \in \text{dom } h$) nếu $x^* \in \partial h(x^*)$, thì

$$x^T y \geq h(x^*) + h^*(y) \geq g(x^*) + g^*(y)$$

trong đó bất đẳng thức đầu tiên là theo định nghĩa của $\partial h(x^*)$ và bất đẳng thức thứ hai xuất phát từ bất đẳng thức đối ngẫu yếu đã trình bày.

Chúng ta cũng có thể nghĩ về điều này theo các diễn giải của bài toán đối ngẫu. Chúng ta có rằng nếu $g, h$ là khả vi, và do đó $\partial h(x^*) = \emptyset \neq \partial g(x^*)$, thì $\partial h(x^*)$ chỉ là tập hợp các gradient của $h$ tại $x^*$, và theo sự bằng nhau của tối ưu gốc và đối ngẫu, nó là tập hợp các $y^*$ tối ưu hóa bài toán đối ngẫu. Do đó, điều kiện tối ưu này theo các dưới vi phân là tương tự như điều kiện mà chúng ta đã thảo luận về miền.

Hệ quả 2.6:

Cho P và D là tập hợp nghiệm của các bài toán gốc và đối ngẫu của DCP, tương ứng. Khi đó:

$x^* \in \mathbf{P}$ khi và chỉ khi $\partial_{\varepsilon}h(x^*) \subset \partial_{\varepsilon}g(x^*)$ $\forall \varepsilon > 0$.
$y^* \in \mathbf{D}$ khi và chỉ khi $\partial_{\varepsilon}g^*(y^*) \subset \partial_{\varepsilon}h^*(y^*)$ $\forall \varepsilon > 0$.

Định lý 2.7:

Cho P và D là tập hợp nghiệm của các bài toán gốc và đối ngẫu của DCP, tương ứng. Khi đó:

$$\bigcup{\partial h(x) : x \in \mathbf{P}} \subset \mathbf{D} \subset \text{dom } h^*$$

và

$$\bigcup{\partial g^*(y) : y \in \mathbf{D}} \subset \mathbf{P} \subset \text{dom } g$$

Lưu ý rằng định lý này ngụ ý rằng giải quyết DCP gốc ngụ ý giải quyết DCP đối ngẫu.

2.3 Điều kiện tối ưu địa phương #

Chúng ta muốn xây dựng một thuật toán để tìm các nghiệm tối ưu toàn cục dựa trên các điều kiện đã thảo luận trong phần trước. Tuy nhiên, việc tìm một thuật toán làm việc này một cách hiệu quả trong trường hợp tổng quát là một vấn đề mở, và hầu hết các cách tiếp cận là tổ hợp, thay vì dựa trên tính lồi, và do đó phụ thuộc nhiều vào công thức của một vấn đề đã cho, và thường không hiệu quả. Do đó, chúng ta trình bày các điều kiện tối ưu địa phương, mà (không giống như các điều kiện tối ưu toàn cục) có thể được sử dụng để tạo ra một cách tiếp cận dựa trên tính lồi cho tối ưu hóa địa phương. Chúng ta trình bày các định lý này mà không chứng minh vì, mặc dù chúng rất quan trọng để giải các bài toán quy hoạch DC, nhưng chứng minh của chúng không thêm nhiều thông tin nữa. Do đó, chúng tôi giới thiệu việc nghiên cứu thêm đến Hurst và Thoai hoặc Tao và An.

Định lý 2.8:

Cho $x^*$ là một điểm chấp nhận một lân cận $U(x)$ sao cho

$$ \partial h(x) \cap \partial g(x^*) \neq \emptyset \quad \forall x \in U(x) \cap \text{dom } g $$

Khi đó $x^*$ là một cực tiểu địa phương của $g - h$.

Định lý 2.9:

Cho $\text{int}(S)$ chỉ nội bộ của tập hợp $S$. Khi đó nếu $x^* \in \text{int}(\text{dom } h)$ và $\partial h(x^*) \subset \text{int}(\partial g(x^*))$, thì $x^*$ là một cực tiểu địa phương nghiêm ngặt của $g - h$.

Định lý 2.10:

Cho $x^* \in \text{dom } \partial h$ là một cực tiểu địa phương của $g - h$ và cho $y^* \in \partial h(x^*)$. Khi đó nếu $g^*$ là khả vi tại $y^*$, $y^*$ là một cực tiểu địa phương của $h^* - g^*$. Tổng quát hơn, nếu $y^*$ thỏa mãn Định lý 2.9, thì $y^*$ là một cực tiểu địa phương của $h^* - g^*$.

3. Thuật toán #

Như đã thảo luận trước đó, các điều kiện tối ưu toàn cục trong quy hoạch DC không mang lại các thuật toán tổng quát hiệu quả. Do đó, trong khi có một số kỹ thuật phổ biến - trong số đó, các thuật toán nhánh và cận và mặt cắt, chúng tôi bỏ qua việc thảo luận về chúng và thay vào đó tập trung vào cách tiếp cận dựa trên tính lồi cho tối ưu hóa địa phương. Trên thực tế, mặc dù không có kết quả phân tích nào biện minh cho điều này, theo tài liệu về lập trình DC, cách tiếp cận tối ưu hóa địa phương thường cho kết quả tối ưu toàn cục, và một số phương pháp điều chỉnh và chọn điểm xuất phát tồn tại để hỗ trợ việc kết hợp thuật toán tối ưu hóa địa phương sau đây để tìm tối ưu toàn cục trong các trường hợp khác nhau.

3.1 Tiếp cận DCA-Convex cho tối ưu địa phương #

Bây giờ chúng ta trình bày một thuật toán để tìm tối ưu địa phương cho một bài toán quy hoạch DC tổng quát. Đầu tiên, chúng ta cung cấp thuật toán ở dạng thô, sau đó chúng ta sẽ giải thích từng bước trong một lần lặp, và cuối cùng, chúng ta sẽ trình bày một vài kết quả liên quan đến hiệu quả và hiệu suất của thuật toán.

3.1.2 DCA #

Thuật toán:

Bước 1: Chọn $x_0 \in \text{dom } g$
Bước 2: Với $k \in \mathbb{N}$ thực hiện:
- Bước 2.1: Chọn $y_k \in \partial h(x_k)$
- Bước 2.2: Chọn $x_{k+1} \in \partial g^*(y_k)$
- Bước 2.3: Nếu $$\min{|(x_ {k+1} - x_l)_ i|, |\frac{(x_{k+1}-x_ l)_ i}{(x_ k)_ i}|} \leq \delta$$ thì Trả về $x_{k+1}$
Bước 3: Kết thúc thuật toán.

3.1.2 Giải thích và trực giác về DCA #

Hãy đi qua từng bước của thuật toán DCA một cách chi tiết hơn. Phương pháp tổng thể của thuật toán là tạo ra hai chuỗi biến, ${x_k}_k$, ${y_k}_k$ sao cho ${x_k}$ hội tụ đến cực tiểu địa phương của bài toán gốc, $x^*$, và ${y_k}$ hội tụ đến cực tiểu địa phương của bài toán đối ngẫu, $y^*$. Ý tưởng chính là thao tác với tính đối xứng của bài toán gốc và đối ngẫu để theo một biến thể của phương pháp giảm dưới gradient thường được sử dụng trong tối ưu hóa lồi.

Bây giờ hãy xem xét từng bước một cách riêng lẻ.

Chọn $x_0 \in \text{dom } g$: Do chúng ta đang sử dụng một phương pháp giảm, sự hội tụ của thuật toán là độc lập với điểm bắt đầu của các chuỗi mà thuật toán tạo ra. Do đó, chúng ta có thể khởi tạo thuật toán với một lựa chọn tùy ý của $x_0$ miễn là nó khả thi.
Chọn $y_k \in \partial h(x_k)$: Chúng ta có $\partial h(x_k) = \text{arg min}{h^*(y) - g^*(y_{k-1}) - x_k^T(y - y_{k-1}) : y \in \mathbb{R}^n}$. Hơn nữa, do đây là phép cực tiểu hóa trên $y$, chúng ta giữ $y_{k-1}, x_k$ cố định, và do đó có $\partial h(x_k) = \text{arg max}{x_k^T y - h^*(y) : y \in \mathbb{R}^n}$. Tính toán điều này, tuy nhiên, chỉ là một bài tập về tối ưu hóa lồi, vì theo các điều kiện tối ưu địa phương, $x_k$ là (xấp xỉ) một dưới đạo hàm của $h^* - g^*$, và do đó đóng vai trò tương tự như trong thuật toán giảm dưới gradient điển hình, mà chúng ta giải quyết nhanh chóng và hiệu quả. Vì chúng ta cực đại hóa với $x_k$ cho trước (cải thiện cùng với $y_{k-1}$), chúng ta đảm bảo rằng $(h^* - g^*)(y_k - y_{k-1}) \leq 0 \quad \forall k \in \mathbb{N}$, và do tính đối xứng của tính đối ngẫu, $y_k$ hội tụ đến một điểm tới hạn của $(h^* - g^*)$, tức là, một cực tiểu địa phương.
Chọn $x_{k+1} \in \partial g^*(y_k)$: Cho tính đối xứng của bài toán gốc và đối ngẫu, điều này hoàn toàn đối xứng với bước tìm $y_k$. Do đó, chúng ta chọn $x_{k+1} \in \text{arg max}{x^T y_k - g(x) : x \in \mathbb{R}^n}$.
Nếu $\min{|(x_ {k+1} - x_l)_ i|, |\frac{(x_{k+1}-x_ l)_ i}{(x_ k)_ i}|} \leq \delta$: Mặc dù chúng ta có thể đảm bảo hội tụ trong giới hạn vô hạn của $k$, sự hội tụ hoàn toàn có thể mất nhiều thời gian, và do đó chúng ta xấp xỉ một nghiệm tối ưu trong một giới hạn đã định trước, $\delta$. Một khi nghiệm (sự thay đổi trong $x_k$ hoặc $y_k$) đủ nhỏ, chúng ta kết thúc thuật toán và trả về giá trị tối ưu cho $x_{k+1}$ - nhớ rằng giải cho $x_k$ tương đương với giải cho $y_k$.

3.2 Định nghĩa tốt và sự hội tụ #

Ở đây chúng ta trình bày một vài kết quả liên quan đến tính hiệu quả và tính hiệu suất của thuật toán DCA. Chúng ta sẽ đưa ra các kết quả mà không chứng minh, và hướng bất kỳ ai quan tâm đến việc đi sâu hơn vào vấn đề này đến Thoai.

Bổ đề 3.1:

Các chuỗi ${x_k}$ và ${y_k}$ được định nghĩa tốt khi và chỉ khi $$ \text{dom } \partial g \subset \text{dom } \partial h \quad \text{dom } \partial h^* \subset \text{dom } \partial g^* $$

Bổ đề 3.2:

Cho $h$ là một hàm nửa liên tục dưới trên $\mathbb{R}^n$ và ${x_k}$ là một chuỗi các phần tử trong $\mathbb{R}^n$ sao cho (i) $x_k \to x^*$; (ii) Tồn tại một chuỗi bị chặn ${y_k}$ sao cho $y_k \in \partial h(x_k)$; (iii) $\partial h(x^*) \neq \emptyset$. Khi đó

$$ \lim_{k\to\infty} h(x_k) = h(x^*) $$

4. Ứng dụng vào Học Máy #

Tài liệu có tham chiếu đến nhiều ứng dụng của Quy hoạch DC trong Nghiên cứu Hoạt động, Học máy và Kinh tế học.

Một ứng dụng thú vị của Quy hoạch DC được thảo luận trong bài báo năm 2006 “A DC-Programming Algorithm for Kernel Selection”. Trong bài báo này, các tác giả thảo luận về một thuật toán tham lam để học một kernel từ một bao lồi của các kernel cơ bản. Mặc dù cách tiếp cận này đã được phổ biến trước đó, nó bị giới hạn trong một tập hữu hạn các kernel cơ bản. Các tác giả nhận xét rằng giới hạn là do tính không lồi của một cực đại hóa quan trọng liên quan đến việc thực hiện việc học, nhưng nhận thấy rằng bài toán tối ưu hóa có thể được công thức hóa như một bài toán quy hoạch DC. Đặc biệt, hàm mục tiêu được sử dụng để đánh giá các kernel cơ bản là DC như là giới hạn của các hàm DC.

Một ứng dụng thú vị khác của Quy hoạch DC được thảo luận trong bài báo năm 2008 “A DC programming approach for feature selection in support vector machines learning”. Ở đây, Quy hoạch DC được sử dụng trong một thuật toán SVM cố gắng chọn các đặc trưng đại diện tối ưu trong dữ liệu trong khi xây dựng một bộ phân loại SVM đồng thời. Các tác giả cân bằng vấn đề này với việc cực tiểu hóa một hàm chuẩn-không trên các vector đặc trưng bước-k. Sử dụng phân rã DC hiển thị dưới đây, các tác giả sử dụng thuật toán DCA để tìm các cực tiểu địa phương và áp dụng nó cho mười bộ dữ liệu - một số trong số đó đặc biệt thưa - để thấy rằng thuật toán DCA tạo ra các bộ phân loại nhất quán tốt thường có tỷ lệ chính xác cao nhất trong số các bộ phân loại được kiểm tra (bao gồm cả SVM tiêu chuẩn, ví dụ). Mặc dù điều này, DCA nhất quán sử dụng ít đặc trưng hơn SVM tiêu chuẩn và các bộ phân loại khác, và kết quả là hiệu quả hơn và sử dụng ít khả năng CPU hơn so với nhiều bộ phân loại thông thường khác. Do đó, nhìn chung, DCA chứng minh là một thuật toán rất hấp dẫn để phân loại dữ liệu, và đặc biệt xuất sắc cho các bộ dữ liệu rất lớn và thưa.

5. Kết luận #

Như chúng ta có thể thấy, Quy hoạch DC khá mới mẻ. Mặc dù kết quả lâu đời nhất được trình bày trong bài giảng này có từ những năm 1950 (của Hartman), nhiều kết quả và thuật toán được thảo luận ở đây được phát triển vào những năm 1990, và các ứng dụng của chúng vẫn còn rất mới đối với cộng đồng khoa học. Tuy nhiên, như có thể thấy từ các ví dụ mà chúng ta đã trình bày, Quy hoạch DC có tiềm năng to lớn để mở rộng và đẩy nhanh nhiều thuật toán và kỹ thuật trung tâm của Học máy, cũng như các lĩnh vực khác. Do đó, có khả năng tương lai gần sẽ mang lại nhiều thuật toán hơn được lấy cảm hứng từ DCA và các cách tiếp cận liên quan đến DCA cũng như các cách tiếp cận tổ hợp toàn cục khác nhau được sử dụng để giải quyết các bài toán Quy hoạch DC, nhưng không được thảo luận ở đây.

Biến đổi Laplace và Fourier

Sat, 18 Jan 2025 00:00:00 +0000

Đây là một bài viết ngắn thảo luận về mối quan hệ giữa biến đổi Laplace và biến đổi Fourier, hai công cụ quan trọng trong toán học kỹ thuật.

Biến đổi Fourier #

Biến đổi Fourier của một hàm $x(t)$ được định nghĩa như sau:

$$ X(\omega) = \int_{-\infty}^{\infty} x(t) e^{-i\omega t} , dt $$

Giả sử chúng ta có một hàm $x(t) = e^{-k t} \sin(\Omega t)$. Khi đó, biến đổi Fourier của nó được tìm thấy là:

$$ X(\omega) = \frac{\Omega}{\omega^2 + \Omega^2} $$

Chú ý rằng hàm này phân kỳ tại các điểm $\omega = \pm \Omega$. Do đó, biến đổi Fourier cho chúng ta biết rằng hàm có một hình sin ở đâu đó với tần số góc $\Omega $ (điều mà chúng ta đã biết, tất nhiên, vì chúng ta đã biết hàm từ trước).

{: .definition}

Biến đổi Fourier cho chúng ta biết các tần số góc $\omega_i$ của tất cả các hình sin có trong một hàm $x(t)$.

Dưới đây là đồ thị độ lớn của biến đổi Fourier của $x(t) = e^{-0.5 t} sin(2t)$, được tạo ra bằng MATLAB.

Biến đổi Laplace #

Biến đổi Laplace của một hàm $x(t)$ được định nghĩa như sau:

$$ \mathcal{L}{x(t)} = \int_{0}^{\infty} x(t) e^{-s t} , dt $$

trong đó $s$ là một số phức, với:

$$ s = \alpha + i \omega $$

Thay thế dạng này của $s$ vào công thức biến đổi Laplace, chúng ta có:

$$ \mathcal{L}{x(t)} = \int_{0}^{\infty} x(t) e^{-i \omega t} e^{- \alpha t} , dt $$

Chú ý rằng công thức này giờ đây gần như giống hệt với công thức chúng ta đã có cho biến đổi Fourier của $x(t)$! Sử dụng $x(t) = e^{-k t} \sin(\Omega t)$, như chúng ta đã có trước đó, chúng ta có thể tính toán tích phân và nhận thấy rằng:

$$ \mathcal{L}{x(t)} = \frac{\Omega}{(k + \alpha + i \omega)^2 + \Omega^2} $$

Để hình dung biến đổi Laplace, chúng ta có thể sử dụng đồ thị 3D, với hai trục đầu tiên tương ứng với $\alpha = \text{Re}(s)$ và $\omega = \text{Im}(s)$, và chiều cao của đồ thị được đặt là $|\mathcal{L}{x(t)}| = |F(s)|$ (một ký hiệu khác cho biến đổi Laplace). Lưu ý rằng ở đây chúng ta chỉ vẽ độ lớn của biến đổi Laplace. Đối với hàm $x(t) = e^{-0.5 t} sin(2t)$, biến đổi Laplace trông như thế này:

Bằng cách phân tích mẫu số của hàm này, chúng ta có thể thấy các cực sẽ xuất hiện tại tọa độ $(\alpha, \omega) = (-0.5, \pm 2)$. Không chỉ chúng ta được cung cấp thông tin về các hình sin hiện diện, mà bây giờ chúng ta cũng biết hệ số của thừa số mũ, từ giá trị của $\alpha $ tại các cực!

Định nghĩa 1: Các cực của biến đổi Laplace $\mathcal{L}{x(t)}$ cho chúng ta biết về các hàm mũ và hình sin có trong một hàm $x(t)$.

Hai phép biến đổi này có mối quan hệ như thế nào? #

Khi bạn tính toán đồ thị 2D của biến đổi Fourier của một hàm, bạn thực sự đang lấy một lát cắt 2D của biến đổi Laplace của hàm đó. Hãy quay lại dạng của biến đổi Laplace mà chúng ta đã có trước đó:

$$ \mathcal{L}{x(t)} = \int_{0}^{\infty} x(t) e^{-i \omega t} e^{- \alpha t} , dt $$

Nếu chúng ta đặt $$ \alpha $$ bằng không, phép biến đổi này chỉ đơn giản thu gọn thành $X(\omega)$, biến đổi Fourier của $x(t)$. Vì vậy, biến đổi Fourier của một hàm chỉ là biến đổi Laplace cho $\alpha = 0$, trong đó $s = \alpha + i \omega$.

Thực tế, tất cả những gì biến đổi Laplace đang làm là liên tục tìm biến đổi Fourier của một hàm đã được sửa đổi $x(t, \alpha) = x(t) e^{-\alpha t}$. Mỗi lần, chúng ta điều chỉnh $\alpha$ một lượng nhỏ, sau đó tính lại biến đổi Fourier và vẽ độ lớn của nó! Tôi sẽ cho bạn xem hai hoạt ảnh minh họa điều này.

Hoạt ảnh đầu tiên cho thấy biến đổi Fourier của $e^{-\alpha t} \sin(2t)$, với $\alpha$ thay đổi. Bạn có thể nhận thấy sự tương đồng giữa hình dạng thay đổi của biến đổi Fourier và hình dạng của các cực biến đổi Laplace mà chúng ta đã thấy trước đó không?

Hoạt ảnh thứ hai cho thấy một mặt phẳng trong biến đổi Laplace của $sin(2t)$. Khi chúng ta di chuyển nó, hãy chú ý hình dạng của đường cong được tạo ra bởi giao điểm của mặt phẳng với bề mặt của biến đổi Laplace - nó chính xác là biến đổi Fourier mà chúng ta vừa thấy trong hoạt ảnh!

Thông tin và Entropy

Sat, 18 Jan 2025 00:00:00 +0000

Lý thuyết thông tin là nghiên cứu về cách dữ liệu có thể được mã hóa và giải mã, nén và giải nén. Mục tiêu chính của lý thuyết thông tin, như Claude Shannon đã đặt ra, là truyền thông tin đáng tin cậy qua một kênh không đáng tin cậy. Trong các bài viết này, chúng ta sẽ thảo luận về độ dài tối thiểu mà dữ liệu có thể được nén xuống, cũng như lượng dư thừa tối thiểu cần thêm vào dữ liệu để mã hóa sao cho có thể giải mã không có lỗi.

Lưu ý: trong các bài viết này, $\log(x)$ đề cập đến $\log_2(x)$.

Thông tin #

Giả sử chúng ta có một sự kiện $ x_i $ thuộc về phân phối xác suất $ P(X) $. Khi đó, lượng thông tin Shannon của sự kiện đó là:

$$h(x_i) = \log\left(\frac{1}{p(x_i)}\right)$$

Ví dụ, giả sử thời tiết có xác suất mưa là $ 0.5 $, và một ngày bạn bước ra ngoài và thấy trời đang mưa. Khi đó lượng thông tin thu được từ sự kiện này là: $ \log_2{2} = 1 \text{ bit}$. Chúng ta thu được một bit thông tin mỗi khi chúng ta giảm một nửa không gian mẫu của tất cả các chuỗi sự kiện có thể xảy ra. Nếu trời mưa với xác suất $ 0.25 $, thì lượng thông tin thu được sẽ là $ 2 $ bit, bởi vì chúng ta đã cắt không gian mẫu thành một nửa hai lần. Một cách trực quan, lượng thông tin thu được từ một sự kiện $ x_i $ đo lường mức độ ngạc nhiên của chúng ta khi sự kiện đó xảy ra. Nếu chúng ta biết chắc chắn rằng trời sẽ mưa, thì lượng thông tin thu được sẽ là $ \log_2{1} = 0 \text{ bit} $, bởi vì chúng ta hoàn toàn không ngạc nhiên - chúng ta không thu được thông tin mới nào từ việc nhìn thấy trời mưa vì chúng ta đã biết trời sẽ mưa!

Entropy #

Entropy của một phân phối xác suất, $ H(X) $, chỉ là kỳ vọng của lượng thông tin thu được:

$$H(X) = \sum_i{p(x_i) \log\left(\frac{1}{p(x_i)}\right)}$$

Bạn có thể nghĩ về entropy như “sự ngạc nhiên trung bình” của chúng ta khi lấy mẫu từ phân phối này, hoặc nói cách khác, bạn có thể nói rằng đó là lượng thông tin trung bình mà chúng ta thiếu (nếu lượng thông tin kỳ vọng thu được cao, có nghĩa là chúng ta không biết nhiều về phân phối trước đó). Nếu một sự kiện có xác suất $ 1 $, trong khi các sự kiện khác đều xảy ra với xác suất $ 0 $, thì chúng ta không có thông tin để thu được, bởi vì chúng ta biết chính xác điều gì sẽ xảy ra. Trong trường hợp này, entropy là $ 0 $.

Entropy đạt giá trị lớn nhất khi $ X $ được phân phối đều. Điều này tương ứng với việc chúng ta có sự thiếu hiểu biết tối đa / thiếu thông tin tối đa về phân phối, bởi vì chúng ta không có lý do để tin rằng một sự kiện sẽ xảy ra hơn một sự kiện khác. Entropy tối đa là:

$$H_{max}(X) = \log(N) $$

trong đó N là số lượng sự kiện trong phân phối.

Chúng ta cũng có thể định nghĩa entropy của một phân phối kết hợp $ p(X, Y) $:

$$ H(X, Y) = -\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y) $$

Sử dụng quy tắc Bayes:

$$ \begin{align*} P(X, Y) &= P(X | Y) P(Y) \\ -\log P(X, Y) &= -\log(P(X|Y)) - \log P(Y) \\ \end{align*} $$

Lấy kỳ vọng ở cả hai vế,

$$ H(X, Y) = H(X | Y) + H(Y) $$

Chúng ta cũng có thể tìm được $ H(X, Y) = H(Y \vert X) + H(X) $ bằng lập luận tương tự.

Nén dữ liệu với đồng xu lệch #

Cho đến nay, chúng ta đã trình bày các công thức về lượng thông tin và entropy của một phân phối, mà không cho thấy tại sao chúng hữu ích hoặc thực sự là những đại lượng mà chúng ta nên quan tâm ngay từ đầu. Hãy xem xét một bài toán đơn giản: đồng xu lệch. Đây là một đồng xu với phân phối sau:

$$ \begin{aligned} &P(\text{Ngửa (1)}) = p \ &P(\text{Sấp (0)}) = 1 - p \end{aligned} $$

Để cụ thể, giả sử $ p = 0.1 $, vì vậy $ 1 - p = 0.9 $. Đồng xu lệch được tung $ N = 1000 $ lần, để tạo ra một số xổ số N chữ số. Chúng ta muốn biết câu trả lời cho câu hỏi sau: chúng ta phải mua bao nhiêu vé xổ số để có 99% chắc chắn trúng thưởng?

Chúng ta có thể bắt đầu bằng việc tự hỏi: vé xổ số nào có xác suất cao nhất? Và câu trả lời sẽ đơn giản - đó sẽ là vé với tất cả là 0 (tất cả là sấp), xảy ra với xác suất $ 0.9^N = 1.7 \times 10^{-46}$. Tuy nhiên, nếu tôi hỏi bạn, số lượng kỳ vọng các số 1 trong vé là bao nhiêu, thì bạn sẽ nói $ p N $ số 1, tức là kỳ vọng 100 số 1.

Một chiến lược hợp lý sẽ là mua trước tất cả các vé chứa tất cả số 1, sau đó là những vé chứa một số 1, sau đó là hai số 1, và cứ tiếp tục, cho đến khi chúng ta đạt đến các vé chứa 100 số 1. Chúng ta cũng có thể muốn mua các vé chứa 101 số 1, để an toàn. Bởi vì phân phối của đồng xu này là nhị thức, và chúng ta có $ N $ lớn, chúng ta có thể sử dụng xấp xỉ phân phối chuẩn cho phân phối này, sao cho:

$$ X \sim \mathcal{N}(Np, Np(1-p)) $$

Biết rằng độ lệch chuẩn của phân phối này là $ \sqrt{Np(1-p)} $, chúng ta có thể mua các vé với tối đa $ \mu + 2\sigma $ số 1, điều đó sẽ cho chúng ta xấp xỉ $ 99% $ của phân phối. Trong trường hợp của chúng ta, $ \mu = 100 $ và $ \sigma \approx 10 $, vì vậy chúng ta nên mua các vé với tối đa $ 120 $ số 1. Số lượng này có thể được biểu diễn là:

$$\sum_{k=0}^{120} \binom{1000}{k}$$

Số hạng chiếm ưu thế trong tổng này là $ \binom{1000}{120} $. Chúng ta có thể áp dụng xấp xỉ Stirling:

$$\binom{N}{r} \approx 2^{N H_2(\frac{N}{r})} $$

trong đó $ H_2(X) $ là entropy nhị phân của phân phối của X:

$ H_2(p) = p \log \left(\frac{1}{p} \right) + (1-p) \log \left(\frac{1}{1-p}\right) $

Do đó số lượng vé chúng ta cần mua, $ \binom{1000}{120} $, xấp xỉ bằng:

$$ n = \binom{1000}{120} \approx 2^{N H(X)} \approx 2^{470} $$

Những $ n = 2^{470} $ vé này tạo thành cái gọi là tập điển hình của phân phối này - đây là những vé mà chúng ta “mong đợi” sẽ thấy khi lấy mẫu từ đồng xu lệch. $ 2^{470} $ vé ngụ ý rằng chúng ta có thể mã hóa mỗi vé chỉ sử dụng $ 470 $ bit thay vì $ N = 1000 $ như ban đầu. Điều này cung cấp một số bằng chứng rằng entropy của một phân phối có liên quan đến số bit tối thiểu mà một chuỗi có thể được nén xuống. Cụ thể, đối với một chuỗi N kết quả, được lấy mẫu từ một phân phối xác suất $ X $, Shannon đã chứng minh rằng giới hạn nén là:

$$ \text{giới hạn nén} = N H(X) \text{ bit} $$

Mã hóa và dư thừa #

Khi gửi dữ liệu qua một kênh, một số nhiễu $ \mathbf{n} $ được thêm vào dữ liệu đó, làm biến dạng nó. Chúng ta muốn xây dựng một sơ đồ mã hóa và giải mã, để giảm thiểu xác suất lỗi trong quá trình truyền. Trong quá trình mã hóa, chúng ta sẽ thêm dư thừa vào dữ liệu, và trong quá trình giải mã, chúng ta sẽ tận dụng sự dư thừa này để phát hiện nơi lỗi đã xảy ra trong quá trình truyền và sửa chúng.

Hãy bắt đầu bằng việc xem xét một kênh rất đơn giản: kênh đối xứng nhị phân. Đây là một kênh đảo bit với xác suất $ p $, và giữ nguyên bit với xác suất $ 1-p $.

Giả sử chúng ta tạo ra chuỗi sau $ \mathbf{s} = 011 $, và gửi nó cho bạn của chúng ta mà không có sơ đồ mã hóa nào. Giả sử do nhiễu $ \mathbf{n} $, thông điệp nhận được $ \mathbf{r} = 111 $, vì một trong các bit đã bị đảo. Bạn của chúng ta sẽ nhận được thông điệp sai! Một cách để khắc phục điều này là sử dụng mã lặp lại. Điều này lặp lại mỗi bit $ N $ lần, vì vậy nếu $ N = 3 $, thông điệp của chúng ta $ \mathbf{s} = 000111111 $. Giả sử nó được nhận là $ \mathbf{r} = 010110011 $. Bằng cách chia chuỗi thành các nhóm $ N $, chúng ta có $ 010 110 011 $, và bằng cách lấy đa số phiếu trong mỗi khối, chúng ta giải mã thông điệp là $ 011 $, đó là thông điệp ban đầu của chúng ta.

Mã lặp lại có thể giảm giá trị $ f $ của chúng ta (xác suất lỗi trong một chuỗi), nhưng chúng đi kèm với chi phí là sự dư thừa tăng lên. Chúng ta định nghĩa dung lượng của kênh là số bit thông tin hữu ích được gửi trên mỗi bit. Ví dụ, mã lặp lại của chúng ta gửi 1 bit thông tin cho mỗi 3 bit được gửi, vì vậy dung lượng $ C = \frac{1}{3} $.

Shannon đã chứng minh trong định lý mã hóa kênh nhiễu của mình rằng bạn có thể đạt được lỗi $ f $ thấp tùy ý ở một dung lượng hữu hạn $ C $. Đây là một kết quả đáng chú ý, bởi vì lẽ thường nói với chúng ta rằng bạn cần dung lượng của mình tiến về không để lỗi tiến về không, bởi vì bạn sẽ cần một mã lặp lại cực kỳ lớn để đảm bảo không có lỗi. Nhưng Shannon nói với chúng ta rằng bạn có thể có lỗi bằng không với một $ C $ không vô cùng! Chúng ta sẽ quay lại điều này sau và chứng minh kết quả này trong một bài viết sau.

Kết luận #

Bài viết này giới thiệu các khái niệm về thông tin và entropy của một phân phối xác suất. Chúng ta đã khám phá các giới hạn của việc nén dữ liệu và dung lượng kênh, đưa chúng ta đến gần hơn mục tiêu truyền thông tin đáng tin cậy qua một kênh không đáng tin cậy. Dưới đây là tóm tắt các điểm chính:

Lượng thông tin của một sự kiện $ i $ là $ \log(\frac{1}{p_i}) $.
Entropy $ H(X) $ là lượng thông tin kỳ vọng của một phân phối.
Số bit tối thiểu mà một chuỗi có thể được nén xuống là $ N H(X) $.
Dư thừa có thể được thêm vào dưới dạng mã lặp lại để giảm cơ hội lỗi trong quá trình truyền.
Tồn tại một dung lượng kênh hữu hạn $ C $ mà tại đó $ f = 0 $.

Mạng neural có khả năng suy rộng là nhờ vào một thủ thuật (trick) kỳ quặc!!!

Wed, 15 Jan 2025 00:00:00 +0000

Lý thuyết Học thống kê đang lừa dối bạn rằng: Các mô hình tham số hóa quá mức (“Overparametrized” models) không thật sự quá mức, và khả năng suy rộng/ tổng quát hóa (generalization) không chỉ là một câu hỏi về độ rộng của lòng chảo trong không gian độ lỗi.

Hình 1. Giải thích chuẩn được nêu ra ở đây về lý do tại sao mạng neural có khả năng suy rộng tốt đó chính là gradient descent ổn định trong lưu vực phẳng của hàm mất mát. Ở trường hợp phía bên trái, với cực tiểu nằm trong lưu vực tương đối nhọn, các cập nhật khiến mô hình nhảy lung tung và khó tiếp cận với cực tiểu. Hiệu suất của mô hình thay đổi đáng kể với các mẫu mới. Còn đối với trường hợp phía bên phải, với cực tiểu nằm trong lưu vực tương đối phẳng, các cập nhật ổn định ở mức không. Hiệu suất lúc này ổn định hơn dưới tác động của nhiễu.

Theo thứ tự đầu tiên, do các lưu vực mất mát (loss basins) không thực sự là lưu vực mà là các thung lũng (valleys) và tại ở đáy của các thung lũng này có những “dòng sông (rivers)” mà có độ mất mát tối tiểu, không đổi. Số chiều của những tập tối tiểu này càng cao, tác động của số chiều của mô hình của bạn càng thấp. Số chiều của các tham số tối ưu cũng phụ thuộc vào phân phối đúng (phân phối gốc) mà sinh ra phân phối của bạn, nhưng thậm chí là nếu tập các tham số tối ưu là zero-dimensional đi chăng nữa thì sự hiện hữu của các tập mức (level sets) ở một số nơi nào đó vẫn có thể ảnh hướng đến quá trình học (learning process) và khả năng suy rộng/ tổng quát hóa (generalization).. Khả năng suy rộng/ tổng quát hóa là một sự cân bằng giữa khả năng biểu diễn (expressivity, nhiều tác động của tham số) và tính đơn giản (simplicity, ít tác động của tham số)

Hình 2. Tính đối xứng làm giảm tác động của số chiều lên mô hình của bạn. Trong ví dụ này, một đường các điểm suy biến thực sự hạn chế bền mặt hàm mất mát hai chiều thành một chiều.

Thực vậy, chính là các kỳ dị của các tập mất mát tối tiểu - tức là các điểm tại đó mà đường tiếp tuyến không được xác định rõ ràng/ không đặt chỉnh (ill-defined) - quyết định hiệu suất suy rộng của mô hình. Khẳng định đáng chú ý của Lý thuyết Học kỳ dị (tức đối tượng trung tâm của nghiên cứu này) là rằng “Nhìn chung, Tri thức (knowledge) $\dots$ cần được khai phá tương ứng với các kỳ dị” [1]. Các kỳ dị phức tạp giúp cho các hàm đơn giản hơn mà có khả năng suy rộng tốt hơn.

Hình 3. Khẳng định trung tâm của Lý thuyết học kỳ dị là các kỳ dị của tập của tối tiểu của hàm mất mát quyết định hành vi học và khả năng suy rộng của mô hình. Các mô hình càng gần với những kỳ dị phức thì càng suy rộng tốt.

Về mặt lý thuyết cơ học, kết quả của những tập mất mát tối tiểu (minimum-loss sets) này xuất phát từ tính đối xứng nội tại của mạng neuralVà từ phân phối gốc (true distribution).: các biến thể liên tục của trọng số của một mạng cho trước nhất định phải thực hiện cùng một phép tính. Nhiều tính đối xứng trong số chúng là “tổng quát (generic)” vì chúng được tiền xác định bởi kiến trúc và luôn luôn hiện hữu. Các tính chất đối xứng thú vị hơn là các tính đối xứng “không tổng quát (non-generic)” mà mô hình học có thể tạo ra hoặc phá vỡ trong quá trình huấn luyện.

Về các tính đối xứng không tổng quát (non-generic symmetries) này, một phần sức mạnh của mạng neural là chúng có thể thay đổi hiệu quả số chiều của chúng. Tính suy rộng/ tổng quát đến từ một dạng lựa chọn mô hình nội tại, trong đó mô hình tìm ra các điểm kỳ dị phức tạp hơn nhưng sử dụng ít tham số hiệu quả hơn, từ đó ưu tiên chọn lọc được các hàm đơn giản hơn và có khả năng tổng quát hóa tốt hơn.

$$ \text{Complex Singularities} \Leftrightarrow \text{Fewer Parameters} \Leftrightarrow \text{Simpler Functions} \Leftrightarrow \text{Better Generalization} $$

Với nhiều rủi ro chỉ trích bởi yêu cầu về tính tao nhã, SLT có vẻ là một con đường đầy hứa hẹn để phát triển một lý thuyết cho sự hiểu biết tốt hơn về tính tổng quát hóa/ suy rộng và những giới hạn trong động lực huấn luyện. Nếu ta may mắn, SLT thậm chí có thể giúp chúng ta xây dựng một lý thuyết thống nhất vĩ đại về quy mô mô hình (grand unified theory of scaling)

Vẫn còn rất nhiều việc phải làm (về mặt tính toán thực tế, các nhà lý thuyết vẫn đang mải mê với các mô hình một lớp sử dụng hàm tanh), nhưng từ một khảo sát ban đầu, Lý thuyết Học kỳ dị có vẻ sâu sắc hơn so với các cách giải thích khác về tính tổng quát hóa. Và điều này không chỉ nằm ở sự sâu sắc; có thể nói rằng Lý thuyết Học kỳ dị là một điều kiện tiên quyết không thể thiếu (non-negotiable prerequisite) cho bất kỳ lý thuyết nào về học sâu. Hãy cùng tìm hiểu sâu hơn.

I. Trở lại với Bayes-ics #

Lý thuyết học kỳ dị bắt đầu với bốn thành phần cơ bản:

$q(x)$ là một số phân phối nào đó mà phát sinh ra các mẫu của chúng ta;
Một mô hình $p(x \mid w)$ mà được tham số hóa bởi trọng số $w \in \mathcal{W} \subset \mathbb{R}^d$ trong đó $\mathcal{W}$ là một tập compact;
Một phân phối tiên nghiệm trên các trọng số $\varphi(w)$;
Và một tập dữ liệu gồm các mẫu $D_n = {X_1, \dots, X_n}$ trong đó mỗi biến ngẫu nhiên $X_i$ i.i.d tương ứng với $q(x)$.

Mục tiêu ở mức thấp (lower-level) của “learning” là tìm kiếm những trọng số tối ưu cho một tập dữ liệu sẵn có. Đối với lý thuyết Bayesian, điều này có ý nghĩa rất cụ thể và hạn chế:

$$ p(w \mid D_n) = \frac{p(D_n \mid w) \varphi(w)}{p(D_n)}. $$

Còn mục tiêu cao hơn của “learning” là tìm kiếm lớp mô hình/ kiến trúc tối ưu $p(x \mid w)$ cho một tập dữ liệu sẵn có. Thay vì cố gắng tìm những trọng số sao cho cực đại likelihood hay thậm chí là cực đại posterior, mục tiêu đúng đắn của Bayesian là tìm kiếm mô hình mà cực đại model evidence, tức là:

$$ p(D_n) = \int_\mathcal{W} p(D_n \mid w)\varphi(w)dw. $$

Thật vậy, mô thức Bayesian có thể tích hợp trọng số của nó để đưa ra các nhận định về toàn bộ các lớp mô hình là một trong những điểm mạnh chính của nó. Và thật vậy, tích phân này ~~thường~~ hầu như luôn luôn khó để giải và đó cũng chính là điểm yếu chính của nó. Thế nên mà Bayesian lựa chọn một hướng giải quyết dựa trên phong cách tần suất với phép tính gần đúng Laplace dễ hiểu hơn nhiều: ta tìm kiếm một lựa chọn của các trọng số $w^{(0)}$ mà cực đại likelihood và sau đó xấp xỉ phân phối như Gaussian ở gần điểm đó.

Hình 4. Xấp xỉ Laplace chỉ là phép thác triển Taylor (bậc hai) của một người làm lý thuyết xác suất mà thôi.

Điều này được chứng minh là hợp lý khi dữ liệu lớn dần $(n \rightarrow \infty)$, nhờ vào định lý giới hạn trung tâm (central limit theorem), phân phối trở nên gần (tiệm cận với) phân phối chuẩn (asymptotically normal) (so sánh với lý thuyết Vật lý và thuật ngữ của họ “mọi thế năng là một hàm điều hòa (harmonic oscillator) nếu ta nhìn nó đủ gần/ tiếp tục hạ nhiệt độ”.)

Từ xấp xỉ này, một ít biến đổi Toán học dẫn dắt chúng ta đến với dạng tiệm cận (asumptotic form) với negative log evidence (khi lấy giới hạn $n \rightarrow \infty$) như sau:

$$ -\log p(D_n) \approx \underbrace{-\log p(D_n \mid w_0)} _{accuracy} \quad+\quad \underbrace{\frac{d}{2}\log{n}} _{simplicity}, $$ trong đó $d$ là chiều của không gian tham số.

Biểu thức này được biết với tên gọi Bayesian Information Criterion (BIC) và nó (khá giống với Akaike information criterion) tạo nên Dao cạo Ockham (Occam’s razor) trong ngôn ngữ của Thống kê Bayesian. Ta có thể chấp nhận dừng lại với các mô hình mà hoạt động kém miễn là chúng đơn giản. Trong ngôn ngữ của phân tích độ phức tạp thuật toán (algorithmic-complexity), BIC có một diễn giải thay thế như một công cụ cho việc tối tiểu độ dài mô tả trong một ngữ cảnh tối ưu mã hóa nào đó.

Thật không may, BIC sai. Hoặc ít nhất là BIC không áp dụng cho bất kỳ mô hình nào mà chúng ta thực sự quan tâm nghiên cứu. Và may mắn thay, lý thuyết học kỳ dị có thể tính toán chính xác dạng tiệm cận và tiết lộ những hàm ý rộng hơn nhiều so với BIC.

II. Lý thuyết học thống kê được xây dựng nên từ một trò lừa dối! #

Thông tin trọng yếu trong nghiên cứu của Watanabe là khi mà ánh xạ hàm tham số hóa (parameter-function map) $$ \mathcal{W} \ni w \rightarrow p(\cdot \mid w) $$ không phải là ánh xạ một-đến-một (injective function, đơn ánh), mọi thứ bắt đầu kỳ quặc. Đó là khi mà những lựa chọn khác nhau của các trọng số tạo nên cùng các hàm, các công cụ của lý thuyết học thống kê bị phá sản. Chúng ta gọi những mô hình này là “không có tính xác định” (non-identifiable).

Hình 5. Khi mà parameter-function map không còn là đơn ánh (one-to-one), thì đối tượng bên phải của nghiên cứu này không phải là không gian tham số mà là không gian hàm/ không gian phân phối.

Lấy ví dụ về phép xấp xỉ Laplace. Nếu có một đối xứng liên tục địa phương trong không gian trọng số, tức là một số hướng bạn có thể đi mà không ảnh hưởng đến mật độ xác suất, thì mật độ của bạn không phải là Gaussian địa phương.

Hình 6. Xấp xỉ Laplace bị phá vỡ khi có một hướng phẳng hoàn hảo.

Ngay cả khi các đối xứng không liên tục, nhìn chung, mô hình sẽ không tiệm cận chuẩn tắc (asymptotically normal). Nói cách khác, định lý giới hạn trung tâm chuẩn (standard central limit theorem) không còn đúng!.

Vấn đề tương tự phát sinh nếu bạn đang xem xét tới bề mặt mất mát (loss landscapes) trong một số trình bày quy chuẩn của học máy. Ở đây, bạn sẽ tìm thấy các nỗ lực để đo thể tích lưu vực “basin” bằng cách khớp một parabol với Hessian của loss landscape tại trọng số cuối cùng đã được huấn luyện xong. Đó là một thủ thuật quen thuộc và nó vẫn tiếp tục gặp cùng vấn đề!.

Đây không phải là loại vấn đề mà bạn có thể giải quyết đơn giản bằng cách thêm một $\epsilon$ nhỏ vào Hessian và coi như xong. Có các cách để khôi phục “thể tích”, nhưng chúng đòi hỏi sự cẩn trọng. Vì vậy, một bài học thực tế ở đây là: nếu bạn thấy mình thêm $\epsilon$ để làm cho Hessian có thể nghịch đảo, hãy nhận ra rằng các hướng không (zero directions) đó thực sự rất quan trọng để hiểu điều gì đang diễn ra trong mạng học. Hãy dành cho các giá trị riêng đó sự tôn trọng mà chúng xứng đáng nhận được.

Hình 7. Thêm epsilon để tạo ra một "giả" parabol là trò tiểu xảo!!!

Hệ quả của các giá trị bằng 0 này (và tất nhiên, chúng thực sự tồn tại trong mạng neural) là chúng làm giảm chiều không gian hiệu quả của mô hình. Một bước di chuyển theo các hướng này không làm thay đổi mô hình thực sự đang được triển khai, do đó bạn có ít tham số hơn để “thực hiện các tác vụ”.

Vấn đề cơ bản ở đây là: hầu hết các mô hình mà chúng ta thực sự quan tâm (không chỉ mạng neural mà còn cả mạng Bayesian, mô hình Markov ẩn (HMMs), mô hình hỗn hợp/ mixture models, máy Boltzmann, v.v.) đều chứa đầy các đối xứng, và điều này có nghĩa là chúng ta không thể áp dụng công cụ thông thường của lý thuyết học thống kê được.

III. Learning (Học) là vật lý kết hợp với likelihoods #

Bây giờ hãy viết lại biểu thức cập nhật Bayes thân yêu của chúng ta như sau:

$$ p(w \mid D_n) = \frac{1}{Z_n}\varphi(w)e^{-n\beta L_n(w)}, $$ trong đó hàm $L_n(w)$ là negative log likelihood được định nghĩa như sau:

$$ L_n(w) := - \frac{1}{n}\log p(D_n \mid w) = -\frac{1}{n}\sum_{i=1}^{n}\log p(x_i \mid w), $$ và $Z_n$ là model evidence, được định nghĩa như sau:

$$ Z_n := p(D_n) = \int_\mathcal{W}\varphi e^{-n\beta L_n(w)}dw. $$

Để ý rằng chúng ta “lé lút” thêm vào một nghịch đảo “nhiệt lượng” (inverse temperature) $\beta > 0$ thế nên giờ đây chúng ta đang nằm trong tempered Bayes paradigm [4].

Mục tiêu hiện tại của thay đổi này là để nhấn mạnh mối liên hệ với Vật lý, trong đó $Z_n$ là một ký hiệu quen thuộc (và “hàm phân hoạch/ partition function” là tên gọi của nó). Tương tự lý thuyết thông tin của hàm phân vùng là năng lượng tự do (free energy): $$ F_n := -\log Z_n, $$ mà sẽ là đối tượng nghiên cứu trung tâm của chúng ta.

Dưới định nghĩa của Hamiltonian (hay “hàm năng lượng/ energy function”), ta có: $$ H_n(w) := nL_n(w) - \frac{1}{\beta}\log \varphi(w), $$

Mối liên hệ giờ đây đã hoàn thiện: Lý thuyết Học thống kê thực chất là Vật lý Toán, trong đó Hamiltonian là một quá trình ngẫu nhiên được xác định bởi xác suất likelihood và phân phối tiên nghiệm (prior distribution). Cũng giống như Hình học của bề mặt năng lượng mà quyết định hành vi của các hệ thống Vật lý mà chúng ta nghiên cứu, Hình học của log-likelihood sẽ quyết định hành vi của các hệ thống học mà chúng ta nghiên cứu.

Trong cách diễn giải Vật lý này, một phân phối hậu nghiệm (posteriori distribution) là trạng thái cân bằng (equilibrium state) gắn liền với Hamiltonian thực nghiệm (empirical Hamiltonian). Ý nghĩa của năng lượng tự do (free energy) nằm ở chỗ giá trị tối thiểu của năng lượng tự do — chứ không phải Hamiltonian — mới quyết định trạng thái cân bằng.

Bước tiếp theo là chuẩn hóa các đại lượng quan tâm này để ta có thể dễ làm việc với chúng hơn. Đối với negative log likelihood, việc chuẩn hóa có nghĩa là trừ đi giá trị tối thiểu (minimum value) của nó. Cần làm rõ rằng việc chuẩn hóa này dựa trên giả định về tính khả thi (assumption of realizability) — nghĩa là tồn tại một số trọng số $w_0$ sao cho $p(x \mid w_0)$ bằng với $q(x)$ gần như ở mọi nơi. Với giả định này, giá trị tối thiểu của negative log likelihood tương ứng với entropy thực nghiệm của hệ thống.

Nhưng điều đó chỉ cho ta KL divergence (phân kỳ KL): $$ K_n(w) = L^0_n(w) := L_n(w) - S_n = \frac{1}{n}\sum_{i = 1}^n\log \frac{q(X_i)}{p(X_i \mid w)}, $$ trong đó $S_n$ là entropy thực nghiệm được định nghĩa như sau: $$ S_n := -\frac{1}{n}\sum_{i = 1}^n\log q(X_i), $$ Dễ thấy, entropy thực nghiệm là một thành phần độc lập với $w$.

Hình 8. Thực chất phân kỳ Kullback-Leibler thực nghiệm chỉ là một phiên bản được thay đổi tỷ lệ và được tịnh tiến của negative log likelihood. Việc ước lượng triển vọng cực đại (Maximum Likelihood Estimation) tương đương với việc tối thiểu hóa độ phân kỳ KL thực nghiệm.

Tương tự, ta chuẩn hóa hàm phân hoạch để có được: $$ Z^0_n = \frac{Z_n}{\prod_{i=1}^n q(X_i)^\beta}. $$ và chuẩn hóa năng lượng tự do để có được: $$ F^0_n = -\log Z^0_n. $$

Điều này cho phép viết lại phân phối hậu nghiệm như sau: $$ p(w \mid D_n) = \frac{1}{Z^0_n}\varphi(w)e^{-n\beta K_n(w)}. $$

Mục tiêu quan trọng của quá trình biến đổi này là làm cho các điểm cực tiểu của biểu thức trong số mũ, $K(w)$, bằng 0. Nếu chúng ta tìm được cách biểu diễn $K(w)$ dưới dạng một đa thức, điều này cho phép chúng ta tận dụng công cụ mạnh mẽ của Hình học Đại số (Algebraic Geometry) - một lĩnh vực nghiên cứu các nghiệm của đa thức. Nhờ vậy, chúng ta đã chuyển vấn đề từ trong Lý thuyết Xác suất và Thống kê thành một vấn đề của Đại số và Hình học.

IV. Tại sao lại “singular” (kỳ dị)? #

Lý thuyết học “kỳ dị” được gọi là “kỳ dị” vì các “điểm kỳ dị” (nơi tiếp tuyến không được xác định rõ/ không đặt chỉnh - ill-defined) của tập hợp các cực tiểu của hàm mất mát của chúng ta, $$ \mathcal{W}_0 := { w_0 \in \mathcal{W} \mid K(w_0) = 0}, $$ quyết định dạng tiệm cận (asymptotic form) của năng lượng tự do. Về mặt Toán học, $\mathcal{W}_0$ là một algebraic variety/ đối tượng đại số mà thực chất là một đa tạp (manifold) có thể bao gồm các điểm kỳ dị, nơi nó không cần phải có cấu trúc Euclid địa phương (locally Euclidean).

Hình 9. Ví dụ về đường cong $ y^2 = x^2 + x^3 $ (tương đương với đối tượng đại số của đa thức $ f(x, y) = x^2 + x^3 - y^2 $). [Nguồn]

Hiển nhiên, thật rất khó khăn để nghiên cứu các đối tượng đại số này khi gần các điểm kỳ dị của chúng. Để làm được điều đó, chúng ta cần “giải quyết các điểm kỳ dị” (resolve the singularities). Điều này được thực hiện bằng cách xây dựng một đối tượng hình học mới, có cấu trúc tốt hơn, mà “bóng” của nó chính là đối tượng ban đầu, sao cho hệ thống mới này giữ được tất cả các đặc điểm quan trọng của hệ thống ban đầu.

Hãy xem hình minh họa sau đây để hiểu rõ hơn. Ý tưởng chính đằng sau việc giải quyết điểm kỳ dị là tạo ra một đa tạp mới $\mathcal{U}$ và một ánh xạ $g: \mathcal{U} \rightarrow \mathcal{W}$, sao cho $K(g(u))$ là một đa thức trong các tọa độ địa phương của $\mathcal{U}$. Chúng ta “gỡ rối” các điểm kỳ dị để trong hệ tọa độ mới để mà chúng giao nhau theo cách “bình thường”.

Hình 10. Dựa trên Hình 2.5 của [1]. Các đường biểu diễn những điểm nằm trong \$\mathcal{W}_0\$. Và các màu sắc ở đây chỉ mang vai trò giữ sự chú ý của ta vào những điểm này.

Do việc “thổi phồng” (blow up) tạo ra một đối tượng mới, chúng ta cần cẩn thận để đảm bảo rằng các đại lượng đo lường cuối cùng không thay đổi theo phép ánh xạ—chúng ta cần tìm các bất biến song tỉ (birational invariants).

Một bất biến song tỉ mà chúng ta đặc biệt quan tâm là ngưỡng chuẩn tắc log thực (RLCT - Real Log Canonical Threshold). Nói một cách đơn giản, RLCT đo lường mức độ “tồi tệ” của một điểm kỳ dị. Chính xác hơn, nó đo lường “chiều không gian hiệu quả” gần điểm kỳ dị đó.

Sau khi điều chỉnh định lý giới hạn trung tâm để áp dụng được cho các mô hình kỳ dị, Watanabe đã dẫn xuất dạng tiệm cận của năng lượng tự do khi $n \rightarrow \infty$: $$ F_n = n\beta S_n + \lambda\log n - (m -1)\log\log n + F^R(\xi) + o_p(1), $$ trong đó $\lambda$ là RLCT, $m$ là “multiplicity” gắn với RLCT, $F^R(\xi)$ là một (well-behaved) biến ngẫu nhiên, and $o_p(1)$ là một biến ngẫu nhiên mà hội tụ (theo nghĩa Xác suất) về không.

Quan sát quan trọng ở đây là hành vi toàn cục của mô hình bị chi phối bởi hành vi địa phương tại các điểm kỳ dị “tồi tệ nhất” của nó.

Đối với các mô hình thông thường (= không kỳ dị), RLCT là $d/2$, và với lựa chọn nhiệt nghịch đảo phù hợp, công thức trên trở nên đơn giản: $$ F_n \approx nS_n + \frac{d}{2}\log n \quad\text{(for regular models)}, $$

Như kỳ vọng, đây chính là BIC (Bayesian Information Criterion)!.

Công thức năng lượng tự do này khái quát hóa BIC từ Lý thuyết Học cổ điển sang Lý thuyết Học kỳ dị, trong đó lý thuyết học thông thường là một trường hợp đặc biệt. Chúng ta thấy rằng các điểm kỳ dị hoạt động như một dạng điều chuẩn ngầm (implicit regularization), phạt các mô hình có chiều không gian hiệu quả cao hơn.

V. Sự chuyển pha là các thao tác kỳ dị! #

Cực tiểu hóa năng lượng tự do đồng nghĩa với việc cực đại hóa bằng chứng mô hình (model evidence) - mà như chúng ta đã biết thì đó chính là cách tiếp cận được ưa chuộng trong Bayesian để lựa chọn mô hình. Các phong cách (paradigms) khác có thể không đồng tình với điều nàyTất nhiên, họ sai., nhưng ít nhất đối với chúng ta, điều này khiến việc cực tiểu năng lượng tự do trở thành mục tiêu trung tâm của Học thống kê.

Giống như trong Học thống kê, trong Vật lý cũng vậy.

Trong các hệ vật lý, chúng ta phân biệt giữa trạng thái vi mô (microstates) như vị trí và vận tốc cụ thể của từng hạt trong một chất khí, với trạng thái vĩ mô (macrostates) như giá trị của thể tích và áp suất. Việc ánh xạ từ trạng thái vi mô sang trạng thái vĩ mô không phải là một đơn ánh chính là điểm khởi đầu của Vật lý Thống kê: các phân phối đồng nhất (uniform distributions) trên trạng thái vi mô dẫn đến các phân phối thú vị hơn trên trạng thái vi mô.

Thường thì, chúng ta quan tâm đến các thay đổi liên tục của các yếu tố điều khiển (như nhiệt độ hoặc vị trí của các bức tường chứa chất khí) dẫn đến những thay đổi rời rạc trong các tham số vĩ mô. Những thay đổi này được gọi là chuyển pha (phase transitions).

Năng lượng tự do là đối tượng trung tâm của nghiên cứu vì các đạo hàm của nó sinh ra những đại lượng mà chúng ta quan tâm (như entropy, nhiệt dung - heat capacity, và áp suất - pressure). Do đó, một chuyển pha tương ứng với một gián đoạn trong một trong các đạo hàm của năng lượng tự do.

Tương tự, trong thiết lập của suy luận Bayesian, năng lượng tự do cũng sinh ra các đại lượng mà chúng ta quan tâm, chẳng hạn như kỳ vọng mất mát suy rộng (expected generalization loss): $$ G_n = \mathbb{E} _{X _{n+1}}[F _{n+1}] - F_n. $$

Ngoại trừ rằng số mẫu $n$ là rời rạc, thì đây thực chất chỉ là một đạo hàm (derivative). Do đó, thực chất $n$ là một dạng “nghịch đảo nhiệt độ” (inverse temperature), giống như $\beta$. Việc tăng số lượng mẫu làm giảm nhiệt độ hiệu quả và đưa chúng ta tiến gần hơn đến trạng thái cơ bản (degenerate ground state).

Tương tự như trong học máy, chúng ta quan tâm đến việc làm thế nào các thay đổi liên tục trong mô hình hoặc trong phân phối đúng để dẫn đến các thay đổi rời rạc trong các hàm mà chúng ta triển khai và do đó gây ra sự gián đoạn trong năng lượng tự do và các đạo hàm của nó.

Một cách để kiểm tra câu hỏi này là nghiên cứu cách các mô hình thay đổi khi chúng ta giới hạn chúng trong một tập con của không gian tham số, $\mathcal{W}^{(i)} \subset \mathcal{W}$. Điều gì xảy ra khi chúng ta thay đổi tập con này?

Nhắc lại rằng năng lượng tự do được định nghĩa như negative log của hàm phân hoạch. Khi ta giới hạn về $\mathcal{W}^{(i)}$, ta thu được một năng lượng tự bị giới hạn (restricted free energy), $$ F_n(\mathcal{W}^{(i)}) := -\log Z_n(\mathcal{W}^{(i)}) = -\log \int_{\mathcal{W}^{(i)} \subset \mathcal{W}} \varphi(w)e^{-n\beta L_n(w)}dw = n\beta S_n(\mathcal{W}^{(i)}) + \lambda^{(i)}\log n - (m^{(i)} - 1)\log\log n + F^R(\xi) + o_p(1), $$

có dạng tiệm cận hoàn toàn tương tự (sau khi hoán đổi các tích phân trên toàn bộ không gian trọng số chỉ với các tích phân trên tập hợp con này). Sự khác biệt quan trọng là RLCT trong phương trình này là RLCT liên quan đến điểm kỳ dị lớn nhất trong $\mathcal{W}^{(i)}$ chứ không phải điểm kỳ dị lớn nhất trong $\mathcal{W}$.

Những gì chúng ta thấy là các chuyển pha trong quá trình học tương ứng với những thay đổi rời rạc trong hình học của cảnh quan mất mát “địa phương (local)” (tức là bị giới hạn, restricted). Hành vi kỳ vọng (expected behavior) của các mô hình trong những tập hợp này được quyết định bởi các điểm kỳ dị lớn nhất gần đó.

Hình 11. Trong quá trình học Bayesian, điểm kỳ dị liên quan trở nên đơn giản hơn dần khi có nhiều dữ liệu hơn. Nói chung, các quá trình học liên quan đến việc cân bằng giữa việc khớp chính xác hơn và các điểm kỳ dị "điều chuẩn hóa". Dựa trên Hình 7.6 trong [1].

Nhìn từ góc độ này, mối liên hệ với Vật lý không chỉ là sự tự tin quá mức của các nhà vật lý khi áp đặt quan điểm của họ lên các lĩnh vực khác. Mối liên hệ này sâu sắc hơn nhiều.

Các nhà vật lý đã biết trong nhiều thập kỷ rằng hành vi vĩ mô của các hệ mà chúng ta quan tâm là hệ quả của các điểm tới hạn trong cảnh quan năng lượng: hành vi toàn cục bị chi phối bởi hành vi cục bộ của một tập hợp nhỏ các điểm kỳ dị. Điều này đúng ở khắp nơi, từ statistical physics, condensed matter theory, cho đến string theory.

Lý thuyết Học kỳ dị cho chúng ta thấy rằng các máy học không khác gì: hình học của các điểm kỳ dị là yếu tố cơ bản trong động lực học của việc học và khái quát hóa.

VI. Mạng neural là sự kỳ dị của tính đối xứng #

Thủ thuật đẳng sau lý do mà mạng neural suy rộng tốt như thế là một số thứ giống như khả năng năng của chúng để khai phá tính đối xứng. Nhiều mô hình sử dụng ưu thế của parameter-function map không phải là một đơn ánh. Và với các mạng neural thì điều này được đưa lên một tầm cao mới.

Có các đối xứng hoán vị rời rạc, trong đó ta có thể lật hai cột trong một lớp miễn là ta lật hai hàng tương ứng trong lớp tiếp theo, ví dụ: $$ \begin{pmatrix} \textcolor{red}{a} & \textcolor{blue}{b} & c \\ \textcolor{red}{d} & \textcolor{blue}{e} & f \\ \textcolor{red}{g} & \textcolor{blue}{h} & i \end{pmatrix} \cdot \begin{pmatrix} \textcolor{red}{j} & \textcolor{red}{k} & \textcolor{red}{l} \\ \textcolor{blue}{m} & \textcolor{blue}{n} & \textcolor{blue}{o} \\ p & q & r \end{pmatrix} = \begin{pmatrix} \textcolor{blue}{b} & \textcolor{red}{a} & c \\ \textcolor{blue}{e} & \textcolor{red}{d} & f \\ \textcolor{blue}{h} & \textcolor{red}{g} & i \end{pmatrix} \cdot \begin{pmatrix} \textcolor{blue}{m} & \textcolor{blue}{n} & \textcolor{blue}{o} \\ \textcolor{red}{j} & \textcolor{red}{k} & \textcolor{red}{l} \\ p & q & r \end{pmatrix} $$

Có những đối xứng tỷ lệ liên quan đến hàm kích hoạt ReLU, $$ \text{ReLU}(x) = \frac{1}{\alpha}(\alpha x), \quad \alpha > 0, $$ và liên hệ với layer norm, $$ \text{LayerNorm}(\alpha x) = \text{LayerNorm}(x), \quad \alpha > 0, $$

(Lưu ý: Những điều này thường bị phá vỡ bởi sự hiện diện của regularization.)

Và có một đối xứng $GL_n$ liên quan đến dòng dư thừa (ta có thể nhân ma trận embedding với bất kỳ ma trận khả nghịch nào miễn là ta áp dụng nghịch đảo của ma trận đó trước các khối attention, các lớp MLP, và lớp unembedding, và nếu ta áp dụng ma trận sau mỗi khối attention và lớp MLP).

Nhưng những đối xứng này thực ra không quá thú vị. Đó là vì chúng mang tính chất chung (generic). Chúng luôn tồn tại với bất kỳ lựa chọn $w$ nào. Những đối xứng thú vị hơn là những đối xứng không tổng quát (non-generic symmetries) phụ thuộc vào $w$.

Sự thay đổi trong các đối xứng không tổng quát này tương ứng với các chuyển pha trong xác suất hậu nghiệm; đây là cơ chế giúp các mạng neural thay đổi chiều hiệu dụng của chúng.

Các đối xứng không tổng quát này bao gồm những thứ như đối xứng nút suy biến (degenerate node symmetry) - là một trường hợp phổ biến khi một trọng số bằng không và không thực hiện được bất cứ công việc nào, và đối xứng tiêu diệt trọng số (weight annihilation symmetry) khi nhiều trọng số không bằng không nhưng kết hợp lại có hiệu quả trọng số bằng không.

Hệ quả là, ngay cả khi các bộ tối ưu hóa của chúng ta không thực hiện suy luận Bayesian một cách rõ ràng, những đối xứng không tổng quát này cho phép các bộ tối ưu hóa thực hiện một dạng lựa chọn mô hình nội tại. Có một sự đánh đổi giữa chiều hiệu dụng (effective dimensionality) thấp hơn và độ chính xác cao hơn, chịu ảnh hưởng bởi các loại chuyển pha giống như đã được thảo luận trong phần trước.

Động lực học có thể không hoàn toàn giống nhau, nhưng chính các điểm kỳ dị và các bất biến hình học của bề mặt mất mát (loss landscape) quyết định động lực học này.

VII. Thảo luận và các giới hạn hiện nay (Ý kiến về các phản bác của tác giả) #

Tất cả các thảo luận trước đó đều áp dụng chung cho bất kỳ mô hình nào mà parameter-function mapping không phải là đơn ánh. Khi điều này xảy ra, Lý thuyết Học kỳ dị (SLT) không chỉ là một loạt giả thuyết thú vị và đáng tranh luận mà còn là một khung lý thuyết cần thiết.

Câu hỏi quan trọng hơn là liệu lý thuyết này có thực sự mang lại điều gì hữu ích trong thực tế hay không. Các đại lượng như RLCT cực kỳ khó tính toán cho các hệ thống thực tế, vậy chúng ta có thể thực sự áp dụng lý thuyết này không?

Tôi cho rằng câu trả lời là có, dù còn dè dặt. Các kết quả hiện tại cho thấy các dự đoán của SLT phù hợp với các thí nghiệm thực tế — các chuyển pha được dự đoán thực sự có thể quan sát được/ observable trong các toy models.

Điều đó không có nghĩa là không có những hạn chế. Tôi sẽ liệt kê một số từ nguồn này [3] và một số ý kiến riêng của tôi.

Trước khi đi sâu vào những phản biện thực sự của tôi, sau đây là một số phản biện mà tôi cho là không thực sự tốt:

“Nhưng chúng ta quan tâm đến việc xấp xỉ hàm!”: Thảo luận này diễn ra trong một bối cảnh rất xác suất. Trong thực tế, chúng ta đang làm việc với các hàm mất mát và xấp xỉ hàm, không phải mật độ. Tôi không nghĩ đây là vấn đề lớn vì thông thường có thể khôi phục cơ sở Bayesian của bạn ngay cả trong việc xấp xỉ hàm xác định. Ngay cả khi không làm được điều đó, tuyên bố chung — rằng hình học của các điểm kỳ dị quyết định động lực học — dường như vẫn khá vững chắc.

“Nhưng chúng ta không huấn luyện đến hoàn chỉnh!”: Tôi mong đợi hầu hết các kết quả sẽ đúng với bất kỳ tập mức mất mát nào — chúng ta chỉ quan tâm đến các điểm kỳ dị nổi trội trong các tập mức mà chúng ta đạt được (ngay cả khi chúng không tối thiểu hóa mất mát hoàn hảo).

“Nhưng việc tính toán (và thậm chí xấp xỉ) RLCT là không khả thi.”: Việc biết sự tồn tại lý thuyết của một thứ có thể giúp ích trong những trường hợp ban đầu tưởng chừng không liên quan. Một phản biện lạc quan hơn là: “Có thể chúng ta tính được điều này cho các mạng neural đơn lớp đơn giản, rồi tìm cách mở rộng lặp đến các lớp sâu hơn.” Điều này thực sự không quá vô lý.

“Nhưng làm sao chuyển đổi kết quả từ $\tanh$ sang các hàm kích hoạt thực tế như swish?”: Giống như nhiều định lý xấp xỉ phổ quát (universal approximation theorems) không phụ thuộc vào chi tiết của hàm kích hoạt, tôi không nghĩ đây là một phản biện lớn đối với lý thuyết.

“Nhưng mạng ReLU không phải có tính giải tích.”: Tôi không rõ, nhưng dường như điều này không quan trọng.

“Nhưng các giới hạn tiệm cận ở $n$ thực sự nói gì về trường hợp hữu hạn?”: Theo quan điểm của tôi trong vật lý thống kê, vài nghìn tỷ mẫu dữ liệu gần với vô hạn hơn là về không.

“Nhưng tất cả điều này chỉ là cách diễn đạt phức tạp của ý tưởng rằng các bể rộng chi phối toàn bộ?”: Thực tế, câu hỏi mà SLT trả lời dường như là một câu hỏi khác: nó nói về lý do tại sao chúng ta kỳ vọng các mô hình nói chung (và dựa trên các khoảnh khắc bậc cao hơn) có thể khái quát hóa.

Những phản biện thực sự của tôi như sau:

“Nhưng các dự đoán về ’lỗi khái quát hóa’ thực chất là một thiết bị lý thuyết không liên quan đến ’lỗi khái quát hóa’ mà chúng ta hiểu trong ML.”: Đây là một ý kiến hợp lý, nhưng tôi lạc quan rằng chúng ta có thể tìm ra các đại lượng mà chúng ta thực sự quan tâm từ những gì hiện tại chúng ta tính được.

“Nhưng suy luận Bayesian liên quan gì đến SGD và các biến thể của nó?”: Điều này quan trọng, đặc biệt khi tôi không hoàn toàn tin vào quan điểm rằng các mạng neural đang thực hiện suy luận Bayesian. Đây vẫn là nguồn nghi ngờ lớn nhất của tôi.

“Nhưng phân phối thực sự không khả kiến.”: Trong phần trình bày này, chúng ta giả định rằng có một lựa chọn tham số $w_0$ sao cho $p(x \mid w_0)$ bằng $q(x)$ gần như ở khắp mọi nơi (đây là tính “khả kiến” hay “hạt nhân sự thật”). Ở các hệ thống thực tế, điều này không bao giờ đúng. Đối với các lý thuyết có thể chuẩn hóa (renormalizable)Renormalizable: Một từ có ý nghĩa kỹ thuật cụ thể nhưng liên quan đến chuẩn hóa trong vật lý thống kê., việc mở rộng kết quả sang trường hợp không thể thực hiện được hóa ra không quá khó. Đối với các lý thuyết không thể chuẩn hóa (non-renormalizable), chúng ta đang ở trong một miền đất mới lạ.

VIII. Chúng ta sẽ đi đến đâu? (Ý kiến định hướng tương lai của tác giả) #

Hy vọng rằng bạn đã cảm nhận được những điểm đặc sắc từ Lý thuyết Học kỳ dị (Singular Learning Theory) và những góc nhìn mà nó mang lại: cảm giác rằng Lý thuyết Học giống như Vật lý kết hợp với xác suất triển vọng, rằng Học là nhiệt động lực học của mất mát (thermodynamics of loss), rằng khái quát hóa/ tổng quát hóa/ khả năng suy rộng là sự hiện diện của kỳ dị và mối quan hệ sâu sắc mang tính phổ quát giữa hành vi toàn cục và hình học địa phương của các điểm kỳ dị.

Công việc này còn rất xa mới hoàn thành, nhưng tác động tiềm năng của nó đến sự hiểu biết của chúng ta về trí tuệ là sâu sắc.

Để kết thúc, hãy cùng khám phá một hướng đi mà tôi thấy đặc biệt thú vị — lý thuyết học kỳ dị như một con đường để dự đoán các quy luật mở rộng (scaling laws) mà chúng ta quan sát được trong các mô hình học sâu [5].

Có sự suy đoán rằng chúng ta có thể chuyển giao các công cụ và ý tưởng của nhóm tái chuẩn hóa (renormalization group), một tập hợp kỹ thuật được phát triển trong vật lý để xử lý các hiện tượng tới hạn và quy mô, nhằm hiểu các chuyển pha (phase transitions)trong các máy học, và cuối cùng là tính toán các hệ số mở rộng từ các nguyên lý đầu tiên.

Mượn lời kêu gọi hành động của Dan Murfet (call to arms) [3]:

It is truly remarkable that resolution of singularities, one of the deepest results in algebraic geometry, together with the theory of critical phenomena and the renormalisation group, some of the deepest ideas in physics, are both implicated in the emerging mathematical theory of deep learning. This is perhaps a hint of the fundamental structure of intelligence, both artificial and natural. There is much to be done!

Thật đáng kinh ngạc khi việc giải quyết các điểm kỳ dị, một trong những kết quả sâu sắc nhất của hình học đại số, cùng với lý thuyết về hiện tượng tới hạn và nhóm tái chuẩn hóa, một số ý tưởng sâu sắc nhất trong vật lý, đều có liên quan đến lý thuyết toán học đang nổi lên của học sâu. Đây có lẽ là một gợi ý về cấu trúc cơ bản của trí tuệ, cả nhân tạo lẫn tự nhiên. Còn rất nhiều việc phải làm!

IX. Tài liệu tham khảo #

[1]: Watanabe 2009

[2]: Carroll 2021

[3]: Metauni 2021-2023 (Super awesome online lecture series hosted in Roblox that you should all check out.)

[4]: Guedj 2019

[5]: Kaplan 2020

Hành động ma quái ở khoảng cách xa trong miền mất mát

Sat, 11 Jan 2025 00:00:00 +0000

Không phải tất cả các cực tiểu toàn cục của miền mất mát (huấn luyện) đều được tạo ra như nhau.

Ngay cả khi chúng đạt được hiệu suất tương đương trên tập huấn luyện, các giải pháp khác nhau có thể hoạt động rất khác nhau trên tập kiểm tra hoặc trên phân phối ngoài mẫu. Vậy tại sao chúng ta thường tìm thấy các giải pháp “đơn giản” có khả năng tổng quát hóa tốt?

Trong một bài viết trước đây, chúng ta đã lập luận rằng câu trả lời là “điểm kỳ dị” — những điểm mất mát cực tiểu với các tiếp tuyến không xác định rõ ràng. Chính những điểm kỳ dị “khó chịu” nhất có tác động lớn nhất đến quá trình học và tổng quát hóa trong giới hạn của dữ liệu lớn. Chúng hoạt động như các bộ điều chỉnh ngầm làm giảm chiều hiệu dụng của mô hình.

Hình 1. Các điểm kỳ dị trong miền mất mát làm giảm chiều hiệu dụng của mô hình, từ đó lựa chọn các mô hình có khả năng tổng quát hóa tốt hơn.

Ngay cả sau khi viết bài giới thiệu về “lý thuyết học kỳ dị” này, chúng ta vẫn thấy luận điểm này kỳ lạ và phản trực giác. Làm thế nào mà hình học cục bộ của một vài điểm cô lập lại quyết định hành vi toàn cục kỳ vọng trên tất cả các máy học trên miền mất mát? Điều gì giải thích cho “hành động ma quái ở khoảng cách xa” của các điểm kỳ dị trong miền mất mát?

Hôm nay, trong bài viết này chúng ta sẽ tìm cách để giải thích trực quan theo kiểu vật lý cho luận điểm này.

Nó có thể tóm tắt như sau: các điểm kỳ dị chuyển đổi chuyển động ngẫu nhiên ở đáy các bồn mất mát thành quá trình tìm kiếm khả năng tổng quát hóa.

Bước đi ngẫu nhiên trên các tập mất mát cực tiểu #

Trước tiên, hãy xem xét giới hạn mà bạn đã huấn luyện quá lâu đến mức chúng ta có thể coi mô hình như bị giới hạn vào một tập các điểm mất mát cực tiểu cố địnhVề mặt kỹ thuật, trong lý thuyết học kỳ dị, chúng ta coi miền mất mát thay đổi với mỗi mẫu bổ sung. Ở đây, chúng ta đang xem xét trường hợp miền mất mát bị đóng băng, và các mẫu mới hoạt động như một loại chuyển động ngẫu nhiên dọc theo tập các điểm mất mát cực tiểu.

Đây là cách để hiểu trực quan: giả sử bạn là một người đi bộ ngẫu nhiên sống trên một đường cong nào đó có các điểm kỳ dị (tự giao cắt, điểm nhọn, và những thứ tương tự). Mỗi bước thời gian, bạn đi một bước có độ dài đồng đều theo một hướng ngẫu nhiên có sẵn. Khi đó, các điểm kỳ dị hoạt động như một loại “bẫy”. Nếu bạn ở gần một điểm kỳ dị, bạn có nhiều khả năng đi một bước hướng tới (và qua) điểm kỳ dị hơn là đi một bước ra xa khỏi điểm kỳ dị.

Hình 2. Nếu chúng ta bắt đầu từ điểm màu xanh lam và lấy mẫu ngẫu nhiên vị trí tiếp theo trong số bảy vị trí có sẵn với kích thước bước cố định, chúng ta có tỷ lệ 6:1 có lợi cho việc di chuyển về phía điểm kỳ dị.

Nó không hoàn toàn là một điểm hút (chúng ta đang trong một thiết lập ngẫu nhiên, nơi bạn vẫn có thể thoát ra khỏi đó thỉnh thoảng), nhưng nó đủ “dính” để điểm kỳ dị “lớn nhất” sẽ chiếm ưu thế trong phân phối ổn định của bạn.

Trong trường hợp rời rạc, đây chỉ là hiện tượng nổi tiếng về việc các nút có bậc cao chi phối phần lớn hành vi kỳ vọng của đồ thị của bạn. Trong kinh doanh, nó là lý do đằng sau sự tồn tại của Google. Trong mạng xã hội, nó tương tự như cách bạn bè trung bình của bạn có nhiều bạn bè hơn bạn.

Để hiểu điều này, hãy xem xét một ví dụ đơn giản: lấy hai đa giác và để chúng giao nhau tại một điểm duy nhất. Tiếp theo, để một người đi bộ ngẫu nhiên chạy tự do trong thiết lập này. Người đi bộ ngẫu nhiên sẽ đi qua mỗi điểm thường xuyên như thế nào?

Hình 3. Lấy hai hoặc nhiều lưới 1D với điều kiện biên hình thỏi và để chúng giao nhau tại một điểm. Trong giới hạn của một đa giác/lưới vô hạn, bạn sẽ có một điểm kỳ dị giao cắt thông thường tại gốc tọa độ.

Nếu bạn đã học một khóa về lý thuyết đồ thị, bạn có thể nhớ rằng phân phối cân bằng đặt trọng số cho các nút tỷ lệ thuận với bậc của chúng. Đối với hai đường thẳng giao nhau, giao điểm có xác suất gấp đôi so với các điểm khác. Đối với ba đường thẳng giao nhau, nó có xác suất gấp ba lần, và cứ tiếp tục như vậy…

Hình 4. Kích thước của hình tròn cho thấy khả năng xuất hiện của điểm đó trong mô phỏng thực nghiệm. Phân phối dừng đặt nhiều trọng số hơn vào gốc tọa độ bằng đúng số lượng đường thẳng giao nhau.

Chuyển động Brown gần tập mất mát cực tiểu #

Không hoàn toàn chính xác. Bạn thấy đấy, việc giới hạn chuyển động của chúng ta dọc theo các điểm mất mát cực tiểu là không thực tế. Chúng ta quan tâm hơn đến thực tế hỗn loạn, nơi chúng ta được phép có một số tự do để di chuyển quanh đáy các bồn mất mát. Chúng ta vẫn coi miền mất mát là đóng băng nhưng bây giờ sẽ cho phép sự khởi hành ra xa khỏi các điểm mất mát cực tiểu.

Lần này, trực quan quan trọng là xem hành vi của gradient giảm dần ngẫu nhiên trong giai đoạn cuối của quá trình huấn luyện như một loại chuyển động Brown. Khi chúng ta đã đạt được một giải pháp mất mát huấn luyện thấp, sự biến đổi giữa các batch là nguồn ngẫu nhiên không còn cải thiện đáng kể mất mát nữa mà chỉ làm chúng ta lắc lư giữa các giải pháp tương đương nhau từ góc nhìn của tập huấn luyện.

Để hiểu được động lực này, chúng ta có thể nghiên cứu trường hợp trừu tượng hơn của chuyển động Brown trong một miền năng lượng liên tục nào đó với các điểm kỳ dị.

Xét hàm thế năng cho bởi $$ U(\mathbf{x}) = \alpha \cdot \min((x_0 - b^2), (x_1 - b)^2) $$

Hàm này được vẽ ở bên trái của hình dưới đây. Phía bên phải mô tả phân phối ổn định tương ứng được dự đoán bởi vật lý “thông thường”. Tức là: phân phối Gibbs.

Hình 5. Một miền năng lượng có tập mất mát cực tiểu với một điểm kỳ dị giao cắt thông thường tại gốc tọa độ. Điều kiện biên hình thỏi như trong trường hợp rời rạc.

Mô phỏng chuyển động Brown trong hố thế này tạo ra một phân phối thực nghiệm trông khá khác với dự đoán thông thường…

Hình 6. Điểm kỳ dị nhận được xác suất cao hơn nhiều so với những gì bạn mong đợi từ vật lý "thông thường".

Giống như trong trường hợp rời rạc, điểm kỳ dị tại gốc tọa độ thu hút mật độ xác suất, ngay cả ở nhiệt độ hữu hạn và ngay cả đối với các điểm xa khỏi tập mất mát cực tiểu.

Kết luận #

Tóm lại, trực quanXin nhấn mạnh: đây chỉ là lời giải thích hình tượng/định tính/theo kiểu vật lý. Đừng coi nó quá nghiêm túc như một mô hình cho những gì SGD thực sự đang làm. Cách “thích hợp” để suy nghĩ về điều này (cảm ơn Dan) là về mật độ các trạng thái. có thể được mô tả như sau: trong trường hợp giới hạn, chúng ta không mong đợi mô hình học được nhiều từ bất kỳ mẫu bổ sung nào. Thay vào đó, sự ngẫu nhiên trong việc lấy mẫu mới hoạt động như chuyển động Brown cho phép mô hình khám phá tập mất mát cực tiểu. Các điểm kỳ dị là một bẫy cho chuyển động Brown này, cho phép mô hình tìm thấy các giải pháp tổng quát hóa tốt chỉ bằng cách di chuyển xung quanh.

Vì vậy, SGD hoạt động hiệu quả vì cuối cùng nó bị mắc kẹt gần các điểm kỳ dị, và các điểm kỳ dị tổng quát hóa tốt hơn.

Bạn có thể tìm thấy mã cho các mô phỏng này tại đây và tại đây.

Thể tích Hessian và Basin

Sat, 11 Jan 2025 00:00:00 +0000

Khi thảo luận về “các lưu vực rộng (broad basins)” trong miền mất mát của một mạng DNN, Hessian của hàm mất mát thường được đề cập. Bài viết này sẽ tập trung giải thích một xấp xỉ lý thuyết đơn giản của thể tích lưu vực (basin volume) mà sử dụng Hessian của hàm mất mát. Lưu ý rằng mô hình này không hề hoàn hảo và cũng không thể tính toán được đối với các mạng học lớn nếu không có thêm các thủ thuật/phép tính gần đúng!.

Giả sử rằng cực tiểu của chúng ta có giá trị mất mát $loss = 0$. Định nghĩa lưu vực (basin) như một vùng của không gian tham số mà rút về vị trí cực tiểu của ta trong đó $loss < \text{threshold } T$. Việc đặt ra một ngưỡng không nhất thiết là một kỳ vọng hay một tiêu chuẩn, nhưng nó giúp việc thiết lập mô hình dễ dàng hơn.

Mô hình đơn giản nhất #

Nếu tất cả các trị riêng của ma trận Hessian đều dương (positive) và không tầm thường (non-trivial) Điều kiện này cơ bản là không bao giờ xảy ra với các mạng học DNN; chúng ta sẽ xử lý một xíu để điều chỉnh vấn đề này trong phần kế tiếp., ta có thể xấp xỉ giá trị hàm mất mát như một parabol được căn giữa dựa trên cực tiểu của ta như sau:

Hình 1. Phần parabol mà chúng ta thấy trên đồ thị chính xác là lưu vực của chúng ta, vì trục thẳng đứng bị cắt ở ngưỡng mất mát.

Trục dọc là mất mát, và mặt phẳng ngang là không gian tham số. Hình dạng của lưu vực trong không gian tham số là bóng của parabol này, là một hình elip.

Các hướng chính của độ cong của parabol được đưa ra bởi các vectơ riêng của Hessian. Độ cong (đạo hàm bậc hai) theo mỗi hướng đó được đưa ra bởi giá trị riêng tương ứng.

Bán kính (Radii) của hình elip: Nếu chúng ta bắt đầu ở cực tiểu và đi theo một hướng chính, mất mát lúc này như một hàm khoảng cách đã di chuyển được tính toán như sau: $$ L(x) = \frac{1}{2}\lambda_i x^2 $$ trong đó $\lambda_i$ là trị riêng Hessian theo hướng đó.

Thế nên với ngưỡng mất mát cho trước của ta $T$, ta sẽ chạm đến ngưỡng đó ở khoảng cách $$ x = \sqrt{\frac{2T}{\lambda_i}} $$ Đây là bán kính của hình elip lưu vực mất mát theo hướng đó.

Thể tích của hình elip được tính như sau: $$ V_{\text{basin}} = V_i\prod_i\sqrt{\frac{2T}{\lambda_i}} $$ trong đó hằng số $V_n$ là thể tích của quả cầu đơn vị trong không gian $n$ chiều. Bởi vì tích của các trị riêng là định thức của ma trận Hessian, nên ta có thể viết lại như sau: $$ V_{\text{basin}} = \frac{V_n(2T)^{n/2}}{\sqrt{\det[Hessian]}} $$

Vì vậy, thể tích lưu vực tỷ lệ nghịch với căn bậc hai của định thức của Hessian. Mọi thứ trong tử số đều là hằng số, vì vậy chỉ có định thức của Hessian là quan trọng trong mô hình này.

Và vấn đề ở đây là với mô hình này là định thức của Hessian thường bằng không, do các trị riêng bằng không.

Sửa lỗi mô hình #

Nếu ta không thêm vào một thành phần chính quy hóa trong hàm mất mát, thì lưu vực như ta đã định nghĩa trước đó thực sự có thể vô cùng lớn (đây không chỉ là vấn đề với mô hình parabol mà còn là đối với nhiều mô hình khác nữa). Tuy nhiên, chúng ta không thực sự quan tâm đến thể tích quá xa gốc tọa độ mà nó không bao giờ đạt tới được.

Một cách có cơ sở để sửa mô hình là xem xét khối lượng được cân nhắc theo phân phối khởi tạo. Cách này dễ làm việc nhất nếu khởi tạo là Gaussian. Để làm cho phép tính dễ hiểu hơn, chúng ta có thể thay thế ellipsoid của mình bằng một “ellipsoid mờ” – tức là một hàm Gaussian đa biến (multivariate Gaussian). Bây giờ chúng ta chỉ cần lấy tích phân của tích của hai hàm Gaussian, điều này hẳn là dễ dàng. Và cũng có một số lý do có cơ sở để sử dụng một “ellipsoid mờ”, mà chúng ta sẽ không giải thích ở đây mà chúng ta sẽ thảo luận trong một bài viết khác (maybe).

Tuy nhiên, điều này chỉ có cơ sở và hợp lý một phần nào đấy. Nếu bạn suy nghĩ kỹ hơn về nó, nó bắt đầu trở nên không rõ ràng: Liệu rằng chúng ta nên sử dụng khởi tạo Gaussian hay ta nên dựa trên chuẩn L2? Còn những trường hợp chuẩn đạt đỉnh trong quá trình huấn luyện và nhỏ ở đầu và cuối quá trình thì sao?

Nếu ta có một chính quy hoá L2 trong hàm mất mát, thì vấn đề khối vô hạn thường biến mất. Thành phần chính quy L2 giúp các trị riêng luôn dương, dẫn đến biểu thức ổn định. Nếu ta dùng weight decay thì ta có diễn giải nó như thành phần chính quy L2 và thêm nó vào hàm mất mát!.

Để có một phép xấp xỉ tương đối đương giản, chúng tôi đề xuất biểu thức như sau: $$ V_{\text{basin}} = \frac{V_n(2T)^{n/2}}{\sqrt{\det[Hessian(Loss) + (\lambda +c)I_n]}} $$ trong đó:

$Loss$ là hàm mất mát mà chưa có thành phần chính quy.
$\lambda$ là lượng trọng số suy giảm (weight decay) (hoặc chính quy hóa L2 $\frac{1}{2}\lambda|\theta|^2$)
$c = k / \sigma^2$, trong đó $\sigma$ là độ lệch chuẩn của Gaussian khởi tạo và $k$ là hằng số theo thứ tự đơn vị. Chúng tôi chưa tính toán chính xác được giá trị $k$ phù hợp nhất về mặt lý thuyết. Nhưng đối với một mô hình thô, $ k = 1$ có lẽ là đủ tốt rồi.
$T$ là ngưỡng mất mát. Nếu bạn thực sự quan tâm đến thể tích tuyệt đối, bạn có thể thử đặt $T$ theo kinh nghiệm bằng cách xem xét nơi xấp xỉ parabol bị phá vỡ. Nếu bạn chỉ quan tâm đến thể tích so với các lưu vực khác, bạn có thể bỏ qua $T$ vì nó là hằng số.

Ước lượng trong thực hành #

Nếu mạng nơ-ron sâu (DNN) mà ta quan tâm có kích thước lớn (ví dụ, >10k tham số), ma trận Hessian trở nên rất phức tạp.Tôi nghĩ việc tính toán trực tiếp các giá trị riêng và vector riêng có độ phức tạp là $O(n^3)$. May mắn thay, có thể ước tính hiệu quả lượng $\det[Hessian(Loss) + (\lambda + c)I_n]$ mà không cần phải tính trực tiếp ma trận Hessian.

Một phương pháp đúngPhương pháp này chỉ hoạt động tốt nếu $(\lambda + c)$ lớn hơn đáng kể so với độ phân giải của phương pháp cầu phương Lanczos ngẫu nhiên. để thực hiện điều này là lấy phổ giá trị riêng của ma trận Hessian bằng cách sử dụng phương pháp cầu phương Lanczos ngẫu nhiên (stochastic Lanczos quadrature). Sau đó, dịch phổ trị riêng lên bởi lượng $λ + c$ và ước tính tích.

Một chút về các công trình gần đây #

Cách “đơn giản” là sử dụng dấu vết (trace) của ma trận Hessian thay vì định thức (determinant). Đây là một cách cực kỳ dễ ước tính: chỉ cần lấy mẫu đạo hàm bậc hai theo các hướng ngẫu nhiên, và giá trị trung bình sẽ tỷ lệ với dấu vết. Vấn đề là dấu vết không phải là thước đo phù hợp và có lẽ là một đại diện kém chính xác cho định thức.

Hầu hết (hoặc tất cả?) các thước đo độ phẳng và thể tích mà tôi thấy trong tài liệu thực chất đều theo dõi dấu vết. Có một nghiên cứu (Keskar et. al.)Bài báo này được trích dẫn rộng rãi và nhìn chung rất chất lượng. dường như điều chỉnh theo hướng không đúng (tăng ảnh hưởng của các giá trị riêng lớn so với dấu vết, trong khi đáng lẽ phải làm ngược lại).Định thức là một tích, vì vậy nó nhạy cảm hơn với các giá trị riêng nhỏ so với dấu vết.

Có một nghiên cứu khác lấy mẫu bán kính elip trong các hướng ngẫu nhiên và tính thể tích của lát cắt elip theo hướng đó (tỷ lệ với $r^n$). Mặc dù về mặt kỹ thuật đây là một ước tính không chệch cho các elip hữu hạn, nhưng phương pháp này gặp hai vấn đề trong thực tế:Tôi đã xác nhận qua mô phỏng rằng phương pháp này có sai sót với $n$ rất lớn. Việc áp dụng điều chỉnh tương đương với $(\lambda+c)I_n$ có thể khắc phục vấn đề đầu tiên nhưng không giải quyết được vấn đề thứ hai.

Elip thường thực sự là vô hạn, nghĩa là phương pháp này đang lấy mẫu để ước tính một lượng vô hạn. (Dễ đoán, ước tính trung vị tăng không giới hạn khi chúng ta tăng số lượng mẫu.)
Có quá ít mẫu để ước tính chính xác định thức, và giá trị được theo dõi trên thực tế khá giống dấu vết.

Lý thuyết thông tin #

Cần bao nhiêu bit để xác định (xác định vị trí) một lưu vực mất mát?

Câu trả lời đơn giản nhất là $−\log2(V)$, trong đó $V$ là thể tích được khởi tạo theo trọng số của lưu vực. Trọng số được thực hiện sao cho nó tích hợp thành 1.

Tài liệu tham khảo #

Bài viết được dịch từ Hessian and Basin volume bởi Vivek Hebbar

Lý thuyết học kỳ dị - Singular Learning Theory

Fri, 10 Jan 2025 00:00:00 +0000

Lý thuyết học kỳ dị hay Singular Learning Theory (SLT) là một lý thuyết cơ sở toán học mới nhằm mục tiêu mở rộng và cải thiện Lý thuyết Học thống kê cổ điển (Traditional Statistical Learning Theory) bằng các kỹ thuật từ các lý thuyết Hình học Đại số (Algebraic geometry), Thống kê Bayesian (Bayesian statistics) và Vật lý Thống kê (Statistical physics). Đây là một lý thuyết đầy hứa hẹn cho việc xây dựng nền tảng toán học của lý thuyết học máy hiện đại.

Giáo trình chính

[1] S. Watanabe. “Algebraic geometry and statistical learning theory”. 2009.

[2] S. Watanabe. “Mathematical theory of Bayesian statistics”. 2018.

Luận văn Thạc sĩ

[1] Spencer Wong’s MSc thesis, May 2022, From Analytic to Algebraic: The Algebraic Geometry of Two Layer Neural Networks.

[2] Liam Carroll’s MSc thesis, October 2021, Phase transitions in neural networks.

[3] Tom Waring’s MSc thesis, October 2021, Geometric Perspectives on Program Synthesis and Semantics.

[4] Matt Farrugia-Roberts’ MSc thesis, October 2022, Structural Degeneracy in Neural Networks.

Luận văn Tiến sĩ

[1] Shaowei Lin’s PhD thesis, 2011, Algebraic Methods for Evaluating Integrals in Bayesian Statistics.

Bài báo khoa học cơ sở

[1] Shun-ichi Amari, T. Ozeki, H. Park, Learning and inference in hierarchical models with singularities, Syst. Comput. Japan 34:7 (2003) 34–42

[2] Sumio Watanabe, Almost all learning machines are singular, Proc. IEEE Symp. Found. Comput. Intell., Apr. 2007, 383–388.

[3] S. Wei, D. Murfet, M. Gong, H. Li , J. Gell-Redman, T. Quella ‘Deep learning is singular, and that’s good’. 2022.

Bài viết

[1] Jesse Hoogland’s blog posts: general intro to SLT, and effects of singularities on dynamics.

[2] Edmund Lau’s blog Probably Singular.

Bài viết được dịch từ: Singular Learning Theory được viết bởi Alexander Gietelink Oldenziel

Research & Teaching

Thu, 27 Jun 2024 23:14:15 +0800

Research in Mathematics and Computational #

(Vietnamese Translation) Cambridge Notes. You can access by using this link.
(Vietnamese Translation) Daniel Raban’s Note Repository. You can access by using this link.

Research in Computer Science and Machine Learning #

Teaching Assistant @ FIT-HCMUS #

Applied in Data Science
Data Hiding and Secret Sharing
Data Structures and Algorithms
Data Mining and Applications
Data Visualization
Fundamental of Artificial Intelligence
Fundemental of Programming
Introduction to Programming
Introduction to Data Science
Introduction to Machine Learning
Introduction to Bigdata
Introduction to Information Technology
Graph Mining
Parallel Programming
Programming for Data Science
Swarm Intelligence

Pre-print on Optimization and Operations Research #

Optimization and Operations Research Journal #

Advanced Modeling and Optimization (Ranking: No Info)
Annals of Operations Research (Ranking: Q1)
Applied Mathematics and Optimization (Ranking: Q1)
ArXiv.org Optimization and Control Preprints (Ranking: No Info)
Computational Optimization and Applications (Ranking: Q1)
Computers & Operations Research (Ranking: Q1)
Discrete Optimization (Ranking: Q2)
European Journal of Operational Research (Ranking: Q1)
INFOR Journal (Ranking: Q2)
INFORMS Journal on Computing (Ranking: Q1)
International Abstracts in Operations Research (Ranking: No Info)
Journal of Combinatorial Optimization (Ranking: Q2)
Journal of Global Optimization (Ranking: Q1)
Journal of Heuristics (Ranking: Q2)
Journal of the Operational Research Society (Ranking: Q1)
Journal of Optimization Theory and Applications (Ranking: Q1)
Mathematical Methods of Operations Research (Ranking: Q2)
Mathematical Programming: Series A and B (Ranking: Q1)
Mathematics of Operations Research (Ranking: Q1)
Naval Research Logistics (Ranking: Q1)
Networks (Ranking: Q1)
Operations Research (Ranking: Q1)
Operations Research Letters (Ranking: Q2)
Optimization (Ranking: Q2)
Optimization and Engineering (Ranking: Q1)
OR Spectrum (Ranking: Q1)
SIAM Journal on Computing (Ranking: Q1)
SIAM Journal on Optimization (Ranking: Q1)
Stochastic Programming E-Print Series (Ranking: No Info)
Transportation Research Part B: Methodological (Ranking: Q1)

Combinatorics and Graph Theory Journal #

Advances in Applied Mathematics (Ranking: Q1)
Advances in Combinatorics (Ranking: No Info)
AKCE International Journal of Graphs and Combinatorics (Ranking: Q2)
Algebra and Discrete Mathematics (Ranking: Q3)
Algebraic Combinatorics (Ranking: Q1)
Annals of Combinatorics (Ranking: Q2)
Ars Combinatoria (Ranking: Q3)
Ars Mathematica Contemporanea (Ranking: Q2)
ArXiv Combinatorics Preprints (Ranking: No Info)
Australasian Journal of Combinatorics (Ranking: Q2)
British Combinatorial Bulletin (Ranking: No Info)
Bulletin of the Institute of Combinatorics and Its Applications (Ranking: No Info)
Combinatorial Theory (Ranking: Q1)
Combinatorica (Ranking: Q1)
Combinatorics, Probability and Computing (Ranking: Q1)
Congressus Numerantium (Ranking: No Info)
Designs, Codes and Cryptography (Ranking: Q1)
DIMACS Series in Discrete Mathematics and Theoretical Computer Science (Surveys) (Ranking: No Info)
DIMACS Technical Reports (Ranking: No Info)
Discrete Analysis (Ranking: Q1)
Discrete Applied Mathematics (Ranking: Q2)
Discrete Mathematics (Ranking: Q2)
Discrete Mathematics and Applications (Ranking: Q3)
Discussiones Mathematicae Graph Theory (Ranking: Q2)
Electronic Journal of Combinatorics (Ranking: Q2)
Electronic Notes in Discrete Mathematics (Ranking: Q3)
Enumerative Combinatorics and Applications (Ranking: No Info)
European Journal of Combinatorics (Ranking: Q1)
Fibonacci Quarterly (Ranking: Q3)
Graph Theory Notes of New York (Ranking: No Info)
Graphs and Combinatorics (Ranking: Q2)
Internet Mathematics (Ranking: Q2)
Journal of Algebraic Combinatorics (Ranking: Q1)
Journal of Combinatorial Designs (Ranking: Q1)
Journal of Combinatorial Mathematics and Combinatorial Computing (Ranking: Q3)
Journal of Combinatorial Theory - Series A (Ranking: Q1)
Journal of Combinatorial Theory - Series B (Ranking: Q1)
Journal of Combinatorics (Ranking: Q2)
Journal of Combinatorics, Information and System Sciences (Ranking: No Info)
Journal of Discrete Mathematical Sciences and Cryptography (Ranking: Q3)
Journal of Graph Algorithms and Applications (Ranking: Q2)
Journal of Graph Theory (Ranking: Q1)
KAM-DIMATIA Preprint Series (Ranking: No Info)
Moscow Journal of Combinatorics and Number Theory (Ranking: Q3)
Order: A Journal on the Theory of Ordered Sets and its Applications (Ranking: Q2)
Quasigroups and Related Systems (Ranking: Q3)
Random Structures and Algorithms (Ranking: Q1)

Theoretical Computer Science Journal #

Acta Informatica (Ranking: Q2)
Algorithmica (Ranking: Q1)
ArXiv.org Computer Science Preprints (Ranking: No Info)
Chicago Journal of Theoretical Computer Science (Ranking: Q3)
CiteSeer Preprints (Ranking: No Info)
Computational Complexity (Ranking: Q2)
Discrete Mathematics & Theoretical Computer Science (Ranking: Q2)
Electronic Colloquium on Computational Complexity (Ranking: No Info)
IEEE Transactions on Information Theory (Ranking: Q1)
Information Processing Letters (Ranking: Q2)
International Journal of Computer Mathematics (Ranking: Q2)
Journal of the ACM (Ranking: Q1)
Journal of Algorithms (Ranking: Q2)
Journal of Automata, Languages and Combinatorics (Ranking: Q3)
Journal of Complexity (Ranking: Q1)
Journal of Computer and System Sciences (Ranking: Q1)
Journal of Cryptology (Ranking: Q1)
Journal of Discrete Algorithms (Ranking: Q2)
Journal of Interconnection Networks (Ranking: Q3)
Mathematical and Computer Modelling (Ranking: Q2)
Mathematical Structures in Computer Science (Ranking: Q2)
Theoretical Computer Science (Ranking: Q1)

Miscellanea #

$\LaTeX$ Resources
Blogs and Advice
Mathematical Journals

JSTOR (lots of back issues of journals)
Electronic Library of Mathematics (lots of free online journals, proceedings, etc.)
Math Journal Archive
Elsevier Science, ScienceDirect, SpringerOnline, SpringerLink, Kluwer Online Journals, Birkhauser, Cambridge University Press, AMS Journals, SIAM Journals, INFORMS Journals, ACM Journals, Project Euclid, Wiley Interscience, World Scientific, Marcel Dekker, Taylor & Francis, Palgrave Macmillan

Mathematical books: Academic Press , A K Peters , AMS, Birkhauser, Cambridge, CRC Press , Dover , INFORMS, International Press, Kluwer , Oxford , Prentice-Hall , SIAM, Springer, Wiley , World Scientific.

Useful blogs/ personal webpages #

Just know stuff. (Or, how to achieve success in a machine learning PhD.) - Patrick Kidger
Ten Simple Rules for Mathematical Writing - Dimitri Bertsekas
Beni Bogoşel’s blog - Beni Bogoşel
Prof. Stephen P. Boyd

Toán học

Thu, 27 Jun 2024 23:14:15 +0800

О себе

Thu, 27 Jun 2024 23:14:15 +0800

В настоящее время я получаю степень магистра прикладной математики в Университете науки, Национальный университет Вьетнама, Хошимин под руководством Assoc. PhD. Vo Si Trong Long.

Ранее я завершил обучение по программе магистратуры в области компьютерных наук в том же учреждении. Мне посчастливилось работать под руководством Prof. PhD. Le Hoai Bac над темой Рассуждения на основе временных графов знаний с использованием обучения с подкреплением.

До магистратуры я получил степень бакалавра в области компьютерных наук, где проводил исследования по теме Завершение графов знаний на основе сверточных нейронных сетей под руководством PhD. Le Ngoc Thanh.

Мои основные исследования сосредоточены на добыче данных из графов, особенно в области графов знаний, включая задачи, связанные с их завершением и рассуждениями. Кроме того, я проявляю глубокий интерес к теоретической информатике — включая такие области, как теория графов и ее приложения, — а также к математике, где мои интересы лежат в области математического программирования, численных методов и тем, связанных с теорией вероятности.

Для получения дополнительной контактной информации:

Резюме (на английском)
Dblp;
Google Scholar;
OpenReview;
Github lnhutnam;
University Email: lnnam@fit.hcmus.edu.vn
Personal Email: nam.lnhut@gmail.com | lnnam298@yandex.com
Социальные сети: Mastodon, Twitter

Публикации в журналах #

[1] Thanh Le, Nam Le, и Bac Le. “Встраивание графов знаний с помощью реляционного вращения и комплексной свертки для предсказания связей.” Expert Systems with Applications 214 (2023): 119122. (ISI, Q1, IF: 8.6 2023)

Публикации на международных конференциях #

[1] Тхань Ле, Нам Ле, и Bac Le. “Модель встраивания с вниманием к сверточным ядрам и динамической матрице отображения для предсказания связей.” В Азиатской конференции по интеллектуальным информационным и баз данных системам, стр. 234-246. Springer, Cham, 2022. (Ранг B, CORERANK 2021)

[2] Tung Luu*, Nam Le, Duc Le, и Bac Le. (2025, февраль). От визуальных объяснений к контрафактическим объяснениям с использованием латентной диффузии. Труды Зимней конференции по применению компьютерного зрения (WACV), 420–429. (Ранг A, CORE 2023, * означает первый автор)

[3] Nam Le, Thanh Le, и Bac Le (2025). Улучшение завершения временных графов знаний с помощью тензорного разложения с учетом контекста отношения-времени и многоракурсной перспективы. В трудах 17-й Международной конференции по агентам и искусственному интеллекту - Том 3, ISBN 978-989-758-737-5, ISSN 2184-433X, страницы 326-333. (Ранг B, CORE 2023) [Слайды]

[4] Nam Le, Thanh Le, и Bac Le (2025). Улучшение прогнозирования временных графов знаний с помощью механизма множественных вознаграждений и обучения с подкреплением, основанного на тензорном разложении с учетом уверенности. В трудах 17-й Международной конференции по агентам и искусственному интеллекту - Том 1, ISBN 978-989-758-737-5, ISSN 2184-433X, страницы 68-79. (Ранг B, CORE 2023) [Слайды]

Публикации на национальных конференциях #

[1] Nam Le, Thanh Le, и Bac Le (2025). Улучшение прогнозирования временных графов знаний с помощью механизма множественных вознаграждений и обучения с подкреплением, дополненного уверенностью. 14-я научная конференция (VNUHCM-US Conf 2024)

Tổng quan về Neuro-Dynamic Programming (NDP)

Sat, 17 Feb 2024 00:00:00 +0000

Neuro-dynamic programming (NDP) là một lớp phương pháp quy hoạch động (dynamic programming - dp) mới dùng cho việc kiểm soát và đưa ra chuỗi các quyết định dưới điều kiện không chắc chắn, mà được nhận định rằng có tiềm năng trong việc giải quyết với các bài toán khó do không gian trạng thái (state space) khổng lồ hay tính chính xác kém của mô hình.

Đây là một lĩnh vực nghiên cứu giao thoa giữa nhiều lĩnh vực khác như mạng nơ-ron (neural networks), khoa học thần kinh (cognitive science), mô phỏng (simulation), và lý thuyết xấp xỉ (approximation theory).

Xem xét một hệ thống mà trong đó những quyết định (decisions) được đưa ra trong các bước hoạt động (stages). Đầu ra của mỗi quyết định không thể được dự đoán hoàn chỉnh nhưng có thể được ước lượng đến một mức nào đó cho đến khi quyết định kế tiếp được đưa ra. (Những) Kết quả của mỗi quyết định không chỉ gây ra những chi phí (cost) nhất định ở hiện tại mà cũng tác động đến ngữ cảnh mà ở đó những quyết định tương lai được đưa ra và do đó sinh ra chi phí trong những bước ở tương lai. Quy hoạch động cung cấp một mô hình toán học của sự đánh đổi giữa chi phí hiện tại và tương lai.

Tổng quan #

Tổng quát, trong mô hình toán DP, ta có một hệ động lực (dynamic system) rời rạc (discrete-time) mà trạng thái của nó phát triển theo xác suất chuyển (transition probabilities) nhất định mà phụ thuộc vào một quyết định/ kiểm soát $u$.

Cụ thể, nếu ta ở trong trạng thái $i$, và chọn quyết định $u$, ta di chuyển đến trạng thái $j$ với xác suất cho trước $p_{ij}(u)$. Hệ quả là chuyển dịch này, ta tạo một chi phí $g(i, u, j)$. Để so sánh, những quyết định sẵn có $u$ là không đủ để thấy được độ lớn của hàm chi phí $g(i, u, j)$; ta phải tính đến trạng thái mong đợi kế tiếp $j$ như thế nào. Do đó, ta cần một cách để xấp hạng hay đánh giá trạng thái $j$. Điều này hoàn toàn thực hiện được bằng cách sử dụng chi phí tối ưu (optimal cost) trên tất cả trạng thái còn lại bắt đầu từ trạng thái $j$, gọi là $J^*(j)$. Những chi phí này có thể chứng minh rằng thỏa mãn một số dạng của đẳng thức Bellman (Bellman’s equation)

$$ J^*(i) = \underset{u}{\min}E\{g(i, u, j) + J^*(j) \mid i, u\}, \quad\text{for all } i, $$

trong đó $j$ là trạng thái kế tiếp của $i$, và $E\{. \mid i, u\}$ đại diện cho giá trị kỳ vọng tương ứng với $j$ với $i$ và $u$ cho trước. Tổng quát mà nói, điều này có nghĩa là tại trạng thái $i$, nó là tối ưu để sử dụng một quyết định $u$ mà đạt được cực tiểu trên. Do đó, những quyết định được xếp hạng dựa trên tổng của chi phí kỳ vọng của thời điểm hiện tại, và chi phí kỳ vọng tối ưu của tất cả các thời điểm kế tiếp.

Mục tiêu của DP là tính toán số học hàm chi phí tối ưu $J^*$. Việc tính toán này có thể hoàn thành ngoại tuyến (offline), tức là trước khi hệ thống thực khởi động vận hành. Một chính sách tối ưu (optimal policy) là một lựa chọn tối ưu (optimal choice) của $u$ với mỗi $i$ được định toán đồng thời với $J^*$, hoặc trong thời gian thực bằng cách cực tiểu vế phải của đẳng thức Bellman. Điều này rất dễ thấy, tuy nhiên trong nhiều bài toán quan trọng mà tính toán cần sử dụng của DP là quá lớn (overwhelming) gây ra bởi một lượng lớn các trạng thái và quyết định. Trong những tình huống đó, hoàn toàn có thể giải quyết bằng cách tìm một lời giải dưới tối ưu (sub-optimal).

Xấp xỉ chi phí trong quy hoạch động #

Các phương pháp NDP là những phương pháp dưới tối ưu (suboptimal method) mà trọng tâm xoay quanh đánh giá xấp xỉ hàm chi phí tối ưu $J^*$, một hoàn khả thi thông quan việc sử dụng mạng neural và/ hay mô phỏng.

Cụ thể, ta thay thế hàm chi phí tối ưu $J^*(j)$ bằng một xấp xỉ $\widetilde{J}(j, r)$, trong đó $r$ là một vector tham số, và ta sử dụng tại trạng thái $i$ một kiểm soát (dưới tối ưu) $\widetilde{u}(i)$ mà đạt được cực tiểu (xấp xỉ) trong vế trái của đẳng thức Bellman:

$$ \widetilde{u}(i) = \arg\underset{u}{\min}E\{g(i, u, j) + \widetilde{J}(j, r) \mid i, u\}, $$

Hàm $\widetilde{J}$ được gọi là hàm tính điểm (scoring function), và giá trị $\widetilde{J}(j, r)$ được gọi điểm (score) của trạng thái $j$. Tổng quát, dạng của $\widetilde{J}$ đã biết và sao cho một vector tham số $r$ tất định, đánh giá $\widetilde{J}(j, r)$ của bất kỳ trạng thái $j$ nào là khá đơn giản.

Ta lưu ý rằng trong một số bài toán cực tiểu hóa trên kiểm soát $u$ của khai triển: $$ E\{g(i, u, j) + \widetilde{J}(j, r) \mid i, u\}, $$ là quá phức tạp hoặc quá tốn thời gian cho việc đưa ra quyết định trong thời gian thực, cho dù nếu điểm $\widetilde{J}(j, r)$ đã được tính toán một cách đơn giản. Thế nên, trong các bài toán như thế ta sử dụng một kỹ thuật liên hệ (related technique) trong đó ta xấp xỉ khai triển cần được tối ưu trong đẳng thức Bellman,

$$ Q(i, u) = E\{g(i, u, j) + {J}^*(j, r) \mid i, u\}, $$ mà được gọi là Q-factor (Nhân tử Q) tương ứng với $(i, u)$.

Cụ thể, ta thay thế $Q(i, u)$ với một xấp xỉ $\widetilde{Q}(i, u, r)$ với $r$ là một vector tham số. Sau đó, sử dụng kiểm soát (dưới tối ưu) tại trạng thái $i$ mà cực tiểu được xấp xỉ Q-factor tương ứng với $i$:

$$ \widetilde{u}(i) = \arg\underset{u}{\min}\widetilde{Q}(i, u, r) $$

Phần lớn những gì sẽ được nói về việc xấp xỉ của hàm chi phí tối ưu (optimal cost function) cũng áp dụng việc xấp xỉ của Q-factor. Trong thực hành, ta sẽ thấy Q-factor được xem là chi phí tối ưu của một bài toán liên quan. Do đó, ta tập trung chính vào việc xấp xỉ hàm chi phí tối ưu $J^*$.

Điều mà ta quan tâm đến trong các bài toán mà có một số lượng lớn trạng thái và trong hàm tính điểm $\widetilde{J}$ mà có thể được mô tả với một số lượng ít hơn (một vector $r$ với số chiều nhỏ). Các hàm tính điểm phát triển với một số lượng tham số ít được gọi là các đặc trưng compact (compact representations), trong khi bảng mô tả của $j^*$ được gọi là bảng đặc trưng tìm kiếm (lookup table representations). Và do đó, trong một compact representation, chỉ một vector $r$ và cấu trúc tổng quát của hàm $\widetilde{J}(\cdot, r)$ là được lưu trữ; điểm $\widetilde{J}(j, r)$ được phát sinh chỉ khi cần thiết.

Lấy ví dụ về vai trò của các thành phần vừa đề cập, $\widetilde{J}(j, r)$ có thể là bất kỳ đầu ra của một số mạng neural nào tương ứng với đầu vào $j$, và $r$ là một vector liên hệ với các trọng số hoặc tham số của mạng neural; hay $\widetilde{J}(j, r)$ có thể phát sinh một mô tả thấp chiều hơn của trạng thái $j$ trong thuật ngữ “đặc trưng có ý nghĩa - significant features” của nó, và $r$ là vector liên hệ của trong số tương đối của các đặc trưng.

Thế nên, trong việc quyết định hàm tính điểm $\widetilde{J}(j, r)$ nảy sinh hai vấn đề mới:

Vấn đề 1: quyết định cấu trúc chung của hàm $\widetilde{J}(j, r)$.
Vấn đề 2: tính toán vector tham số $r$ để giảm thiểu sai số giữa các hàm $J^*(\cdot)$ và $\widetilde{J}(\cdot, r)$

Xấp xỉ gần đúng của hàm chi phí tối ưu đã được sử dụng trước đây trong nhiều bối cảnh DP khác nhau. Các chương trình chơi cờ là một ví dụ thành công. Ý tưởng chính trong các chương trình này là sử dụng bộ đánh giá vị trí - position evaluator để xếp hạng các vị trí quân cờ khác nhau và chọn mỗi lượt một nước đi dẫn đến vị trí có thứ hạng tốt nhất. Người đánh giá vị trí chỉ định một giá trị số cho từng vị trí, theo công thức heuristic bao gồm trọng số cho các đặc điểm khác nhau của vị trí (cân bằng tài nguyên, tính cơ động của quân cờ, độ an toàn của quân vua và các yếu tố khác). Do đó, bộ đánh giá vị trí tương ứng với hàm tính điểm $\widetilde{J}(j, r)$, trong khi trọng số của các đặc trưng tương ứng với vector tham số $r$. Thông thường, một số cấu trúc tổng quát của bộ đánh giá vị trí được lựa chọn, và các trọng số số học được chọn bằng cách thử và sai hay “huấn luyện” bằng một lượng lớn mẫu có sẵn.

Như mô hình chương trình cờ vua gợi ý, trực giác (intuition) về vấn đề, heuristics, thử và sai (trial and error) là những thành phần quan trọng để xây dựng các xấp xỉ chi phí trong DP. Tuy nhiên, điều quan trọng là phải bổ sung phương pháp heuristics và trực giác bằng các kỹ thuật có hệ thống hơn, có thể áp dụng rộng rãi và giữ lại càng nhiều càng tốt các khía cạnh phi heuristic của DP.

NDP nhắm đến việc phát triển nền tảng phương pháp luận cho vấn đề kết hợp quy hoạch động (dynamic programming), đặc trưng compact (compact representations) và mô phỏng (simulation) để cung cấp cơ sở cho cách tiếp cận hợp lý đối với các bài toán quyết định ngẫu nhiên phức tạp (complex stochastic decision problems).

Kiến trúc xấp xỉ #

Một vấn đề quan trọng trong xấp xỉ hàm là lựa chọn kiến trúc (selection of architecture). Đó là lựa chọn một lớp hàm tham số hóa $\widetilde{J}(\cdot, r)$ hay $\widetilde{Q}(\cdot, \cdot, r)$ mà phù hợp với bài toán đang xem xét. Một phương án khả thi là sử dụng một khiến trúc mạng neural nào đó. Ta nên nhấn mạnh rằng việc sử dụng thuật ngữ “mạng neural” trong một ngữ cảnh tổng quát, và bản chất là một từ đồng nghĩa với “kiến trúc xấp xỉ - approximation architecture”. Cụ thể, ta không tự giới hạn về cấu trúc multilayer perceptron với kích hoạt sigmoid truyền thống. Bất kỳ bộ xấp xỉ tổng quát (universal approximator) nào của các ánh xạ phi tuyến đều có thể được sử dụng trong ngữ cảnh này. Bản chất của cấu trúc xấp xỉ được mở ra trong nhiều thảo luận, và nó còn phát triển, lấy ví dụ: radial basis functions, wavelets, polynomials, hay splines, …

Xấp xỉ chi phí có thể thường được tăng cường đáng kể thông qua việc sử dụng rút trích đặc trưng (feature extraction), một quá trình mà ánh xạ trạng thái $i$ về một số vector $f(i)$, được gọi là vector đặc trưng - feature vector liên kết với trạng thái $i$. Nội dung phản ánh của những vector đặc trưng theo một ý nghĩa heuristic đó là thông tin nào có thể được xem xét là đặc trưng quan trọng của trạng thái, và chúng rất hữu dụng trong việc kết hợp tri thức tiên nghiệm (prior knowledge) hay trực giác (intuition) về bài toán và về cấu trúc của bộ kiểm soát tối ưu. Một ví dụ, trong hệ thống xếp hàng bao gồm nhiều hàng đợi, một vectơ đặc trưng có thể liên hệ cho mỗi hàng đợi một bộ chỉ số có ba giá trị (three-value indicator), xác định xem hàng đợi “gần như trống - nearly empty”, “bận vừa phải - moderately busy" hay “gần như đầy - “nearly full”. Trong nhiều trường hợp, việc phân tích có thể bổ sung trực giác để đề xuất các đặc trưng phù hợp cho bài toán hiện tại.

Các vector đặc trưng phần nào hữu ích giúp ta trong việc nắm bắt “các phi tuyến thống trị - dominant nonlinearities” trong hàm chi phí tối ưu $J^*$. Có nghĩa là $J^*$ có thể được xấp xỉ tốt bởi một “relatively smooth” function $\widetilde{J}(f(i))$; Ví dụ, nếu thông qua sự thay đổi các biến từ trạng thái sang đặc trưng, thì hàm $J^*$ bởi thành một hàm (gần như) tuyến tính (linear) hoặc hàm đa thức bậc thấp (low-order polynomial function) của các đặc trưng. Khi một vector đặc trưng có thể được chọn để có tính chất này, người ta có thể xem xét các kiến trúc xấp xỉ trong đó cả đặc trưng và mạng neural (tương đối đơn giản) được sử dụng cùng nhau. Cụ thể, trạng thái được ánh xạ vào một vector đặc trưng, sau đó được sử dụng làm đầu vào cho mạng neural tạo ra điểm số của trạng thái. Tổng quát hơn, có thể cả trạng thái và vector đặc trưng đều được cung cấp làm đầu vào cho mạng neural.

Một phương pháp đơn giản để có được các xấp xỉ gần đúng phức tạp hơn (sophisticated approximations), là phân chia không gian trạng thái thành nhiều tập hợp con và xây dựng một xấp xỉ gần đúng hàm chi phí riêng biệt trong mỗi tập hợp con. Ví dụ: bằng cách sử dụng xấp xỉ gần đúng đa thức tuyến tính (linear approximation) hoặc bậc hai (quadratic polynomial approximation) trong mỗi tập hợp con của phân vùng, người ta có thể xây dựng các xấp xỉ gần đúng tuyến tính hoặc bậc hai từng phần trên toàn bộ không gian trạng thái. Một vấn đề quan trọng ở đây là việc lựa chọn phương pháp phân hoạch không gian trạng thái. Các phân hoạch chính quy (regular partitions) (ví dụ: phân hoạch lưới - grid partitions) có thể được sử dụng, nhưng chúng thường dẫn đến một số lượng lớn các tập hợp con và tính toán rất tốn thời gian. Nói chung, mỗi tập hợp con của phân hoạch phải chứa các trạng thái “tương đồng” sao cho sự biến đổi của chi phí tối ưu trên các trạng thái của tập hợp con tương đối trơn tru (relatively smooth) và có thể xấp xỉ bằng các hàm trơn (smooth functions). Một khả năng thú vị là sử dụng các đặc trưng làm cơ sở cho việc phân hoạch. Cụ thể, người ta có thể sử dụng sự rời rạc hóa (discretization) ít nhiều đều đặn đối với không gian của các đối tượng, điều này gây ra sự phân chia có thể không đều của không gian trạng thái ban đầu. Bằng cách này, mỗi tập hợp con của phân hoạch không đều chứa các trạng thái có “đặc trưng tương tự”.

Mô phỏng và huấn luyện #

Một số những ứng dụng thành công của mạng neural là trong lĩnh vực nhận dạng mẫu (pattern recognition), hồi quy phi tuyến (nonlinear regression), và hệ xác minh phi tuyến (nonlinear system identification). Trong những ứng dụng vừa kể trên, vai trò của mạng neural như một bộ xấp xỉ tổng quát (universal approximator): ánh xạ input-output của mạng khớp với ánh xạ phi tuyến $F$ bằng một tối ưu bình phương tối tiểu (least-squares optimization). Quá trình tối ưu đó được gọi là huấn luyện mạng (training the network). Để thực hiện quá trình huấn luyện, ta cần phải có dữ liệu, tức một tập hợp các cặp $(i, F(i))$ mà thể hiện ánh xạ $F$ cần được xấp xỉ.

Một lưu ý quan trọng là ngược lại với những ứng dụng của mạng neural, trong ngữ cảnh DP thì không có tập dữ liệu input-output sẵn có $(i, J*^*(i))$ mà dùng để xấp xỉ $J^*$ với một kỹ thuật khớp bình phương tối tiểu. Phương pháp khả thi duy nhất là đánh giá (chính xác hoặc xấp xỉ) bằng cách mô phỏng (simulation) các hàm chi phí của các chính sách (dưới tối ưu) cho trước và cố gắng cải thiện lặp đi lặp lại các chính sách này dựa trên kết quả mô phỏng. Điều này tạo ra những khó khăn về phân tích và tính toán mà không phát sinh trong ngữ cảnh huấn luyện mạng neural cổ điển. Thật sự, việc sử dụng mô phỏng để đánh giá xấp xỉ hàm chi phí tối ưu là một ý tưởng mới quan trọng, giúp phân biệt phương pháp được đề cập trong bài với các phương pháp xấp xỉ trước đó có trong DP.

Việc sử dụng mô phỏng cung cấp một lợi ích khác. Nó cho phép những phương pháp mà ta đề cập được sử dụng cho các hệ thống mà khó để mô hình hóa nhưng lại dễ dạng để mô phỏng; đó là, trong một số bài toán mà một mô hình tương mình không hề có sẵn, và hệ thống chỉ có thể được quan sát hoặc trong lúc nó vận hành theo thời gian thực hoặc thông qua một phần mềm mô phỏng. Với các bài toán như thế, các kỹ thuật DP truyền thống là không khả thi, và việc ước lượng của xác xuất chuyển để xây dựng một mô hình toán học thường rất phức tạp hoặc không khả thi.

Có một lợi thế tiềm năng thứ ba của việc mô phỏng. Nó có thể ngầm xác định các trạng thái “quan trọng nhất - most important” hoặc “tiêu biểu nhất - “most representative” của hệ thống. Có vẻ hợp lý rằng nếu những trạng thái này là những trạng thái được truy cập thường xuyên nhất trong quá trình mô phỏng thì hàm tính điểm sẽ có xu hướng ước tính tốt hơn chi phí tối ưu cho các trạng thái này và chính sách dưới tối ưu thu được sẽ hoạt động tốt hơn.

Neuro-Dynamic Programming (NDP) #

Tên gọi neuro-dynamic programming thể hiện mối liên hệ giữa DP và neural network. Trong AI, cái tên reinforcement learning cũng được sử dụng. Trong những thuật ngữ AI nói chung, những phương pháp mà cho phép hệ thống “học để tạo ra những quyết định tốt bằng cách quan sát hành vi của chính nó, và sử dụng một cơ chế nội tại để cải thiện hành động của chúng thông qua một cơ chế tăng cường”. Trong thuật ngữ toán học hơn, “quan sát hành vi của chính chúng” liên hệ đến mô phỏng - simulation, và “cải thiện hành động của chúng thông qua một cơ chế tăng cường” liên hệ đến lược đồ lặp (iterative schemes) cho việc cải thiện chất lượng của xấp xỉ của hàm chi phí tối ưu, hay Q-factor, hay chính sách tối ưu - optimal policy. Đã dần dần nhận ra rằng các kỹ thuật học tăng cường có thể được thúc đẩy và giải thích một cách hiệu quả theo các khái niệm DP cổ điển như lặp giá trị và chính sách.

[SuB98] Sutton, R. S., and Barto, A. G., 1988. Reinforcement Learning, MIT Press, Cambridge, MA.

Hai thuật toán DP cơ sở, policy iteration và value iteration là những điểm bắt đầu cho phương pháp NDP. Việc điều chỉnh đơn giản nhất của phương pháp lặp chính sách (policy iteration) hoạt động như sau:

Bước 1: Bắt đầu với một chính sách cho trước, tức là một số luật cho việc chọn lựa một quyết định $u$ ở mỗi trạng thái khả thi $i$.
Bước 2: Đánh giá một cách xấp xỉ chi phí mà chính sách (như một hàm của trạng thái hiện tại) bởi khớp bình phương tối tiểu một hàm tính điểm $\widetilde{J}(\cdot, r)$ để cho ra được kết quả của các quỹ đạo của những hệ thống được mô phỏng mà sử dụng chính sách đó.
Bước 3: Định nghĩa chính sách mới bằng cách cực tiểu đẳng thức Bellman, trong đó chi phí tối ưu được thay thế bằng hàm tính điểm đã được tính toán.
Bước 4: Lặp lại quá trình bằng cách quay lại từ Bước 1.

[BeT96] Bertsekas, D. P., and Tsitsiklis, J. N., 1996. Neuro-Dynamic Programming, Athena Scientific, Belmont, MA.

Phương pháp xấp xỉ lặp chính sách (approximate policy iteration) được mô tả phía trên tính toán nhiều quỹ đạo mẫu được mô phỏng trước thay đổi vector tham số $r$ của hàm tính điểm $\widetilde{J}(j, r)$. Một phương pháp NDP khác hiệu chỉnh vector tham số $r$ này thường xuyên hơn, nó thực hiệu lấy mẫu các quỹ đạo trạng thái

$$ (i_0, i_1, \dots, i_k, i_{k+1}, \dots) $$

Những quỹ đạo này tương ứng với một chính sách cố định hoặc một chính sách “vét cạn” mà được áp dụng ở trạng thái $i$, kiểm soát $u$ mà cực tiểu khai triển $$ E\{g(i, u, j) + \widetilde{J}(j, r) \mid i, u\} $$ trong đó $r$ là vector tham số hiện tại. Trọng tâm ở đây là kí hiệu của sai khác tạm thời - temporal difference, được định nghĩa bởi $$ d_k = g(i_k, u_k, i_{k+1}) + \widetilde{J}(i_{k+1}, r) - \widetilde{J}(i_{k}, r) $$ và nó thể hiện sự sai khác giữa ước lượng chi phí kỳ vọng $\widetilde{J}(i_{k}, r)$ ở trạng thái $i_k$, và ước lượng chi phí dự đoán $g(i_k, u_k, i_{k+1}) + \widetilde{J}(i_{k+1}, r)$ dựa trên đầu ra của quá trình mô phỏng. Nếu chi phí xấp xỉ là đúng, trung bình của sai khác tạm thời sẽ bằng 0 bởi đẳng thức Bellman. Do đó, giá trị của các sai khác tạm thời có thể được sử dụng để tạo ra một hiểu chỉnh tăng dần cho $r$ mà đảm bảo một xấp xỉ cân bằng (về mặt trung bình) giữa ước lượng chi phí kỳ vọng và ước lượng chi phí dự đoán theo những quy đạo được mô phỏng.

Một số công trình liên quan về technique TD learning:

Với góc nhìn được hình thức hóa bởi Sutton, có thể được cài đặt thông qua việc sử dụng phương pháp gradient descent/stochastic approximation. Với công trình này, một họ các phương pháp được đề xuất, được gọi là $\text{TD}(\lambda)$, được tham số hóa bởi một scalar $\lambda \in [0, 1]$. Cực đại $\text{TD}(1)$ liên hệ đến lặp chính sách và ước lượng bình phương tối tiểu, còn cực tiểu $\text{TD}(0)$ liên hệ đến lặp giá trị và stochastic approximation. Tham khảo:

[Sut88] Sutton, R. S., 1988. “Learning to Predict by the Methods of Temporal Differences,” Machine Learning, Vol. 3, pp. 9-44.

Q-learning được đề xuất bởi Watkins mà trong đó một phương pháp gần giống stochastic approximation mà sử dụng việc lặp qua các Q-factors được đề xuất. Tham khảo:

[Wat89] Watkins, C. J. C. H., “Learning from Delayed Rewards,” Ph.D. Thesis, Cambridge Univ., England.

Trong khi phân tích hội tụ của $\text{TD}(\lambda)$ và Q-learnig cho trường hợp sử dụng các đặc trưng lookup table (lookup table representations) tương đối rõ ràng, thì trong trường hợp các đặc trưng compact (compact representations) vẫn chưa thật sự hoàn chỉnh. Tham khảo:

[Tsi94] Tsitsiklis, J. N., 1994. “Asynchronous Stochastic Approximation and Q-Learning,” Machine Learning, Vol. 16, pp. 185-202.

Một loại phương pháp NDP đơn giản hơn, được gọi là rollout, là xấp xỉ chi phí tối ưu cần đạt được thông qua chi phí của một số chính sách dưới tối ưu tốt chấp nhận được, được gọi base policy. Phụ thuộc vào ngữ cảnh, chi phí của chính sách cơ bản có thể được tính toán bằng một cách giải tích hoặc chung chung thông qua mô phỏng. Trong một phương pháp biến thể, chi phí của chính sách cơ bản được xấp xỉ bằng cách sử dụng một số kiến trúc xấp xỉ. Điều này hoàn toàn khả thi theo góc nhìn về phương pháp này như một bước đơn của một phương pháp lặp chính sách (xấp xỉ khả thi). Phương pháp tiếp cận rollout là một cách đơn giản cụ thể để cài đặt, và nó cũng phù hợp cho on-line replanning, tức là trong một ngữ cảnh mà ở đó tham số của bài toán thay đổi theo thời gian. Tiếp cận rollout kết hợp với rolling horizon approaximations, và trong một số biến thể nó liên hệ đến model predictive control, và receding horizon control. Tham khảo:

[KeG88] Keerthi, S. S., and Gilbert, E. G., 1988. “Optimal, Infinite Horizon Feedback Laws for a General Class of Constrained Discete Time Systems: Stability and Moving-Horizon Approximations,” J. Optimization Theory Appl., Vo. 57, pp. 265-293.

[MoL99] Morari, M., and Lee, J. H., 1999. “Model Predictive Control: Past, Present, and Future,” Computers and Chemical Engineering, Vol. 23, pp. 667-682.

[MRR00] Mayne, D. Q., Rawlings, J. B., Rao, C. V., and Scokaert, P. O. M., 2000. “Constrained Model Predictive Control: Stability and Optimality,” Automatica, Vol. 36, pp. 789-814.

Mặc dù ít tham vọng hơn so với phương pháp lặp lại chính sách gần đúng và các phương pháp TD đã đề cập trước đó, rollout algorithms đã hoạt động tốt một cách đáng ngạc nhiên trong nhiều nghiên cứu và ứng dụng, thường đạt được sự cải thiện ngoạn mục so với chính sách cơ bản.

Trong khi một số kết quả lý thuyết hỗ trợ cho các phương pháp NDP chỉ mới phát triển trong thời gian gần đầy, có tương đối nhiều các báo cáo về sự thành công với một số bài toán lớn và phức tạp mà không thể giải quyết được bằng bất kỳ phương pháp nào khác. Chi tiếp có thể tham khảo trong bài báo:

Bertsekas, D. P., & Tsitsiklis, J. N. (1995, December). Neuro-dynamic programming: an overview. In Proceedings of 1995 34th IEEE conference on decision and control (Vol. 1, pp. 560-564). IEEE.

Phương pháp giải toán #

Policy space and actor-critic algorithms

P. Marbach and J. N. Tsitsiklis, “Simulation-Based Optimization of Markov Reward Processes,” IEEE Transactions on Automatic Control, Vol. 46, No. 2, pp. 191-209, February 2001.

P. Marbach and J. N. Tsitsiklis, “Approximate Gradient Methods in Policy-Space Optimization of Markov Reward Processes”, Journal of Discrete Event Dynamical Systems, Vol. 13, pp. 111-148, 2003. (preliminary version: “Simulation-based optimization of Markov reward processes: implementation issues,” in Proceedings of the 38th IEEE Conference on Decision and Control, December 1999, pp. 1769-1774.)

V. R. Konda and J. N. Tsitsiklis, “Actor-Critic Algorithms” , SIAM Journal on Control and Optimization, Vol. 42, No. 4, 2003, pp. 1143-1166. Appendix

V. R. Konda and J. N. Tsitsiklis, “Actor-Critic Algorithms”, in Advances in Neural Information Processing Systems 12, Denver, Colorado, November 1999, pp. 1008-1014.

V. R. Konda and J. N. Tsitsiklis, “Linear Stochastic Approximation Driven by Slowly Varying Markov Chains”, Systems and Control Letters, Vol. 50, No. 2, 2003, pp. 95-102.

Average cost temporal difference learning

J. N. Tsitsiklis, and B. Van Roy, “Average Cost Temporal-Difference Learning”, Automatica, Vol. 35, No. 11, November 1999, pp. 1799-1808.

J. N. Tsitsiklis and B. Van Roy, “On Average Versus Discounted Reward Temporal-Difference Learning”, Machine Learning, Vol. 49, No. 2, pp. 179-191, November 2002.

Convergence of methods based on value function learning

J. N. Tsitsiklis, “On the Convergence of Optimistic Policy Iteration”, Journal of Machine Learning Research, Vol. 3, July 2002, pp. 59-72.

J. N. Tsitsiklis and B. Van Roy, “Optimal Stopping of Markov Processes: Hilbert Space Theory, Approximation Algorithms, and an Application to Pricing Financial Derivatives”, IEEE Transactions on Automatic Control, Vol. 44, No. 10, October 1999, pp. 1840-1851.

J. N. Tsitsiklis and B. Van Roy, “An Analysis of Temporal-Difference Learning with Function Approximation”, IEEE Transactions on Automatic Control, Vol. 42, No. 5, May 1997, pp. 674-690.

J. N. Tsitsiklis and B. Van Roy, “Feature-Based Methods for Large Scale Dynamic Programming”, Machine Learning, Vol. 22, 1996, pp. 59-94.

J. N. Tsitsiklis, “Asynchronous Stochastic Approximation and Q-learning”, Machine Learning, 16, 1994, pp. 185-202. Correction.

Rollout algorithms

D. P. Bertsekas, J. N. Tsitsiklis, and C. Wu, “Rollout Algorithms for Combinatorial Optimization”, Journal of Heuristics, Vol. 3, 1997, pp. 245-262.

Ứng dụng thực hành #

Retailing

S. Mannor, D. I. Simester, P. Sun, and J. N. Tsitsiklis, “Bias and Variance Approximation in Value Function Estimates,” Management Science, Vol. 53, No. 2, February 2007, pp. 308-322; Appendix.

D. I. Simester, P. Sun, and J. N. Tsitsiklis, “Dynamic Catalog Mailing Policies,” Management Science, Vol. 52, No. 5, May 2006, pp. 683-696.

Finance

J. N. Tsitsiklis and B. Van Roy, “Regression Methods for Pricing Complex American–Style Options,” IEEE Trans. on Neural Networks, Vol. 12, No. 4, July 2001, pp. 694-703.

Inventory management

B. Van Roy, D. P. Bertsekas, Y. Lee, and J. N. Tsitsiklis, “A Neuro-Dynamic Programming Approach to Retailer Inventory Management”, November 1996. Short version in Proceedings of the 36th IEEE Conference on Decision and Control, San Diego, California, December 1997, pp. 4052-4057.

Communication networks

P. Marbach, O. Mihatsch, and J. N. Tsitsiklis, “Call Admission Control and Routing in Integrated Service Networks Using Neuro-Dynamic Programming,” IEEE Journal on Selected Areas in Communications, Vol. 18, No. 2, February 2000, pp. 197-208.

Tài liệu tham khảo

[1] Bertsekas, D. P., & Tsitsiklis, J. N. (1995, December). Neuro-dynamic programming: an overview. In Proceedings of 1995 34th IEEE conference on decision and control (Vol. 1, pp. 560-564). IEEE.

Các thuật toán dự đoán liên kết

Fri, 03 Nov 2023 00:00:00 +0000

Mở đầu #

Dịch từ: Link prediction algorithms

"Prediction is very difficult, especially if it's about the future." (Tạm dịch: Dự đoán thì rất là khó, đặc biệt là khi nói về tương lai!.) —Nils Bohr, Nobel laureate in Physics

Mạng xã hội (social networks) là một cách phổ thông để mô hình tương tác giữa con người trong một nhóm hay cộng đồng. Chúng có thể được trực quan hóa như đồ thị (graphs), trong đó một đỉnh (vertex) tương ứng với một người trong một số nhóm và một cạnh thể hiện một số dạng của sự liên hệ giữa những người tương ứng. Mạng xã hội luôn luôn động (dynamic) vì những cạnh mới và những đỉnh mới được thêm vào đồ thị theo thời gian. Hiểu về tính động, tức là sự phát triển của một mạng xã hội là một bài toán phức tạp do ta phải xử lý một số lượng lớn các biến tham số (variable parameters).

Nhưng, một bài toán tương đối dễ hơn là hiểu về mối liên kết giữa hai nút cụ thể. Ví dụ như, một số câu hỏi thú vị mà có thể được đưa ra như sau:

Các mẫu liên kết (association patterns) thay đổi như thế nào theo thời gian?
Sự liên kết giữa hai nút bị ảnh hưởng bởi các nút khác như thế nào? Bài toán chúng ta muốn giải quyết ở đây là dự đoán triển vọng của một liên kết tương lai giữa hai nút, biết rằng không có mối liên hệ nào giữa các nút đó trong trạng thái hiện tại của đồ thị. Bài toán này được gọi là bài toán dự đoán liên kết (Link prediction problem). [1]

Trong thực tế, bài toán dự đoán liên kết yêu cầu: sự phát triển của mạng xã hội có thể được mô hình hóa ở mức độ nào bằng cách sử dụng các đặc trưng nội tại của cấu trúc tô-pô mạng? Trạng thái hiện tại của mạng có thể được sử dụng để dự đoán các liên kết trong tương lai không?

Bài toán dự đoán liên kết cũng được liên hệ với bài toán suy diễn các liên kết bị thiếu (problem of inferring missing links) từ một mạng quan sát được: trong một số miền tri thức, người ta xây dựng một mạng lưới của sự tương tác dựa trên dữ liệu quan sát được, và sau đó cố gắng suy diễn những liên kết bổ sung mà không xuất hiện trực tiếp và có khả năng tồn tại. Vấn đề khác với bài toán dự đoán liên kết ở chỗ nó thực thi với một đồ thị tĩnh (một snapshot), thay vì xem xét sự phát triển của mạng; nó cũng có xu hướng tính đến các thuộc tính cụ thể của các nút trong mạng, thay vì đánh giá sức mạnh của các phương pháp dự đoán hoàn toàn dựa trên cấu trúc đồ thị.[2]

Ví dụ, trong trường hợp của facebook, với tính năng “friend finder”, họ có thể đề xuất những người mà bạn thấy đủ thú vị để kết nối có thể dẫn đến tình bạn thực sự ngoài đời thực (người giới thiệu bạn mới), điều này có thể nâng cao lòng trung thành của cả hai bên đối với dịch vụ của facebook (do đó giúp facebook kiếm được nhiều tiền hơn). Hoặc họ có thể gợi ý những người bạn mà bạn đã biết nhưng chưa kết nối qua facebook (xây dựng mạng lưới tình bạn hiện tại trên facebook). Ví dụ sau tương ứng với phát biểu của vấn đề ban đầu trong khi ví dụ trước tương ứng với dự đoán về các liên kết bị thiếu (vấn đề liên quan thứ hai). Thật vậy, facebook chỉ cố gắng thực hiện nhiệm vụ thứ hai.

Vượt ra ngoài ngữ cảnh mạng xã hội, bài toán dự đoán liên kết có nhiều ứng dụng khác. Ví dụ, trong sinh tin học (bioinformatics), dự đoán liên kết có thể được sử dụng để tìm tương tác giữa các protein; trong kinh tế số (e-commerce), nó có thể giúp ích trong việc xây dựng các hệ thống gợi ý như tính năng “people who bought this also bought” trên Amazon; và trong lĩnh vực bảo mật (security domain), dự đoán liên kết có thể hỗ trợ trong việc xác định các nhóm ẩn danh của những kẻ khủng bố hoặc tội phạm. Hơn nữa, nhiều nghiên cứu được tiến hành trên mạng đồng tác giả (co-authorship networks) (ví dụ như trong các tạp chí khoa học, với các cạnh nối các cặp có bài báo đồng tác giả). Hai nhà khoa học “thân thiết” trong mạng lưới sẽ có những đồng nghiệp chung và sẽ đi theo những vòng tròn tương tự nhau; sự gần gũi về mặt xã hội này cho thấy rằng bản thân họ có nhiều khả năng cộng tác hơn trong tương lai gần. Do đó, dự đoán liên kết trong ứng dụng này có thể được sử dụng để tăng tốc kết nối/hợp tác chuyên môn hoặc học thuật cùng có lợi mà lẽ ra sẽ mất nhiều thời gian hơn để hình thành một cách tình cờ.

Phát biểu bài toán #

Cho trước một đồ thị vô hướng, không trọng số (unweighted, undirected graph), $G = (V, E)$ thể hiện cấu trúc tô-pô của một mạng xã hội mà trong đó mỗi cạnh $e = \left \langle u,v\right \rangle \in E$ thể hiện một tương tác giữa $u$ và $v$ xuất hiện ở một thời gian cụ ghể $t(e)$.

Và cũng, với một nút $x$, $\Gamma(x)$ thể hiện tập các láng giềng của $x$. $Degree(x)$ là kích thước của $\Gamma(x)$.

Với hai thời điểm, $t$ và $t’ > t$, gọi $G[t,t’]$ đại diện cho đồ thị con của $G$ bao gồm tất cả các cạnh với một khoảng thời gian giữa $t$ và $t’$. Gọi $t_0$, $t’_0$, và $t’_1$ là bốn thời điểm, trong đó $t_0 < t’_0 \leq t_1 < t’_1$. Ta có bài toán dự đoán liên kết:

Đầu vào (input): $G[t_0,t’_0]$
Đầu ra (output): một danh sách của các cạnh không thể hiện trong $G[t_0,t’_0]$ mà được dự đoán là xuất hiện trong mạng $G[t_1,t’_1]$ Ta có thể xem: $[t_0,t’_0]$ = training interval và $[t_1,t’_1]$ = test interval.

Cho trước một snapshot của mạng xã hội tại thời điểm $t$ (hoặc sự phát triển mạng giữa $t_1$ và $t_2$), tìm cách dự đoán chính xác các cạnh sẽ được thêm vào mạng trong khoảng thời gian từ thời gian $t$ (hoặc $t_2$) đến thời điểm $t'$ nhất định trong tương lai.

Để sinh ra danh sách này, chúng ta sử dụng các thuật toán heuristic (heuristic algorithms) mà gán một ma trận tương đồng (similarity matrix) $S$ mà những phần tử thực $s_{xy}$ là điểm số giữa $x$ và $y$. Điểm này có thể được xem như thước đo mức độ tương đồng giữa các nút $x$ và $y$. Với mỗi cặp nút, $x, y \in V$, một cách tổng quát $s_{xy} = s_{yx}$. Tất cả các liên kết không tồn tại được sắp xếp theo thứ tự giảm dần theo điểm số của chúng và các liên kết ở trên cùng có nhiều khả năng tồn tại nhất. [4]

Vì chúng ta thực sự không thể dự đoán tương lai nên để kiểm tra độ chính xác của thuật toán, một phần liên kết được quan sát $E$ (giả sử là $90%$ tổng số) của một số tập dữ liệu tương tác đã biết được chọn ngẫu nhiên dưới dạng tập huấn luyện, $ET$, phần còn lại các liên kết (10% tổng số) được sử dụng làm bộ thăm dò, $EP$, để dự đoán và không có thông tin nào trong bộ này được phép sử dụng để dự đoán. Một cách rõ ràng, $E = ET \cup EP$ và $ET \cap EP = \oslash$. Chất lượng dự đoán được đánh giá bằng một độ đo tiêu chuẩn (standard metric), diện tích dưới đường cong ROC (AUC - Area under the ROC Curve). Số liệu này có thể được hiểu là xác suất liên kết bị thiếu được chọn ngẫu nhiên (liên kết trong $EP$) được cho điểm cao hơn liên kết không tồn tại được chọn ngẫu nhiên (liên kết trong $U$ nhưng không phải trong $E$, trong đó $U$ biểu thị tập phổ quát) [8]. Trong số $n$ so sánh độc lập, nếu có $n’$ lần xuất hiện liên kết bị thiếu có điểm cao hơn và $n’’$ lần xuất hiện liên kết bị thiếu và liên kết không tồn tại có cùng điểm, chúng tôi xác định độ chính xác là:

$$ AUC = \frac{n’ + 0.5n’’}{n} $$

Nếu tất cả các điểm được tạo ra từ một phân phối độc lập và giống hệt nhau thì độ chính xác sẽ vào khoảng 0,5. Do đó, mức độ chính xác vượt quá 0,5 cho thấy thuật toán hoạt động tốt hơn bao nhiêu so với cơ hội thuần túy.

Những lối tắt hữu dụng #

Các mạng xã hội được định nghĩa bởi các cấu trúc mà nút của nó thể hiện con người hoặc những thực thể khác được nhúng trong một ngữ cảnh xã hội, và những cạnh của nó thể hiện tương tác, cộng tác, hoặc tác động giữa những thực thể. Như vậy, những mạng lưới này có nhiều thuộc tính thường được biết, như power law degree distribution [Barabasi and Albert 1999], small world phenomenon [Watts and Strogatz 1998], community structure (clustering effect) [Girvan and Newman 2002].

Tác động thế giới nhỏ - small world effect chỉ đến hiện tượng mà trung bình khoảng cách trong mạng lưới thì rất nhỏ để so sánh với kích thước của mạng. Điều đó có nghĩa là mỗi cặp nút có thể được kết nối thông qua một đường dẫn ngắn trong mạng. Trong thí nghiệm nổi tiếng của mình, Stanley Milgram đã thách thức mọi người gửi bưu thiếp đến một người nhận cố định bằng cách chỉ chuyển chúng qua những người quen biết trực tiếp. Milgram phát hiện ra rằng số lượng trung gian trung bình trên đường đi của bưu thiếp nằm trong khoảng từ 4,4 đến 5,7, tùy thuộc vào mẫu người được chọn. Facebook vừa mới báo cáo kết quả tính toán khoảng cách đồ thị mạng xã hội quy mô thế giới (world-scale social-network graph-distance computation) đầu tiên của họ, sử dụng toàn bộ mạng lưới người dùng đang hoạt động của Facebook (721 triệu người dùng, 69 tỷ liên kết bạn bè). Họ phát hiện ra rằng khoảng cách trung bình là 4,74, tương ứng với 3,74 trung gian hay “degrees of separation - bậc tách biệt”.

Small world effect

Tác động phi quy mô - scale-free effect chỉ đến hiện tượng mà hầu hết các liên kết của các nút thì rất nhỏ trong mạng lưới; chỉ một số ít nút có nhiều liên kết. Trong mạng lưới như thế, các nút với bậc cao được gọi là hubs (hinge node). Nút hub thống trị sự vận hành của mạng lưới. Tác động phi quy mô hay scale-free effect cho thấy phân phối bậc nút không đồng đều một cách nghiêm trọng trong mạng quy mô lớn (areto, heavy-tailed, or Zipfian degree distributions). Hiện tượng này được ghi nhận ở mức độ phân bổ của mạng toàn cầu (world-wide web).

Power law degree distribution

Tác động gom cụm - clustering effect đề cập đến hiện tượng có một nhóm bạn bè, người quen, vòng tròn và các nhóm nhỏ khác trên mạng xã hội. Mỗi thành viên trong nhóm nhỏ đều biết nhau. Hiện tượng này cũng có thể được mô tả bằng khái niệm đóng cửa bộ ba: có nhiều sơ đồ con được kết nối đầy đủ trong mạng xã hội.

Tại sao đây là một bài toán khó #

Với một mạng xã hội $G(V, E)$, ở đây có $V \times V - E$ cạnh khả thi để lựa chọn, nếu chúng ta chọn một cách ngẫu nhiên một cạnh để dự đoán cho mạng xã hội đang tồn tại của chúng ta. Nếu $G$ dày đặc, thì $E \approx V^2 - b$ trong đó $b$ là một hằng số giữa $1$ và $V$. Dẫn đến, ta có một số lượng cạnh cố định để chọn, và $O(1/c)$ xác suất của việc chọn đúng đắn một cách ngẫu nhiên. Nếu $G$ thưa, thì $E \approx V$. Dẫn đến, ta có $V^2$ cạnh để chọn, và $O(1/V^2)$ xác suất của việc chọn đúng một cách ngẫu nhiên. Không may rằng các mạng xã hội thường là các mạng thưa, và do đó việc chọn một cách ngẫu nhiên là một ý tưởng tệ!

Trong bộ dữ liệu DBLP, vào năm 2000. tỷ lệ liên kết thực sự và khả thi là rất thấp, $2 \times 10^{-5}$. Vì vậy, trong một tập dữ liệu được lấy mẫu thống nhất với một triệu trường hợp huấn luyện, chúng ta chỉ có thể mong đợi 20 trường hợp tích cực. Tệ hơn nữa, tỷ lệ giữa số lượng liên kết tích cực và số lượng liên kết có thể có cũng giảm dần theo thời gian, vì các liên kết tiêu cực tăng trưởng bậc hai trong khi liên kết tích cực chỉ tăng trưởng tuyến tính với một nút mới.

Trong khoảng thời gian 10 năm, từ 1995 đến 2004, số lượng tác giả trong DBLP đã tăng từ 22 nghìn lên 286 nghìn, nghĩa là số lượng hợp tác có thể tăng lên theo hệ số 169, trong khi số lượng hợp tác thực tế chỉ tăng theo hệ số 21.

Những khoảng cách tương đồng #

Graph Distance - Khoảng cách đồ thị

Có lẽ khoảng cách trực tiếp để định lượng hai nút tương đồng như thế nào là khoảng cách đồ thị (graph distance). Nó được định nghĩa bằng âm khoảng cách đường đi ngắn nhất (negative of the shortest-path distance) từ $x$ đến $y$.

Lưu ý rằng, khi đồ thị $G$ có hàng triệu đỉnh, thật không hiệu quả nếu áp dụng thuật toán $Dijkstra$ để tính toán khoảng cách đường đi ngắn nhất từ $x$ đến $y$. Thay vì vậy, ta khai phá tính chất thế giới nhỏ (small-world) của mạng xã hội và áp dụng vòng tìm kiếm được mở rộng để tính toán khoảng cách đường đi ngắn nhất từ $x$ đến $y$.

Độ đo này tuân theo quan điểm cho rằng mạng xã hội là những thế giới nhỏ (small world), trong đó các cá thể (individuals) có liên quan với nhau thông qua các mắt xích ngắn.

Một cách cụ thể, ta khởi tạo tập $S = \{x\}$ và $D = \{y\}$. Trong mỗi bước, ta mở rộng tập $S$ để bao gồm những thành phần láng giềng của nó, tức là $S = S \cup \{v \mid \left \langle u, v \right \rangle \in E \wedge u \in S\}$, hoặc mở rộng tập $D$ để bao gồm những thành phần không là láng giềng của nó, tức là $D = D \cap \{v \mid \left \langle u, v \right \rangle \in E \wedge v \in D\}$. Ta dừng thuật toán khi $S \cap D \ne \oslash$. Số bước đã thực hiện cho đến hiện tại cho ta khoảng cách đường đi ngắn nhất. Để hiệu quả, ta luôn luôn mở rộng tập nhỏ hơn giữa $S$ và $D$ trong mỗi bước. [10]

Việc sử dụng khoảng cách đường đi ngắn nhất bị phủ định (thay vì ban đầu) đảm bảo rằng độ gần $GD(x,y)$ tăng khi $x$ và $y$ tiến gần hơn.

Common Neighbors - Láng giềng chung

Láng giềng chung dựa trên quan niệm rằng hai người lạ có một người bạn chung có thể được người bạn đó giới thiệu. Quan niệm này có tác động của “tam giác đóng” trong đồ thị và giống như một cơ chế phần chung trong cuộc sống đời thật. Newman [7] đã tính toán định lượng này trong ngữ cảnh các mạng cộng tác (collaboration networks), xác định một tương quan dương giữa số lượng láng giềng chung của $x$ và $y$ tại thời điểm $t$, và xác suất mà $x$ và $y$ sẽ cộng tác tại một số thời điểm sau $t$.

độ phức tạp của việc so sánh danh sách: $O(V \cdot VlogV)$

tam giác đóng

Jaccard’s Coefficient - Hệ số Jaccard

Hệ số Jaccard, một khoảng cách tương đồng (similarity metric) mà được sử dụng thường xuyên trong truy vấn thông tin (information retrieval), nó đo lường xác suất mà cả $x$ và $y$ có cùng đặc trưng $f$, với một cách ngẫu nhiên với đặc trưng được lựa chọn $f$ mà hoặc $x$ hoặc $y$ có. Nếu ta lấy “đặc trưng” ở đây trở thành các láng giềng, thì độ do9 này nắm bắt quan điểm hấp dẫn về trực giác rằng tỷ lệ các đồng tác giả của $x$ cũng đã từng làm việc với $y$ (và ngược lại) là một thước đo tốt về sự giống nhau của $x$ và $y$.

Khoảng cách này giải quyết vấn đề trong đó hai nút có thể có nhiều nút lân cận chung vì chúng có nhiều nút lân cận chứ không phải vì chúng có liên quan chặt chẽ với nhau.

Adamic/Adar (Frequency-Weighted Common Neighbors) - Tần số có trọng số láng giềng chung

Độ đo này tinh chỉnh việc đếm các đặc trưng chung đơn giản bằng cách đánh trọng số thể hiện mức độ quan trọng của đặc trưng. Bộ dự đoán Adamic/Adar thể hiện quan điểm các đặc trưng “hiếm” thì ẩn chứa nhiều thứ bên trong; những tài liệu có chung cụm từ “for example” thì có lẽ ít giống nhau hơn các tài liệu có chung cụm từ “clustering coefficient”.

độ phức tạp của việc so sánh danh sách: $O(V \cdot VlogV)$

Nếu “đóng tam giác” là một cơ chế tần xuất (frequent mechanism) theo đó các cạnh mới hình thành trong mạng xã hội, thì để $x$ và $y$ được giới thiệu bởi một người bạn chung $z$, người $z$ sẽ phải chọn giới thiệu cặp $⟨x,y$⟩ từ (chọn $|\Gamma(z)|$ với 2) cặp bạn bè của người ấy; do đó, một người không được ưa chuộng (người không có nhiều bạn bè) có thể có nhiều khả năng giới thiệu một cặp bạn bè cụ thể của mình với nhau hơn.

triadic closure

Preferential Attachment

Một khái niệm phổ biến trong lĩnh vực nghiên cứu mạng xã hội là những người dùng với nhiều bạn bè thường có xu hướng tạo ra nhiều mối liên kết hơn trong tương lai. Đó là vì theo những dữ kiện mà trong một số mạng xã hội, như trong kinh tế, người giàu thì càng giàu hơn.

formal equation

Chúng ta ước tính mức độ “giàu” của hai đỉnh bằng cách tính toán phép nhân giữa số lượng bạn bè ($|\Gamma(x)|$) hoặc số người theo dõi mà mỗi đỉnh có. Có thể lưu ý rằng chỉ số tương đồng (similarity index) không yêu cầu bất kỳ thông tin nút lân cận nào; do đó, chỉ số tương tự này có độ phức tạp tính toán thấp nhất.

Liên kết giữa A và C có nhiều khả năng xảy ra hơn liên kết giữa A và B vì C có nhiều lân cận hơn B.

Katz (Exponentially Damped Path Counts - số lượng đường đi bị suy giảm theo cấp số nhân)

Heuristic này định nghĩa một độ đo mà tính tổng trực tiếp trên tập hợp các đường đi, giảm dần theo cấp số nhân bởi chiều dài để đếm các đường đi ngắn nhất. Độ đo Katz là một biến thể của độ đo đường đi ngắn nhất (shortest-path measure). Ý tưởng đằng sau độ đo Katz là càng có nhiều đường đi giữa hai đỉnh và những đường đi này càng ngắn thì kết nối càng mạnh.

Một $\beta$ rất nhỏ mang lại những dự đoán giống như láng giềng chung, bởi vì các đường đi có độ dài bằng ba hoặc nhiều hơn đóng góp rất ít vào tổng.

Hitting Time

Một bước đi ngẫu nhiên bắt đầu tại một nút $x$ và di chuyển tuần tự đến một lân cận ngẫu nhiên của $x$. Hitting time $H_{x, y}$ từ $x$ đến $y$ là kỳ vọng số lượng bước nhảy cần thiết để cho một bước đi ngẫu nhiên bắt đầu tại $x$ chạm đến $y$.

độ phức tạp của việc so sánh danh sách: $O(V \cdot VlogV)$

Một khó khăn khi sử dụng hitting time như một độ đo tương đồng là $H_{x, y}$ tương đối nhỏ với bất kỳ $y$ là một nút với xác suất dừng (stationary probability) $\pi y$ lớn, bất kể nút $x$ là nút nào. Nghĩa là, đối với nút $y$ mà tại đó bước đi ngẫu nhiên dành một lượng thời gian đáng kể trong giới hạn, thì bước đi ngẫu nhiên sẽ sớm đến $y$, hầu như bất kể nó bắt đầu ở đâu. Do đó, các dự đoán được đưa ra dựa trên $H_{x, y}$ có xu hướng chỉ bao gồm một vài nút riêng biệt $y$. Để giải quyết vấn đề này, người ta xem xét phiên bản chuẩn hóa của hitting và số lần tương tác bởi định nghĩa:

$$\text{score}(x, y) = -H_{x, y} \cdot \pi y$$

Rooted PageRank

Một khó khăn khác khi sử dụng các độ đo dựa trên thời gian đánh và thời gian tương tác là sự phụ thuộc nhạy cảm của chúng vào các phần của đồ thị ở xa từ $x$ và $y$, ngay cả khi $x$ và $y$ được kết nối bằng những đường đi rất ngắn. Một cách để giải quyết khó khăn này là cho phép bước đi ngẫu nhiên từ $x$ đến $y$ để “đặt lại” theo chu kỳ, quay trở lại $x$ với xác suất cố định $\alpha$ ở mỗi bước; bằng cách này, các phần ở xa của đồ thị sẽ hầu như không bao giờ được khám phá.

Việc đặt lại ngẫu nhiên tạo thành cơ sở của độ đo PageRank cho các trang web và chúng tôi có thể điều chỉnh nó để dự đoán liên kết. Các cách tiếp cận tương tự đã được xem xét đối với PageRank được cá nhân hóa (personalized PageRank), trong đó người ta muốn xếp hạng các trang web dựa trên cả “tầm quan trọng (importance)” tổng thể (cốt lõi của PageRank) và mức độ liên quan đến một chủ đề hoặc cá nhân cụ thể, bằng cách thiên về các lần đặt lại ngẫu nhiên đối với các trang có liên quan theo chủ đề hoặc được đánh dấu trang.

Các khoảng cách khác

Một độ đo khác có thể được sử dụng là độ đo Friends-measure. Khi xem xét hai đỉnh trong mạng xã hội, ta có thể giả định rằng các vùng lân cận của chúng càng có nhiều kết nối với nhau thì khả năng hai đỉnh được kết nối với nhau càng cao. Ta lấy logic của phát biểu và xác định thước đo Friends-measure là số lượng kết nối giữa các vùng lân cận $u$ và $v$. Ta có thể nhận thấy rằng trong các mạng vô hướng, thước đo Friends-measure là trường hợp riêng của thước đo Katz trong đó $\beta = 1$ và $I_{max} = 2$.

Một số kết quả thực nghiệm #

Network evolution model
- Social Network Analysis
  - Link Prediction
    - Supervised learning
      - Binary classifier
    - Unsupervised learning
      - Node based topological similarity (local)
        
        Common Neighbors
        
        Jaccard’s Coefficient
        
        Adamic/Adar
        
        Preferential Attachment
      - Path based topological similarity (global)
        
        Katz
        
        Hitting Time
        
        Rooted PageRank

Trong số này, các thuật toán dựa trên nút lân cận có khả năng mở rộng hạn chế và không nhất thiết tạo thành một cách tiếp cận khả thi cho các mạng User Generated Content networks [9]. Ví dụ: Facebook có hơn một tỷ người dùng đã đăng ký và mỗi tháng có nhiều người dùng mới được thêm vào. Hơn nữa, sự phân bổ mức độ quy luật lũy thừa trong mạng xã hội cho thấy rằng có một số cá nhân có số lượng kết nối (trung tâm) lớn. Việc tính toán các đặc điểm tôpô cục bộ trên một sơ đồ con chỉ bao gồm bạn bè của những cá nhân này có thể cần nhiều tính toán.

Dưới đây là các biểu đồ hiệu suất được tính toán bởi Liben-Nowell và Kleinberg vào năm 2003, người đã nghiên cứu tính hữu ích của các đặc điểm tôpô đồ thị bằng cách kiểm tra chúng trên năm bộ dữ liệu mạng đồng tác giả, mỗi bộ chứa hàng nghìn tác giả [3].

Con số bên trái là số yếu tố cải thiện so với dự đoán ngẫu nhiên. tức là độ đo Adamic/Adar chính xác hơn khoảng 37 lần so với độ đo ngẫu nhiên.

So sánh với công cụ dự đoán khoảng cách biểu đồ làm đường cơ sở. Những cải tiến đột ngột có vẻ không ấn tượng lắm.

So sánh với yếu tố dự đoán hàng xóm chung làm đường cơ sở. Các biện pháp khác bây giờ chỉ tốt hơn một chút!

Biểu đồ hiển thị kết quả bằng số trên nhiều phần của mạng đồng tác giả arVix. Các phần khác nhau của arXiv mang lại kết quả khác nhau.

Các phương pháp tiếp cận khác #

Mặc dù các đặc trưng nội tại (features intrinsic) của một mạng lưới có thể cung cấp một độ đo tốt để chỉ rằng khả năng liên kết trong tương lai, có nhiều phương pháp/ độ đo khác cũng được đề xuất mà sử dụng một biến thể của những heuristic được đề cập. Lấy ví dụ, các đặc trưng Extra-network có thể cải thiện đáng kể độ chính xác của dự đoán (tức là những từ hóa mô tả sự quan tâm của mỗi nhà khoa học, hay những từ khóa được rút trích từ tựa đề/ tóm tắt của bài báo của họ).

Hoặc xét theo đặc trưng thời gian của mạng, đồ thị mạng xã hội có thể được chia thành các chuỗi đồ thị khác nhau theo một bước thời gian nhất định. Đường trung bình động (moving average) là giá trị trung bình của giá trị phỏng đoán cho một cạnh trong một khoảng thời gian nhất định [13]. Bằng cách nhìn vào mức trung bình này qua nhiều thế hệ tiến hóa, người ta có thể đưa ra những dự đoán liên kết rất chính xác.

Hơn nữa, vấn đề dự đoán liên kết được nghiên cứu trong khung học có giám sát (supervised learning framework) bằng cách coi nó như một thể hiện của bài toán phân lớp nhị phân (binary classification problem). Các phương pháp này sử dụng các biện pháp tô-pô (topological) và ngữ nghĩa (semantic) được xác định giữa các nút làm đặc trưng cho các bộ phân lớp. Đưa ra một ảnh chụp nhanh (snapshots) của mạng xã hội tại thời điểm $t$ để huấn luyện, chúng coi tất cả các liên kết có mặt tại thời điểm $t$ là mẫu dương (positive samples) và coi một mẫu lớn các liên kết vắng mặt (cặp nút không được kết nối) tại thời điểm $t$ là mẫu âm (negative samples). Các bộ phân lớp đã học thực hiện nhất quán trên tất cả các tập dữ liệu, không giống như các phương pháp heuristic không nhất quán, mặc dù độ chính xác của dự đoán vẫn rất thấp [14].

Có một số lý do cho độ chính xác dự đoán thấp này. Một trong những lý do chính là độ lệch lớp rất lớn liên quan đến dự đoán liên kết. Trong các mạng lớn, không có gì lạ khi xác suất liên kết trước đó ở mức $10^{−4}$ trở xuống, điều này khiến cho vấn đề dự đoán trở nên rất khó khăn, dẫn đến hiệu suất kém. Ngoài ra, khi mạng phát triển theo thời gian, các liên kết tiêu cực tăng trưởng theo phương trình bậc hai trong khi các liên kết tích cực chỉ phát triển tuyến tính với các nút mới.

Tài liệu tham khảo

[1] http://www.cs.rpi.edu/~zaki/PaperDir/SNDA11.pdf

[2] An Algorithmic Approach to Social Networks - David Liben-Nowell - Phd thesis

[3] The Link Prediction Problem for Social Networks - David Liben-Nowell†, Jon Kleinberg

[4] Link Prediction in Complex Networks by Multi Degree Preferential-Attachment Indices - Ke Hu, Ju Xiang

[5] arxiv.org/abs/1111.4570 - Four Degrees of Separation

[6] Computationally Efficient Link Prediction in a Variety of Social Networks - MICHAEL FIRE, LENA TENENBOIM-CHEKINA, RAMI PUZIS, OFRIT LESSER,

[7] M. E. J. Newman. Clustering and preferential attachment in growing networks. Physical Review E, 64(025102), 2001.

[8] Robustness of Link-prediction Algorithm Based on Similarity and Application to Biological Networks - Liang Wang, Ke Hu and Yi Tang

[9] A Link Prediction Approach to Recommendations in Large-Scale User-Generated Content Systems - Nitin Chiluka, Nazareno Andrade, and Johan Pouwelse

[10] Scalable Proximity Estimation and Link Prediction in Online Social Networks - Han Hee Song Tae Won Cho Vacha Dave Yin Zhang Lili Qiu

[11] Using Friendship Ties and Family Circles for Link Prediction - Elena Zheleva and Lise Getoor

[12] Link Prediction and Recommendation across Heterogeneous Social Networks - Yuxiao Dong, Jie Tang, et al

[13] The Algorithm of Link Prediction on Social Network - Liyan Dong Yongli Li, Han Yin, Huang Le, and Mao Rui1

[14] Learning Algorithms for Link Prediction Based on Chance Constraints - Janardhan Rao Doppa ,JunYu

Giảng dạy

Tue, 17 Oct 2023 00:00:00 +0000

Teaching Assistant #

Applied in Data Science
Data Hiding and Secret Sharing
Data Structures and Algorithms
Data Mining and Applications
Data Visualization
Fundamental of Artificial Intelligence
Fundemental of Programming
Introduction to Programming
Introduction to Data Science
Introduction to Machine Learning
Introduction to Bigdata
Introduction to Information Technology
Graph Mining
Parallel Programming
Programming for Data Science
Swarm Intelligence

Miscellanea

Tue, 17 Oct 2023 00:00:00 +0000

Miscellanea #

$\LaTeX$ Template #

Report Template

[1] DoCS HCMUS - Template Report 01

Link: https://www.overleaf.com/read/mqvdqztstvnf#77b130

[2] DoCS HCMUS - Template Report 02

Link: https://www.overleaf.com/read/qvqpqytgztsn#9c5467

Thesis Template

[1] Master Thesis Proposal

Link: https://www.overleaf.com/read/pmmkbqmsrvnq#7c860f

[2] Master Thesis Template

Link: https://www.overleaf.com/read/ybsqztfjnvjc#a23f6b

[3] Master Math Thesis Template

Link: https://www.overleaf.com/read/bzwmvkymwfwb#2b968e

Beamer Template

[1] DoCS HCMUS - Template Slide 01

Link: https://www.overleaf.com/read/dhkcxygmnxjv#fa7ec3

[2] Slide-template

Link: https://www.overleaf.com/read/jfgnzwpsxmhk#4d4625

Advices #

Links #

Videos #

Mathematics - The Language of the Universe

The World of Mathematical Reality

Paul Lockhart teaching Go

Five Principles of Extraordinary Math Teaching

The map of Mathematics

The map of Computer Science

Youtube channles #

[1] MIT OpenCourseWare

[2] 3Blue1Brown

[3] StatQuest with Josh Starmer

[4] Computer Science Theory Explained

[5] The Math District

Lời khuyên cho một nhà toán học trẻ

Mon, 04 Sep 2023 00:00:00 +0000

Lời nói đầu của người dịch #

Lời đầu tiên, tôi không phải một nhà toán học. Một cách thật vắn tắt, tôi không có nền tảng chính quy về Toán học mà chỉ là những kiến thức cơ bản và liên quan đến ứng dụng. Đối với tôi, toán học rất đẹp đẽ và nó giúp tôi (nói riêng) có thể mô tả về thế giới này. Khi lướt Twitter (X), tôi đã bắt gặp bài báo này và tôi cảm thấy nó hay. Có lẽ tôi cũng đang cần tìm cho mình một lời khuyên và các bạn (người nào đó đọc bài viết của tôi) chắc hẳn sẽ cần.

Lê Nhựt Nam, HCMC-04/09/2023

Các bạn đọc paper gốc tại: Advice to a Young Mathematician

Chú ý - Warning #

Trong những nội dung phía sau đều là quan điểm cá nhân của tôi dựa trên kinh nghiệm làm việc và cũng phản ánh tính cách cá nhân của tôi, những nhánh của toán học mà tôi nghiên cứu, và phong cách làm việc của tôi. Tuy nhiên, các nhà toán học rất khác nhau trong tất cả các đặc điểm này và bạn nên dựa vào chính bản thân mình. Bạn có thể học từ người khác nhưng phải diễn giải điều mà bạn học được theo cách của bạn. Theo một khía cạnh nào đó, sự độc đáo (tính độc nhất - Originality) có được bằng cách tách khỏi thói quen trong quá khứ.

Động lực nghiên cứu - Motivation #

Một nhà nghiên cứu toán học (research mathematician), giống như một nhà sáng tạo nghệ thuật (nghệ sĩ) vậy, có sự hứng thú một cách nồng nhiệt trong một lĩnh vực và tận tụy hoàn toàn với nó. Nếu không có động lực nội tại (internal motivation) mạnh thì bạn không thể thành công được, tuy nhiên nếu bạn yêu thích toán học thì bạn sẽ cảm thấy thỏa mãn từ việc giải những bài toán khó.

Trong một hay hai năm đầu của việc nghiên cứu, nó rất khó khăn. Có quá nhiều thứ cần phải học. Họ cố gắng nhưng không thành không với những bài toán nhỏ và bắt đầu cảm thấy nghi ngờ về khả năng của chính bản thân mình để chứng minh bất cứ thứ gì. Tôi đã trả qua giai đoạn như thế trong năm thứ hai nghiên cứu của mình, và Jean-Pierre Serre, có lẽ là nhà toán học xuất sắc trong thế hệ của tôi, và ông ấy đã nói với tôi rằng ông ấy cũng đã có đôi lúc dự tính từ bỏ.

Chỉ có những người tầm thường mới tự tin một cách tuyệt đối vào khả năng của mình. Bạn càng giỏi, tiêu chuẩn mà bạn đặt ra cho bản thân càng cao - bạn có thể nhìn xa hơn tầm nhìn trước mắt của mình.

Nhiều nhà toán học tương lai cũng có tài năng và sở thích theo các hướng khác nhau và họ có thể gặp khó khăn khi phải lựa chọn giữa bắt tay theo đuổi sự nghiệp toán học hay theo đuổi một thứ khác. Nhà toán học Gauss vĩ đại được cho là đã dao động giữa toán học và triết học, Pascal từ bỏ toán học ngay từ khi còn nhỏ để theo đuổi thần học (triết học kinh viện), trong khi Descartes và Leibniz cũng là những nhà triết học nổi tiếng. Một số nhà toán học chuyển sang nghiên cứu vật lý như Freeman Dyson, trong khi những người khác như Harish Chandra và Raoul Bott chuyển sang các hướng khác. Bạn không nên nghĩ rằng toán học là một thế giới đóng, và sự tương tác qua lại giữa toán học và các ngành khác là tốt cho cả chính bản thân bạn và cho xã hội này.

Tâm lý - Psychology #

Bởi vì toán học đòi hỏi sự tập trung tinh thần cao độ nên áp lực tâm lý có thể rất lớn, ngay cả khi mọi thứ đang diễn ra một cách suôn sẻ. Phụ thuộc vào tính cách cá nhân của bạn mà điều này có thể là một vấn đề chính hoặc chỉ là vấn đề phụ, nhưng mọi người có thể thực hiện một số bước như sau để mà có thể giảm áp lực. Tương tác với các bạn học/ sinh viên trong nhóm; tham gia các bài giảng, seminars, và các hội thảo/ hội nghị; cả hai cách này đều có thể mở rộng tầm nhìn và nhận được sự giúp đỡ từ xã hội xung quanh. Quá nhiều sự cô lập và suy xét nội tâm có thể rất nguy hiểm và thời gian dành cho những cuộc trò chuyện có vẻ nhàn rỗi không thực sự quá là lãng phí như bạn nghĩ.

Vê sự công tác, ban đầu với những người bạn học/ sinh viên hoặc người hướng dẫn của bạn, có nhiều lợi ích và sự hợp tác lâu dài với đồng nghiệp có thể cực kỳ hiệu quả cả về mặt toán học và ở cấp độ cá nhân. Luôn luôn cần có sự suy nghĩ thầm lặng một mình, nhưng điều này có thể được nâng cao và cân bằng bằng cách thảo luận và trao đổi ý kiến với bạn bè.

Bài toán (Problem) vs. Lý thuyết (Theory) #

Những nhà toán học thường được phân loại vào “những người giải toán - problem solvers” hoặc “những nhà lý thuyết - theorists”. Điều này thật sự đúng, có những trường hợp nổi bật rõ nét cho sự phân chia này, ví dụ như Erd˝os và Grothendieck chẳng hạn. Tuy nhiên, hầu hết những nhà toán học đứng ở đâu đó ở giữa sự phân chia này, những công trình nghiên cứu của họ phát triển cả về mặt kỹ thuật phát triển lời giải của bài toán lẫn phát triển một số lý thuyết liên quan. Trên thực tế, một lý thuyết mà không dẫn đến một lời giải cho một bài toán cụ thể thú vị thì hoàn toàn không có giá trị. Ngược lại, bất kỳ bài toán thật sự sâu sắc nào cũng có xu hướng kích thích sự phát triển của lý thuyết cho việc hình thành lời giải cho nó, ví dụ như Định lý cuối cùng của Fermat.

Điều này có ý nghĩa gì với những sinh viên mới bắt đầu? Mặc dù họ phải đọc những quyển sách (books) và các bài báo khoa học (papers),và tiếp thu các khái niệm và kỹ thuật chung (lý thuyết), nhưng trên thực tế, học sinh phải tập trung vào một hoặc nhiều vấn đề cụ thể. Điều này cung cấp một số thứ gì đó để nghiền ngẫm (chew on = nhai đi nhai lại) và để kiểm tra bản chất của người sinh viên. Một định nghĩa bài toán mà người sinh viên theo đuổi và hiểu một cách chi tiết về nó cũng là một chuẩn mực vô giá để đo lường tính hữu ích (utility) và sức mạnh của các lý thuyết sẵn có.

Tùy thuộc vào diễn tiến của việc nghiên cứu, luận án Tiến sĩ có thể loại bỏ phần lớn lý thuyết và chỉ tập trung vào vấn đề thiết yếu, hoặc nó có thể mô tả một ngữ ảnh (bức tranh) rộng hơn mà bài toán khớp vào đó một cách tự nhiên nhất.

Vai trò của sự tò mò (lòng ham hiểu biết) #

Động lực trong nghiên cứu (riving force in research) là lòng tò mò (sự ham muốn hiểu biết). Khi nào một kết quả cụ thể được xem là đúng? Đó có phải là một bản chứng minh, hay một bằng chứng minh nào tự nhiên, hoặc tao nhã hơn chăng? Bối cảnh chung nhất mà kết quả đó thể hiện là gì?

Nếu bạn cứ tự hỏi chính bản thân mình những câu hỏi như vậy khi đọc bất cứ một bài báo hoặc nghe một bài giảng nào, thì sớm hay muộn một phần của câu trả lời sẽ xuất hiện - một con đường khả thi nào đó để khám phát được mở ra.Khi điều này xảy ra với tôi, tôi luôn dành thời gian theo đuổi ý tưởng để xem nó sẽ dẫn đến đâu hoặc liệu nó có đứng vững trước sự xem xét kỹ lưỡng hay không. Chín trên mười lần hóa ra là ngõ cụt, nhưng thỉnh thoảng có một lần trúng vàng. Khó khăn là ở chỗ biết khi nào một ý tưởng ban đầu đầy hứa hẹn trên thực tế lại chẳng đi đến đâu. Ở giai đoạn này người ta phải điều chỉnh những sai sót của họ và quay trở lại đường chính. Thường thì quyết định không rõ ràng và trên thực tế, tôi thường xuyên quay lại ý tưởng đã bị loại bỏ trước đó và thử lại lần nữa.

Trớ trêu thay, những ý tưởng hay có thể xuất hiện một cách bất ngờ từ một bài giảng hoặc buổi hội thảo tồi. Tôi thường thấy mình đang nghe một bài giảng mà kết quả thì tuyệt vời còn cách chứng minh thì xấu xí và phức tạp. Thay vì cố gắng đuổi theo một chứng minh lộn xộn trên chiếc bảng đen kia, tôi dành thời gian nghỉ giải lao một tiếng đồng hồ để suy nghĩ về việc tạo ra một chứng minh tao nhã và đẹp đẽ hơn. Thông thường, không phải luôn luôn, tôi không thành công, thì tôi đã sử dụng thời gian một cách tốt hơn, vì tôi đã suy nghĩ kỹ về vấn đề theo cách riêng của mình. Điều này tốt hơn nhiều so với việc thụ động làm theo lý luận của người khác.

Những ví dụ - Examples #

Nếu bạn, giống như tôi, là người thích những khung cảnh rộng lớn và những lý thuyết mạnh mẽ (tôi bị ảnh hưởng nhưng không được Grothendieck chuyển đổi) thì điều cần thiết là có thể kiểm tra các kết quả chung bằng cách áp dụng chúng vào các ví dụ đơn giản. Qua nhiều năm, tôi đã xây dựng được rất nhiều ví dụ như vậy, được rút ra từ nhiều lĩnh vực khác nhau. Đây là những ví dụ mà người ta có thể thực hiện các phép tính cụ thể, đôi khi với các công thức phức tạp, giúp làm cho lý thuyết tổng quát trở nên dễ hiểu. Họ giữ đôi chân của bạn trên mặt đất. Điều thú vị là Grothendieck tránh đưa ra các ví dụ, nhưng may mắn thay, ông có quan hệ mật thiết với Serre, người có thể sửa chữa thiếu sót này. Không có sự phân biệt rõ ràng giữa ví dụ và lý thuyết. Nhiều ví dụ yêu thích của tôi đến từ quá trình học tập ban đầu của tôi về hình học xạ ảnh cổ điển: hình khối xoắn, mặt bậc hai hoặc biểu diễn đường thẳng Klein trong không gian 3 chiều. Không gì có thể cụ thể hay cổ điển hơn và tất cả đều có thể được xem xét về mặt đại số và hình học, nhưng mỗi trường hợp đều minh họa và là trường hợp đầu tiên trong một lớp lớn các ví dụ mà sau này trở thành một lý thuyết: lý thuyết về đường cong hữu tỉ (theory of rational curves), lý thuyết về không gian đồng nhất (theory of homogeneous spaces), hoặc lý thuyết về Grassmannians (theory of Grassmannians).

Một khía cạnh khác của các ví dụ là chúng có thể dẫn đến những hướng khác nhau. Một ví dụ có thể khái quát hóa theo nhiều cách khác nhau hoặc minh họa một số nguyên tắc khác nhau. Ví dụ, hình nón cổ điển là một đường cong hữu tỉ (rational curve), một bậc hai (quadric) và một Grassmannian tất cả trong một.

Nhưng trên hết tất cả những ví dụ tốt là một thứ gì đó đẹp đẽ. Nó tỏa sáng và thuyết phục. Nó mang lại cái nhìn sâu sắc và hiểu biết. Nó là bệ đá của niềm tin.

Chứng minh - Proof #

Tất cả chúng ta đều được dạy rằng “chứng minh” là đặc điểm trung tâm của toán học, rằng hình học Euclide với các tiên đề và mệnh đề được sắp xếp cẩn thận đã cung cấp khuôn khổ thiết yếu cho tư duy hiện đại kể từ thời Phục hưng (Renaissance). Các nhà toán học tự hào về sự chắc chắn tuyệt đối, so với những bước đi ngập ngừng của các nhà khoa học tự nhiên chứ chưa nói đến lối suy nghĩ mơ hồ của các lĩnh vực khác.

Đúng là, kể từ Godel, sự chắc chắn tuyệt đối đã bị xói mòn, và cuộc tấn công trần tục hơn của các chứng minh bằng máy móc dài vô tận đã tạo ra một số khiêm tốn. Bất chấp tất cả những điều này, chứng minh vẫn giữ vai trò quan trọng trong toán học và một lỗ hổng nghiêm trọng trong lập luận của bạn sẽ khiến bài báo của bạn bị từ chối.

Tuy nhiên, sẽ là rất sai lầm nếu nhận định quá trình nghiên cứu toán học là quá trình tạo ra các chứng minh. Trên thực tế, người ta có thể nói rằng tất cả những khía cạnh của nhgiên cứu toán học thật sự ở trước sân khấu chứng minh. Để đưa ẩn dụ về “sân khấu” đi xa hơn, bạn phải bắt đầu từ ý tưởng, phát triển cốt truyện, viết lời thoại và đưa ra hướng dẫn về sân khấu. Quá trình tạo ra có thể được xem thật sự là “chứng minh”: việc thực hiện hóa một ý tưởng.

Trong toán học, các ý tưởng và khái niệm xuất hiện trước, sau đó mới đến các câu hỏi và bài toán. Ở giai đoạn này, quá trình tìm kiếm giải pháp bắt đầu, người ta tìm kiếm một phương pháp hoặc chiến lược. Khi bạn đã thuyết phục bản thân rằng vấn đề đã được đặt ra hợp lý và bạn có công cụ phù hợp cho công việc, bạn sẽ bắt đầu suy nghĩ kỹ về tính kỹ thuật của chứng minh.

Chẳng bao lâu sau, bạn có thể nhận ra, có lẽ bằng cách tìm ra các phản ví dụ, rằng bài toán đã được phát biểu không đúng. Đôi khi có một khoảng cách giữa ý tưởng trực quan ban đầu và việc hình thức hóa nó. Bạn đã bỏ qua một số giả định ẩn giấu, bạn bỏ qua một số chi tiết kỹ thuật, bạn đã cố gắng quá chung chung. Sau đó, bạn phải quay lại và tinh chỉnh cách hình thức hóa bài toán của mình. Sẽ là một sự cường điệu không công bằng khi nói rằng các nhà toán học đặt câu hỏi của họ để họ có thể trả lời chúng, nhưng chắc chắn có một phần sự thật trong tuyên bố đó. Nghệ thuật trong toán học tốt, và toán học là một nghệ thuật, là xác định và giải quyết các vấn đề vừa thú vị vừa có thể giải được.

Chứng minh là sản phẩm cuối cùng của sự tương tác lâu dài giữa trí tưởng tượng sáng tạo và lý luận phản biện. Nếu không có chứng minh thì chương trình vẫn chưa hoàn thiện, nhưng nếu không có đầu vào giàu trí tưởng tượng thì chương trình sẽ không bao giờ được bắt đầu. Ở đây người ta có thể thấy sự tương đồng với công việc của nghệ sĩ sáng tạo trong các lĩnh vực khác: nhà văn, họa sĩ, nhà soạn nhạc hoặc kiến trúc sư. Tầm nhìn xuất hiện trước tiên, nó phát triển thành một ý tưởng được phác thảo sơ bộ và cuối cùng là quy trình kỹ thuật dài để dựng lên tác phẩm nghệ thuật. Nhưng kỹ thuật và tầm nhìn phải được giữ liên hệ, mỗi cái đều sửa đổi cái kia theo quy tắc riêng của nó.

Chiến lược - Strategy #

Trong phần trước tôi đã thảo luận về triết lý chứng minh và vai trò của nó trong toàn bộ quá trình sáng tạo. Bây giờ ta trở lại câu hỏi muôn thuở mà những người trẻ quan tâm. Đâu là chiến lược nên được áp dụng? Bạn giải quyết như thế nào trong việc tìm kiếm một chứng minh?

Một cách trừu tượng (tổng quát), câu hỏi này có ít ý nghĩa. Giống như tôi đã giải thích trong phần trước, một bài toán (vấn đề) luôn luôn có những tiền đề: nó phát sinh từ một số kiến thức nền tảng, nó có các điểm nguồn gốc (roots). Các bạn nên hiểu các điểm nguồn gốc này để mà thấy được một tiến trình. Điều đó là lý do tại sao nó luôn luôn tốt để tìm kiếm bài toán của chính bản thân các bạn, hỏi các hỏi do chính bản thân các bạn đặt, thay vì thu nhặt nó từ trên một chiếc đĩa dọn sẵn từ người thầy (người hướng dẫn) của các bạn. Nếu các bạn biết được một bài toán đến từ đâu, tại sao câu hỏi đó được hỏi, thì bạn đi được một nữa con đường đến lời giải của nó. Sự thật là, việc hỏi một câu hỏi đúng đắn thường khó khăn giống như đi tìm câu trả lời cho nó vậy. Tìm kiếm một ngữ cảnh đúng đắn chính là một bước đầu ý nghĩa.

Thế nên, tóm lại là, các bạn cần phải có một kiến thức tốt về lịch sử của bài toán. Các bạn nên biết các loại phương pháp nào đã được áp dụng với những bài bài toán tương tự và đâu là giới hạn của chúng.

Điều này là một ý tưởng tốt để bắt đầu suy nghĩ nghiêm túc thật kỹ càng về một bài toán ngay khi bạn đã và đang tiếp xúc với nó. Để nắm chặt nó, không có một sự thay thế nào cho tiếp cận thực hành. Các bạn nên khám phá những trường hợp đặc biệt và cố gắng tìm kiếm đâu là những vấn đề khó khăn cốt yếu. Các bạn càng hiểu về những nền tảng lý thuyết và những phương pháp trước đây, thì bạn có càng nhiều những kỹ thuật và phương pháp giải quyết. Mặc khác, sự thiếu hiểu biết đôi khi lại niềm hạnh phúc. J.E. Littlewood đã phân bố từng nhóm các sinh viên của ông ấy để nghiên cứu trên một phiên bản ẩn của giả thuyết Riemann, và cho họ biết được sau sáu tháng nghiên cứu. Ông chỉ ra được rằng những sinh viên không đủ tự tin để giải quyết một bài toán nổi tiếng, nhưng có thể giúp họ bằng cách không đưa bất kỳ thông tin gì về bài toán đó cả. Chiến lược này có thể không dẫn ra được một bài chứng minh cho giả thuyết Riemann, nhưng nó thực sự đánh thức sự kiên trì và quyết tâm nội tại bên trong những sinh viên.

Tiếp cận của chính bản thân tôi là cố gắng tránh những sự tấn công trực tiếp vào bài toán và tìm kiếm những hướng tiếp cận gián tiếp. Điều này liên quan đến việc liên kết bài toán của các bạn với những ý tưởng và kỹ thuật từ những lĩnh vực nghiên cứu khác nhau mà có thể dẫn đến những lóe sáng không thể ngờ đến. Nếu chiến lược này thành công, nó có thể mở ra một bản chứng minh gọn gàng và đẹp đẽ. Thực sự mà nói, tôi tin rằng việc tìm kiến một lời giải thích, cho sự hiểu biết, chính là điều mà chúng ta thực sự mong muốn. Chứng minh chỉ đơn giản là một phần của quá trình, và thỉnh thoảng là hệ quả của nó.

Như một phần của việc tìm kiếm cho những phương pháp mới, nó là một ý tưởng hay ho để mở rộng tầm nhìn của các bạn. Nói chuyện với mọi người sẽ mở rộng trình độ tổng thể của bạn và sẽ đôi khi cho các những ý tưởng và kỹ thuật mới. Và sẽ thỉnh thoảng bạn có thể tạo ra một ý tưởng từ chính nghiên cứu của các bạn hoặc là một hướng mới.

Nếu các bạn cần học một thứ gì đó mới, hãy tham khảo các tài liệu nhưng, tốt hơn là, tìm một chuyên gia thân thiện và xin những hướng dẫn “từ miệng ngựa - from the horse’s mouth” - nó mang lại cái nhìn sâu sắc hơn một cách nhanh chóng hơn.

Cũng như kỳ vọng, và cảnh giác với những tiến bộ mới, các bạn cũng nên buông bỏ quá khứ. Nhiều những kết quả toán học tuyệt vời từ những thời kỳ sớm bị chôn vùi và bị quên lãng, và chỉ được đưa ra ánh sáng chỉ khi mà chúng được tìm lại một cách hoàn toàn độc lập. Những kết quả này không dễ để tìm thấy, bởi vì phong cách và thuật ngữ thay đổi phần nào, nhưng chúng có thể là những viên ngọc giá trị. Thông thường với những việc học quý giá, các bạn nên cảm thay may mắn khi nắm được chúng, và phần thưởng đó thuộc về những người tiên phong.

Tính độc lập - Independence #

Ở thời điểm bắt đầu việc nghiên cứu của các bạn, mối quan hệ với người hướng dẫn có thể quan trọng, thế nên phải lựa chọn một cách cẩn thật, ghi nhớ trong đầu vấn đề, tính cách cá nhân, và những thông tin lịch sử. Có rất ít người người dẫn tốt cả ba điều này. Hơn nữa, nếu mọi thứ không ổn trong suốt năm đầu hay những năm sau đó, hay nếu những mối quan tấm của các bạn phân rẻ một cách đáng kể, thì đừng nên vội vàng thay đổi người hướng dẫn hay cho dù cả trường đại học. Người hướng dẫn của bạn sẽ không bị xúc phạm và thậm chí còn có thể cảm thấy nhẹ nhõm!

Thỉnh thoảng, các bạn có thể là một phần của một nhóm lớn và có thể tương tác với những thành viên khác của khoa, thế nên bạn thật sự có nhiều hơn một người hướng dẫn. Điều này có thể giúp ích nhiều, nó cho bạn những góc nhìn khác nhau và những trạng thái làm việc khác nhau. Các bạn cũng có thể học được rất nhiều từ những sinh viên khác trong những nhóm lớn mà đó là lý do tại sao việc chọn một bộ môn với một lực lượng sau đại học hùng hậu là một ý tưởng hay ho.

Khi các bạn thành công bảo vệ và có được bằng Tiến sĩ (Ph.D), các bạn sẽ bắt đầu một giai đoạn mới. Mặc dù, các bạn có thể vẫn hợp tác với người hướng dẫn của mình và tiếp tục là một phần của nhóm nghiên cứu, điều đó vẫn ổn cho sự phát triển tương lại của các bạn để có thể đến một nơi nào đó khác trong một hoặc vài năm tới. Đây là lúc bạn có cơ hội tạo dựng cho mình một chỗ đứng riêng trong thế giới toán học. Nói chung, nó không phải một ý hay để tiếp tục một đường thẳng của luận án Tiến sĩ trong một quãng thời gian dài. Các bạn nên cho thay khả năng độc lập của chính mình bằng cách lan tỏa ra những hướng khác. Nó không cần phải là một sự thay đổi triệt để về hướng đi nhưng phải có một số điểm mới mẻ rõ ràng và không chỉ đơn giản là sự tiếp tục luận điểm của các bạn theo thói quen.

Phong cách - Style #

Trong quá trình viết luận án, người hướng dẫn của bạn sẽ thường hỗ trợ bạn trong phong cách trình bày và tổ chức. Nhưng việc định hình một phong cách cá nhân là một điều quan trọng của quá trình phát triển toán học của chính bản thân bạn. Mặc dù những thứ cần thiết có thể khác nhau, phụ thuộc vào lĩnh vực toán học, nhiều những khía cạnh là giao nhau giữa tất cả các lĩnh vực. Dưới đây là một số gợi ý về cách để viết một bài báo khoa học tốt:

Suy nghĩ thông qua toàn bộ cấu trúc logic của bài báo trước khi bắt đầu viết.
Ngắt những chứng minh dài và phức tạp thành những bước nhỏ (các bổ đề, các mệnh đề, …). Điều này sẽ giúp ích rất nhiều cho người đọc.
Viết thật rõ ràng mạch lạc bằng tiếng Anh hoặc bằng một loại ngôn ngữ mà các bạn chọn. Hãy nhớ rằng toán học cũng là một dạng văn học.
Hãy ngắn gọn nhất có thể trong khi vẫn rõ ràng và dễ hiểu. Đây là một sự cân bằng khó đạt được.
Xác định những bài viết mà các bạn thích đọc và bắt chước phong cách của họ.
Khi các bạn hoàn thành việc viết phần lớn công trình của mình, quay lại viết phần giới thiệu giải thích rõ ràng cấu trúc, kết quả chính cũng như bối cảnh chung. Tránh dùng những thuật ngữ không cần thiết và hướng tới người đọc toán học nói chung chứ không chỉ là một chuyên gia ở một chuyên ngành hẹp.
Hãy đưa bản thảo đầu tiên của các bạn đến một đồng nghiệp và chú ý đến mọi đề xuất hoặc lời chỉ trích của họ. Nếu ngay cả người bạn thân hay cộng tác viên của bạn cũng khó hiểu thì bạn đã thất bại và cần phải cố gắng hơn nữa.
Nếu các bạn không quá vội vàng xuất bản nó, hãy đặt bài báo của các bạn sang một bên trong vài tuần và làm việc khác. Sau đó quay lại bài viết của bcác ạn và đọc nó với một tâm trí tươi mới. Nó sẽ đọc khác đi và các bạn có thể thấy cách cải thiện nó đấy.
Đừng ngần ngại viết lại bài báo, có lẽ từ một góc độ hoàn toàn mới, nếu các bạn tin rằng điều này sẽ làm cho bài viết rõ ràng và dễ đọc hơn. Những bài viết hay sẽ trở thành “kinh điển” và được các nhà toán học tương lai đọc rộng rãi. Những bài viết xấu sẽ bị bỏ qua hoặc nếu chúng đủ quan trọng sẽ được người khác viết lại.

Lời bạt của người dịch #

Trên đây là bản dịch tiếng Việt của bài báo “Advice to a Young Mathematician” - Michael Atiyah. Cảm ơn ông vì một bài báo ngắn gọn, và đầy ý nghĩa cho một người mới bắt đầu quay trở lại con đường học Toán. Hy vọng đây sẽ là hành trang khởi đầu cho con người phát triển Toán học của bản thân tôi trong thời gian sắp với. Không chỉ riêng chính bản thân tôi, hy vọng ai đó đọc bài viết của Giáo sư cũng có thể có một góc nhìn mới, tìm ra cho mình một hướng đi thật đúng Đạo.

Khái lược lịch sử Toán học

Fri, 25 Aug 2023 00:00:00 +0000

Toán học là gì? Toán học bắt đầu từ đâu? Việc đếm là vấn đề đầu tiên khi bắt đầu với Toán học. Tuy nhiên, thật không hợp lý khi cho rằng việc đếm là khởi nguồn của nó. Chỉ đến khi có những bản ghi chép về phép đếm được người xưa ghi lại, được lưu giữ và do từ đó, một số biểu diễn số học xuất hiện thì Toán học mới được coi là bắt đầu. Để hiểu một cách sâu sắc về một vấn đề (khái niệm) nào đó, ta cần phải truy vào nguồn gốc ngôn ngữ của vấn đề (khái niệm) đó. Trong tiếng Anh, Toán học được viết bằng từ “mathematics”, từ này có nguồn gốc từ “máthēma” trong tiếng Hy Lạp cổ đại, được hiểu với nghĩa là “thứ học được”, “những gì mà người ta cần biết”. Trong các từ gốc Hán của người Trung Quốc, Toán học có nghĩa là số học. Còn trong tiếng Việt, từ “toán” có nghĩa là tính, từ “học” có nghĩa là nghiên cứu, bài học; “toán học” là một môn (bài) học/ lĩnh vực về tính toán (số học).

Toán học trong thời Cổ đại (Trước thế kỷ 600 trước Công nguyên) #

Vào thời tiền sử, (có lẽ) trong thời đại Đá giữa, các nhà nghiên cứu khảo cổ học và lịch sử học đã nhận ra nhiều vết tích cho thấy con người lúc này đã hình thành hai ý niệm tổng quát, ý niệm về số lượng và ý niệm về hình dạng. Những nghiên cứu về thời đại này thường chủ yếu dựa trên các phỏng đoán, nhưng đại đa số thường tin rằng ý niệm về số lượng bắt đầu từ việc cố gắng gom nhóm các vật (đối tượng) bằng cách đếm, và dần hình thành các hệ cơ số đếm nguyên thủy. Hệ cơ số đếm nguyên thủy rất đơn giản, thường dùng để diễn tả với ý tưởng về sự phân loại “ít” ví như từ hai đến ba vật, hoặc nhiều hơn thì thường ví như “hàng”, “đống”. Còn ý niệm về hình dạng được thể hiện chủ yếu thông qua các mẫu vật trang trí trang sức, đồ gốm, và các công trình kiến trúc.

Theo nghiên cứu lịch sử ghi lại, từ những năm 2000 trước Công nguyên, Toán học đã phát triển ở Babylonia. Đây hẳn là giai đoạn thứ hai trong quá trình phát triển của Toán học. Trong những hoạt động xã hội lúc này nổi lên nhiều nhu cầu, trong đó nhu cầu về định lượng đã trở nên rộng rãi và thường xuyên đến mức mà đã được phát triển thành những phương pháp tổng quát để tính toán và ghi lại thành những các quy luật và sử dụng để thu được kết quả trong các tình huống tương lai. Trong thời đại này, con người đã phát triển và sử dụng một cách rộng rãi một thệ thống ký hiệu giá trị với cơ số 60 trong một khoảng thời gian dài. Vào khoảng năm 1950 trước Công nguyên, người Babylon đã phát triển thành công một thứ Đại số, nó có khả năng giải những phương trình bậc nhất và bậc hai với hai ẩn số, và cả những phương trình bậc cao dạng đặc biệt. Về Hình học, họ sử dụng những công thức tính diện tích và thể tích rất đơn giản. Một điểm đáng chú ý, nhiều bằng chứng cho thấy họ thường nhận một quy tắc về hình tam giác mà ngày hôm nay chúng ta gọi đó là Định lý Pythagoras, $a^2+b^2=c^2$.

Ở phần còn lại của thế giới - phương Đông, chúng ta có rất ít các ghi chép để hiểu biết về nền Toán học cổ đại của các dân tộc Trung hoa, và Ấn Độ. Theo nghiên cứu, người phương Đông xưa chủ yếu sử dụng lá cây, hay thẻ tre mà ghi lại tri thức và do đó dễ bị thất lạc và hư hại theo nhiều nguyên nhân khác nhau. Theo lịch sử ghi lại, vào những năm 213 trước Công nguyên, vua Tần Thủy Hoàng ra lệnh đốt toàn sách và giết hại tất cả học giả dám chống lại ông ta. Chính những tác nhân từ con người lẫn tự nhiên này khiến cho hậu thế càng khó khăn hơn trong quá trình tìm lại nền văn hóa xa xưa. Một trong số ít những gì còn lưu lại cho đến tận ngày nay có lẽ nổi tiếng nhất chính là “Chu bể Toán kinh”. Bộ sách này là một tư liệu, nó diễn đạt các nghiên cứu về các nguyên tắc hình học sơ cấp, và phương pháp đo lường trong thiên văn học thời xưa thông qua cách hành văn hết sức đơn giản.

Tóm lại, nguồn gốc của Toán học xuất phát sớm từ những nhu cầu cơ bản về định lượng trong đời sống hằng ngày, và nét nổi bật trong giai đoạn khởi đầu này chính là từ tri thức kinh nghiệm, tổng quát thành công thức để dùng trong các trường hợp cụ thể mà chẳng cần quan tâm đến việc chứng minh, giải thích để làm rõ tường tận vấn đề. Hầu hết các kết quả thành công đều xuất phát thử và sai.

Toán học từ năm 600 đến năm 400 trước Công nguyên #

Bước qua thời kỳ Công xã Nguyên thủy (CXNT), nhân loại bước vào thời kỳ Chiếm hữu Nô lệ (CHNL). Trong hình thái xã hội này, xã hội đã phân thành giai cấp trong đó giai cấp chủ nô chính là giai cấp bóc lột, còn giai cấp bị bóc lột là nô lệ.

Giai cấp chủ nô là những người sở hữu ruộng đất, của cải vật chất, và nô lệ. Họ chủ yếu thực hiện ba công việc chính: quản lý sản xuất, gây chiến tranh mở rộng lãnh thổ, giao thương buôn bán với các lãnh địa khác.
Giai cấp nô lệ là những người trực tiếp sản xuất ra của cải vật chất, chiếm một số lượng lớn trong xã hội. Họ bị đối xử không khác gì thú vật, và là lực lượng chiến tranh trong các cuộc chiến tranh của giới chủ nô.

Nhờ được sống trong cuộc sống không bị ràng buộc bởi những yêu cầu sinh tồn tối thiểu và không bị vướng bận về tâm lý lẫn thể xác, giai cấp chủ nô có nhiều điều kiện để xa xỉ thời gian và chiêm nghiệm tri thức. Bên cạnh ba công việc chính, một bộ phận giai cấp chủ nô chọn cách chu du khắp nơi. Bằng những trải nghiệm đó, họ đặt ra nhiều câu hỏi về thế giới này, ví dụ: tại sao vùng đất này lại lạnh, vùng đất kia lại nóng ẩm quanh năm?; tại sao người dân ở vùng đất này có phong tục tập quán khác với những người dân ở vùng đất kia?; … Thế nên, bộ phận này hình thành tư duy nghi ngờ về thế giới này, cố gắng tìm ra câu trả lời cho những câu hỏi tại sao của họ, đồng thời mở ra những câu hỏi mới. Đây chính là nguồn gốc của khoa học, việc xuất hiện con người lao động trí óc; họ biết suy nghĩ, biết nghiền ngẫm, biết đặt vấn đề, biết tìm cách giải quyết vấn đề và mở ra những vấn đề liên đới khác. Chính vào chữ “Tại sao?” đó, lần đầu tiên toán học đã bước vào giai đoạn ba của sự phát triển, một khoa học nghiên cứu theo nhu cầu nội tại của chính mình.

Tên tuổi nổi tiếng đầu tiên phải nhắc đến trong thời đại này chính là Thales, một người thầy có ảnh hưởng sâu sắc đến những “bộ óc” tinh tế nhất của Hy Lạp cổ đại. Nhờ vào việc là một nhà buôn, và những chuyến giao thương với người Babylon đã giúp ông có thể nhiều cơ hội tiếp xúc với nền Toán học ở đây. Thales đã chứng minh sáu mệnh đề cơ bản của hình học, mà sau này chúng ta biết đến với năm tiên đề và một định lý mang tên của ông:

Đường kính chia đôi đường tròn thành hai phần bằng nhau.
Hai góc đáy của tam giác cân thì bằng nhau.
Hai tam giác nếu có hai cặp góc đối và cặp cạnh tương ứng bằng nhau thì bằng nhau (trường hợp góc - cạnh - góc).
Hai góc đối đỉnh thì bằng nhau.
Góc chắn nửa đường tròn thì bằng một góc vuông.
Định lý Thales: Nếu một đường thẳng song song với một cạnh của tam giác và cắt hai cạnh còn lại thì nó định ra trên hai cạnh đó các đoạn thẳng tương ứng tỉ lệ. Những kiến thức này đều là những điều rất bình thường đối với người Babylon, nhưng cách mà Thales chứng minh đã làm thay đổi tất cả góc nhìn về chúng.

Thales là người khai sinh ra trường phái Ionia, và người nổi tiếng nhất trong trường phái này là Pythagoras (được cho là sống vào 570 – 550 trước Công nguyên). Pythagoras và môn đồ rất tôn thờ ý niệm về Số, về sau này những thành quả của họ đóng góp rất nhiều trong lĩnh vực lý thuyết số của Toán học. Quan điểm của Pythagoras rất lấy làm quan trọng việc sử dụng các tiên đề và mệnh đề để làm cơ sở cho các lập luận chứng minh. Nhờ đó, ông đã đưa ra cách chứng minh đầu tiên cho định lí về tam giác vuông cho đến nay vẫn còn mang tên ông. Cũng nhờ vào trường phái của ông, những ý tưởng về kiểm tra tính đúng đắn của các khái niệm được hình thành, việc chứng minh một khái niệm sai có thể dẫn đến việc sụp đổ của cả một hệ thống triết lý.

Bên cạnh việc xây dựng các tiên đề, mệnh đề và chứng minh sao cho vừa đúng đắn vừa hợp lý, Zeno xứ Elea lại là người đề xướng ra những nghịch lý mà sau này lại chính là tiền đề cho những hướng nghiên cứu về sự vô hạn, về vi tích phân. Ba nghịch lý mà ông đề xuất bao gồm: nghịch lý Achilles và con rùa; nghịch lý lưỡng phân và nghịch lý mũi tên ba.

Những bậc thầy tư duy có đóng góp lớn cho nền Toán học thời bấy giờ và cho cả người Hy Lạp không thể không nhắc đến Plato và Aristotle. Những phát triển về lĩnh vực logic và các phương pháp tiên đề trong chứng minh của hai ông trở thành nền móng vững chắc cho Toán học hiện nay. Một trong những học trò của Plato mà sau cũng là một học giả lừng danh, Eudoxus, ông có nhiều đóng góp trong sự phát triển lý thuyết tỷ lệ. Phương pháp của ông ứng dụng rất nhiều trong tính toán diện tích và thể tích mà sau này được xây dựng thành lý thuyết về tích phân trong các chương trình Toán trung học phổ thông và Toán cao cấp ngày nay.

Khoảng những năm 300 trước Công nguyên, hoàn cảnh xã hội lúc này đang là cuộc chinh phục thế giới của Alexander Đại đế. Văn minh phương Tây lúc này văn minh của Hy Lạp cổ đại, tri thức của Hy Lạp về nhiều mặt cũng hòa nhập với tư tưởng phương Đông. Giai đoạn thăng hoa nhất này có lẽ là nhờ vào Euclid – một bậc thầy, “một tác giả sách gíáo khoa thành công nhất mà cả thế giới chưa từng biết”. Ông đã tổng hợp các thành tựu nghiên cứu trước đây thành một tác phẩm tuyệt vời đến nổi nó vượt mặt tất cả các bộ sách giáo khoa lúc bấy giờ. Ngày này, chúng ta biết nó với cái tên “Cơ sở của Hình học” hay bộ sách “Elements”. Bộ sách này gồm 13 quyển:

Quyển I – IV: Hình học phẳng, bao gồm định lí Pythagoras;
Quyển V – VI: Lí thuyết về tỉ lệ của Eudoxus và các ứng dụng vào các hình đồng dạng;
Quyển VII – IX: Lí thuyết số, bao gồm thuật toán Euclid;
Quyển X: phân Loại hình học các số vô tỉ toàn phương và các căn bậc hai của chúng;
Quyển XI – XIII: Hình học không gian, dứt điểm bằng một chứng minh về sự tồn tại của 5 khối đa diện (khối Plato) đều. Sau Euclid, những tên tuổi nổi tiếng khác có thể kể đến như Archimedes với nguyên lý lực đẩy Archimedes; hay Apolonius với bộ tám quyển sách về các mặt cắt conic thể hiện một cách hệ thống nhiều tính chất cơ bản của ellip, parabol và hyperbol như tiêu chuẩn bằng nhau, đồng dạng của các loại đường cong, các hình tiếp xúc và đa giác nội – ngoại tiếp.

Sau thời đại của Apolonius, nền Toán học Hy Lạp bắt đầu tiến vào giai đoạn thoái trào, suy thoái dần dần theo nền văn minh Hy Lạp cổ đại. Đây chính là luật “quân bình” trong Đạo gia của Lão Tử, hể “cực dương – cực thịnh” thì ắt sẽ chuyển thành “cực âm – cực suy”. Khi xem xét nền Toán học ở phương Đông lúc bấy giờ, chúng ta có thể nhận thấy rằng đại đa số các công trình còn lưu giữ đến bây giờ cho thấy người Ấn Độ hay Trung Quốc chủ yếu vẫn tính toán, và né tránh lập luận chứng minh.

Tóm lại, các cơ sở toán học của người Babylon được người Hy Lạp kế thừa và sự phát triển độc lập bắt đầu từ khoảng năm 450 trước Công nguyên. Nhờ nền văn minh Hy Lạp cổ đại, Toán học đã chuyển qua giai đoạn chứng minh và xây dựng được nhiều thành tựu rỡ. Nền khoa học mà cụ thể là Toán ở phương Đông vẫn chưa đơm hoa kết quả.

Toán học từ những năm 400 đến năm 1400 Công nguyên #

Trong giai đoạn đầu sau công nguyên, Đế quốc La Mã thống trị các vùng đất rộng lớn bao quanh Địa Trung Hải ở châu Âu, Bắc Phi, và Tây Á. Thiết chế và văn hóa của La Mã cổ đại có tầm hưởng sâu sắc và dai dẳng trong nhiều lĩnh vực như ngôn ngữ, tôn giáo, nghệ thuật, kiến trúc, văn học, triết học, pháp luật, và các hình thức chính phủ. Mặc dù có những thành công rực rỡ, nền Toán học của Đế quốc La Mã lại rất kém, không mang lại nhiều đóng góp cho nền tảng lý thuyết. Sau khi Đế quốc sụp đổ, toàn bộ châu Âu bị ngưng trệ về mặt tri thức và những tiến bộ về mặt tư tưởng đi xuống tận đáy cho đến thế kỷ thứ 6.

Trong khi đó, Toán học ở phương Đông lại có nhiều tiến bộ hơn trước đây. Điển hình nhất là ở Ấn Độ, nhiều kết quả có ý nghĩa trong đại số và số học được nghiên cứu ra như tìm ra số pi $(\pi)$, xử lý các phương trình đại số vô định bằng phương pháp Diophantus được giới hạn cho trường hợp nghiệm nguyên dương và âm, phát triển hệ đếm cơ số 10, và ký hiệu cho số zero.

Từ những năm 622, Hồi giáo trở thành một nguồn ảnh hưởng có tính chi phối trong nền Toán học phương Tây. Các vua chúa Hồi giáo rất ủng hộ việc nghiên cứu khoa học, đặc biệt là nghiên cứu thiên văn học và toán học. Nhờ vậy, các học giả Á Rập có nhiều cơ hội học tập, hấp thụ và tổng hợp kiến thức Toán học Hy Lạp và Ấn Độ. Những học giả nổi tiếng có thể được kể đến như Mohammed ibn Musa al-Khowarizmi, hay Omar Khayyám. Đóng góp của các ông là nguồn gốc của “algorithm” (thuật toán), nghiên cứu về các phương trình tuyến tính và bậc hai, hay xác định các nghiệm của phương trình bậc ba như là giao điểm của hai mặt cắt conic. Mãi đến những năm cuối của thế kỷ 11, Toán học Hy Lạp kinh điển mới bắt đầu thâm nhập lại châu Âu. Khi các thành phố mọc thêm khắp châu Âu thì các trường của nhà thờ bắt đầu giành lấy vị trí của mình. Trong thế kỷ 13, những trường đại học đầu tiên của Paris, Oxford, Cambridge, Padua và Naples được trao quyền cấp bằng, được Nhà nước và nhà thờ công nhận.

Tóm lại, trong giai đoạn này, châu Âu trong thời kỳ đầu Công nguyên bị trì trệ về mặt tri thức và mãi cho đến cuối thế kỷ 14 mới có thể hồi sinh để ở đầu cho thời kì Phục hưng. Còn nền Toán học phương Đông thì có nhiều thành tựu thể hiện nhiều ý nghĩa trong nghiên cứu số học và đại số.

Toán học trong giai đoạn thế kỷ 15 - 16 #

Từ thế kỷ 15 đến thế kỷ 16, những công trình và thành tựu của các lĩnh vực từng bị che bởi bức màn của Giáo hội Cơ Đốc giáo thì nay đã được khôi phục lại và đưa ra ánh sáng. Giai đoạn này được gọi là thời Phục hưng ở châu Âu nói riêng hay phương Tây nói chung. Những thành tựu như máy in kiểu di động, cùng với sự đẩy mạnh nhiều lĩnh vực đời sống xã hội như giao thương buôn bán, hàng hải và thiên văn địa lý đã thúc đẩy nghiên cứu toán học và ứng dụng. Từ đây, toán học đã đạt được những bước tiến nhảy vọt trong kỹ thuật tính toán.

Một trong những nhà toán học dẫn đầu trong thế kỷ 15 đó là Johannes Müller. Ông có nhiều đóng góp trong dịch thuật các công trình của người Hy Lạp cổ đại về tri thức toán học. Hơn nữa, ông đã để lại cho hậu thế cuốn De triangulis omnimodis, một tuyệt tác về lượng giác. Một điểm đặc biệt trong giai đoạn lịch sử này chính là việc tài liệu sách vở về toán học được thương mại ở mọi nơi. Trong đó nổi tiếng nhất có lẽ là quyển sách tổng hợp của Luca Pacioli, Summa de Arithmetica, tổng hợp một cách hoàn chỉnh và có hệ thống tất cả kiến thức về số học, đại số, và lượng giác mà con người biết được lúc bấy giờ.

Nhắc đến thời kỳ Phục hưng, chúng ta không thể nào quên được Leonardo da Vinci - một nhà bác học với sự đa tài trong nhiều lĩnh vực như hội họa, điêu khắc, kiến trúc, cơ học, quang học, và sinh học. Đóng góp của ông vào toán học chủ yếu về hình học và ứng dụng của nó vào lĩnh vực nghệ thuật. Bên cạnh Da Vinci, Robert Recorde đã đóng góp cho nền Toán học của Vương quốc Anh bằng bốn quyển sách nổi tiếng và nhờ đó ông được xem là cha đẻ toán học Anh. Tiếp theo đó đến nửa cuối thế 16, một nhà toán học Pháp là François Viète đã mang đến những kỹ thuật tiến bộ về mặt đại số. Sự đóng góp của ông mang lại sự thống nhất về ký hiệu, phát triển phương pháp để tìm lời giải cho các phương trình, và mở rộng các phương pháp của chính ông cho các bài toán lượng giác. Ngày nay, chúng ta sẽ bắt gặp một định lý mang tên ông trong các bài giảng về Toán học phổ thông, định lý Viète.

Tóm lại, trong thời kỳ Phục hưng, cùng với nhiều lĩnh vực khác như âm nhạc, hội họa, lĩnh vực Toán học ở phương Tây đã lấy lại đà phát triển nhờ vào việc tìm lại những thành tựu mà trước đây bị trì trệ và đồng thời phát triển nhiều kỹ thuật tiến bộ về mặt số học hay đại số.

Toán học trong giai đoạn thế kỷ 17 #

Hoàn cảnh xã hội phương Tây giai đoạn thế kỷ 17 rất biến động, và nguyên nhân của nó chính là chiến tranh và những cuộc cải cách về mặt tư tưởng. Việc chiến tranh triền miên từ chính trị đến tôn giáo, hay từ những quốc gia lớn đến những quốc gia bé đã dẫn đến tình trạng hỗn loạn, nó đòi hỏi con người phải phát triển không ngừng nghỉ trong sáng tạo khoa học kỹ thuật nhằm phục vụ chiến tranh. Sau những cuộc nổi loạn khắp nơi, phương Tây bước đầu tiến vào quá trình bắt đầu cơ khí hóa nhờ vào sự phát triển của các nghiên cứu về động học chuyển động và sự thay đổi. Bên cạnh đó, những cuộc cách mạng tư tưởng diễn ra trên toàn khắp phương Tây (châu Âu lúc bấy giờ), những cái tên tiêu biểu đó có thể kể đến như Martin Luther hay vua Henry VIII cùng con gái. Từ những yếu tố trên, chủ nghĩa hoài nghi trở thành chủ nghĩa phổ biến trong nhiều hệ thống tư tưởng và các khoa học lúc bấy giờ. Nhờ đó, Toán học trong giai đoạn này đã có những thành tựu vượt trội và làm tiền đề cho sự bùng nổ trong các giai đoạn tiếp sau.

Trước hết chúng ta phải nhắc đến John Napier (1550 - 1617). Ông là người đầu tiên đặt nền móng cho lý thuyết logarithm mà được trình bày trong quyển Mirifici Logarith-morum canonis Description và được hoàn thiện hơn bởi Henry Briggs – là một người bạn thân, và là một người đồng nghiệp ông. Tiếp tục ở đất nước Pháp, bốn nhà Toán học xuất chúng được sinh ra. Người đầu tiên chính là nhà triết học-khoa học René Descartes (1596-1650). Những nghiên cứu của ông dựa trên triết lý rằng mọi khoa học đều có sự liên kết với nhau và chìa khóa cho chúng ta hiểu về mối liên kết đó chính là Toán học. Những phương pháp của ông là sự kết hợp của logic, Giải tích (Hình học) của người xưa và Đại số của người hiện đại, và nhờ đó mà hướng nghiên cứu Hình học Giải tích đã ra đời. Bên cạnh Descartes, Pierre de Fermat (1601 - 1665) được xem là một nhà toán học thuần tuý vĩ đại nhất của thế kỷ 17. Ông có một cuộc đời trầm lặng, không phô trương, và ít công bố nhưng ông lại xây dựng được những kiến thức sâu sắc về hình học giải tích, xác suất, (tiền đề của) vi tích phân, và những nghiên cứu về tính chất số nguyên tố. Định lý mang tên ông – Định lý cuối cùng của Fermat hay Định lý Fermat lớn mãi đến năm 1995 đã được giải bởi Andrew Wiles. Nhà toán học xuất chúng thứ ba của đất nước Pháp là Gérard Desargues (1593 - 1662) – cha đẻ của hình học xạ ảnh. Ông có những đóng góp cực kỳ trong nghiên cứu hình học thuần túy. Những nghiên cứu của ông xoay quanh các bài toán xử lý hình học và nghiên cứu phối cảnh, và tri thức này chính là tiền đề của lĩnh vực hình học xạ ảnh (một lĩnh vực có ứng dụng nhiều trong đồ họa máy tính hiện nay).

Trong giai đoạn đầu thế kỷ 17, nền móng của vi tích phân bắt đầu được xây dựng với những viên gạch đầu tiên. Bằng nguyên lý không thể chia hết, giáo sư Toán học Bonaventura Cavalieri đã định ra tiêu chuẩn cho việc so sánh diện tích và thể tích trong hình học. Tiếp sau ông, có hai nhà toán học xuất chúng đã kết hợp nó với hình học giải tích để dựng nên nền móng của vi tích phân ngày nay. Người thứ nhất chính là Issac Newton (1642 – 1722). Ông phát triển lý thuyết về chuyển đổi liên tục (the theory of fluxions) qua ba luận án, sau đó dùng chúng làm cơ sở cho “Các nguyên lý toán học của triết học tự nhiên” ( Philosophiae Naturalis Principia Mathematica). Công trình về toán học của ông mang đến một sự tiến bộ vượt trội trong nghiên cứu phương pháp toán cho vật lý chuyển động mà có ảnh hưởng đến tận ngày hôm nay. Người thứ hai là thiên tài người Đức Gottfried Wilhelm von Leibniz (1646 – 1716). Ông có nhiều đóng góp đối với nhiều lĩnh vực trong khoa học kỹ thuật, tôn giáo, và khoa học vật lý – toán học; với toán học, ông đã phát triển độc lập nền tảng vi tích phân đồng thời với Newton.

Tóm lại, hoàn cảnh xã hội trong giai đoạn thế kỷ 17 rất hỗn loạn. Những cuộc chiến tranh và cách mạng tư tưởng chính là những nguyên nhân cho những tiến bộ khoa học kỹ thuật nói chung và Toán học nói riêng. Nhờ vào Newton và Leibniz mà nền tảng của vi tích phân được hình thành mà sau đó được phát triển đến cực thịnh trong hai thế kỷ tiếp sau. Bên cạnh đó, nhờ vào những tài năng xuất chúng của phương Tây mà nhiều hướng mới được hình thành và có nhiều ứng dụng đến tận ngày nay.

Toán học trong giai đoạn thế kỷ 18 #

Dựa trên nền tảng của Newton và Leibniz, vi tích phân trở thành công cụ chi phối sự phát triển của toán học và vật lý trong thế kỷ 18. Trong thời kỳ này, hàm lượng nghiên cứu chủ yếu tập trung ở các Viện hàn lâm Hoàng gia, còn các trường Đại học chỉ đóng vai trò rất nhỏ trong việc nghiên cứu để tạo ra những tri thức mới.

Ảnh hưởng của những công trình của Leibniz rất sâu sắc đến nhiều nhà toán học cùng thời. Gia đình họ Bernoulli, một trong những gia đình sinh ra tám nhà toán học xuất sắc của thế giới, và hai trong số họ chính là Jacob và Johann Bernoulli có đóng góp rất nhiều trong phát triển nền tảng cho vi tích phân. Công trình của hai ông tập trung vào các dạng đường cong đặc biệt và lý thuyết xác suất.

Johann Bernoulli đã dạy dỗ thành công một học trò, mà sau này được xem là nhà toán học vĩ đại nhất thế kỷ 18, Leonhard Euler (1707-1783). Ông đóng góp cho nền toán học nhân loại gần 900 quyển sách và luận văn – luận án quan trọng trong nhiều lĩnh vực về giải tích, đại số, số học, cơ học, thiên văn và âm nhạc. Đồng thời, ông chính là định hình ký hiệu toán học, công thức lượng giác và phát triển lý thuyết giải tích lên một tầm cao mới. Đồng nhất thức Euler và phương trình Euler là hai công trình thể hiện vẻ đẹp tuyệt mỹ của Toán học và tài năng xuất chúng của ông.

Những nhà toán học Pháp lỗi lạc khác có thể nhắc đến như Joseph-Louis Lagrange (1736-1813). Ông có công rất lớn trong việc sắp xếp lại phần lớn nội dung vi tích phân của Euler và mở rộng nó trong các lý thuyết của lý thuyết số và cơ học. Bên cạnh các nhà toán học xuất chúng khác của nước Pháp, Pierre Simon Laplace (1749 – 1827), ông có nhiều đóng góp cho Toán ứng dụng mà nổi tiếng nhất là lý thuyết giải tích về xác suất (Théorie analytique des probabilités). Nhìn chung, những công trình của Laplace thường rất thiếu tính chi tiết, và vì thế chúng ta phải mất rất nhiều thời gian để có thể hiểu cái “Vậy đơn giản là…” của ông là gì.

Nhờ vào việc dựa trên nền móng của Leibniz, vi tích phân ở châu Âu rất phát triển bởi lẽ nó dễ dàng áp dụng hơn nhiều so với lý thuyết của Newton. Toán học ở châu Âu, mà cụ thể là Toán học Pháp giữ một vị trí vượt trội so với phần còn lại của phương Tây. Những cố gắng của Jean d’Alembert (1717 – 1783) trong giải quyết các vấn đề của vi tích phân Newton bằng việc đưa ra khái niệm giới hạn nhưng lại không có nhiều ảnh hưởng trong thời điểm bấy giờ.

Tóm lại, trung tâm của Toán học trong giai đoạn thế kỷ 18 nằm ở châu Âu mà trong đó sáng nhất là nước Pháp với những nhà toán học xuất chúng được sinh ra. Họ có đóng góp rất nhiều cho toán học, đặc biệt là lĩnh vực vi tích phân, xác suất và toán học ứng dụng.

Toán học trong giai đoạn thế kỷ 19 #

Toán học trong thế kỷ 19 tiếp tục phát triển tột độ. Số lượng các công trình nghiên cứu về Toán nhiều hơn gấp trăm nghìn lần so với các giai đoạn trước đây. Hơn nữa, các tài liệu về Toán có độ phong phú cao và phổ biến đối với tất cả mọi người. Nhờ sự phát triển rộng mở như vậy, Toán học đã trở thành một mảnh đất nghiên cứu vô cùng rộng lớn mà một khối óc riêng rẻ không còn đủ sức để có thể thông hiểu hết được các lĩnh vực trong đó nữa, trừ những quái kiệt như Gauss, Riemann, Klein, hay Poincaré.

Trong giai đoạn thế kỷ 19, bối cảnh xã hội ở phương Tây nói chung hay châu Âu đang diễn ra những cuộc cách mạng mà điển hình là sự sụp đổ của chế độ quân chủ chuyên chế - Cách mạng Pháp (1789 – 1799). Từ đây đã có rất nhiều tư tưởng mới được hình thành. Trải qua nhiều thời kỳ phát triển của Toán học nói riêng và hay Triết học nói chung, ta khẳng định chắc chắn rằng nội dung của một học thuyết hay tư tưởng không do con người quy định mà do hoàn cảnh xã hội quyết định.

Trong số những thiên tài lập dị, Evariste Galois (1811 – 1832) bất chấp việc bị giáo dục chính trị nhiều lần và việc phải “vào tù ra khám” thường xuyên, ông vẫn có thể dành nhiều thời gian “quý giá” của mình cho nghiên cứu đại số. Bản thảo nhanh của ông trước khi đi thách đấu súng đã mở ra một ngành nghiên cứu mới cho Toán học, lý thuyết nhóm (Group Theory).

Nhờ vào sự “giải thoát” thành công cho đại số dựa trên những gì còn sót lại của Galois, nghiên cứu đại số đã có những tiến bộ vượt trội. Đầu tiên, William Rowan Hamilton (1805 – 1865) đã khám phá ra quaternion. Sau đó, đại số được tổng quát hóa và đạt đến trừu tượng hóa nhờ Hermann Grassmann (1809 – 1877). Từ đây, trung tâm của Toán học dần chuyển sang Anh quốc với Arthur Cayley (1863 – 1895) với lý thuyết ma trận hay James Joseph Sylvester (1814 – 1897) với lý thuyết bất biến và tổ hợp. Cùng với đại số, lý thuyết nhóm cũng được phát triển và mở rộng hơn nhờ vào Felix Klein (1849 – 1925) với lý thuyết nhóm rời rạc và Marius Sophus Lie (1842 – 1899) với lý thuyết nhóm liên tục.

Bên cạnh lý thuyết đại số, lĩnh vực vi tích phân trong giai đoạn này cũng có nhiều tiến bộ chóng mặt. Khuynh hướng chung trong giới vi tích phân lúc này là việc chứng minh với các lập luận chặt chẽ. Nhà toán học Augustin Louis Cauchy (1789 – 1857) đã đưa ra khái niệm giới hạn bằng ngôn ngữ delta ($\delta$) và epsilon ($\epsilon$), và từ đó định hình, xây dựng và phát triển nền tảng vững chắc cho vi tích phân hay sau này chúng ta gọi đó là giải tích (analysis). Hay Bernhard Riemann (1826 – 1866) phát triển lý thuyết về số phức và đưa ra giả thuyết quan trọng – giả thuyết Riemannian . Nhà toán học Karl Weierstrass (1815 – 1897) làm sáng tỏ nhiều khái niệm quan trọng trong giải tích như hàm số, và đạo hàm. Cùng thời với Weierstrass, Leopold Kronecker (1823 – 1891) là một nhà toán học về lý thuyết số. Ông có nhiều tranh cãi với ý niệm về các dãy vô hạn được thể hiện trong các công trình nghiên cứu của một số nhà toán học lúc bấy giờ. Điển hình nhất trong nghiên cứu ý niệm vô hạn là của Richard Dedekind (1831 – 1916) và Georg Cantor (1845 – 1918).

Ngoài lĩnh vực đại số và giải tích, lĩnh vực hình học cũng bắt đầu có những tiến bộ cách mạng. Ngọn lửa bắt đầu từ nhà toán học người Ý Giovanni Girolamo Saccheri (1667 – 1733). Ông nhận ra vấn đề của hình học Euclid có vấn đề ở “Định đề song song ” nhưng ông đã từ bỏ khi còn một chút nữa thì chân lý đã được sáng tỏ. Đến thế kỷ 19, vào lần lượt các năm 1829, 1832 và 1854, nhờ dựa trên những thành quả của Saccheri mà ba nhà toán học bao gồm Nicolai Lobachevsky (1792 – 1856), János Bolyai (1802 – 1860), và Bernhard Riemann (1826 – 1866), họ đã công bố hệ hình học phi-Euclid nhất quán một cách độc lập lẫn nhau. Kể từ đây, hình học đã mở rộng hơn bao giờ hết với n-chiều hoàn toàn cho các không gian metric, và hợp nhất với các lĩnh vực khác như đại số trừu tượng, giải tích để mở rộng và sinh ra các hướng nghiên cứu mới. Đây là xu hướng hợp nhất trong giới toán học hiện giờ. Và dấu ấn sâu đậm nhất cho tinh thần hợp nhất đó là nhờ vào nhà toán học Henri Poincaré (1854 – 1912) với những đóng góp cho số học, đại số, hình học, và gải tích. Ông đã khai sinh ra một ngành học mới, lý thuyết tô-pô và một giả thuyết nổi tiếng. Sau này nó đã được chứng minh bởi nhà toán học Nga lập dị Grigori Yakovlevich Perelma.

Toán học trong giai đoạn thế kỷ 20 #

Trong giai đoạn thế kỷ 20, sự phát triển của Toán học tăng vọt với một tốc độ cực nhanh, với nhiều những thành tựu liên hệ với nhiều lĩnh vực quan trọng khác nhau.

Vào năm 1900, David Hilbert (1862 – 1943) đã đưa ra danh sách 23 bài toán chưa có lời giải tại Hội nghị các nhà Toán học Quốc tế. Ông cũng là người tiên phong trong việc tiên đề hóa hình học với 21 tiên đề và đưa ra khái niệm không gian Hilbert – một cơ sở của nghiên cứu giải tích hàm hiện nay. Cùng thời điểm này, một nhà toán học thiên tài người Ấn Độ - Srīnivāsa Rāmānujan Iyenga (1887 – 1920) đã phát triển hơn 3000 định lý trong nhiều lĩnh vực nghiên cứu quan trọng khác nhau như lý thuyết chuỗi (chuỗi phân kỳ, chuỗi siêu hình học) và lý thuyết số nguyên tố.

Trong những năm 1930, Kurt Gödel (1906 – 1978) đưa ra định lý bất toàn. Định lý của ông mở rộng và khẳng định rằng chúng ta không thể tìm thấy chân lý của Toán học (và của khoa học nói chung) bên trong cấu trúc duy lý của bản thân Toán học (của bản thân khoa học đó); cái đúng của Toán học (và của khoa học nói chung) phải tìm ở bên ngoài Toán học (khoa học đó).

Vào năm 1947, Paul Anthony Samuelson (1915 – 2009) công bố “Cơ sở phân tích kinh tế”. Đây được xem là khởi đầu của toán kinh tế đương đại. Sau đó, vào năm 1952, John Anthony Pople (1925 – 2004) đã vận dụng toán trong nghiên cứu hóa học, lập ra công thức cho một sơ đồ cơ bản để phát triển những mô hình toán học phục vụ nghiên cứu phân tử mà không cần tiến hành thí nghiệm. Nghiên cứu của ông đánh dấu một bước phát triển mới của phương pháp tính trong hóa học. Và điểm nhấn của toàn bộ thế kỷ 20, Andrew Wiles (1953 - ? ), làm việc một mình trong văn phòng trong nhiều năm trời, cuối cùng đã chứng minh được Định lý lớn Fermat vào năm 1995, kết thúc hơn 300 năm đi tìm lời giải.

Tóm lại, sự phát triển của Toán học trong giai đoạn thế kỷ 20 tiếp tục đạt đến một tầm cao mới. Toàn bộ các lĩnh vực mới của toán học như logic toán, tô-pô học, lý thuyết độ phức tạp, và lý thuyết trò chơi đã thay đổi các thể loại câu hỏi mà có thể trả lời được bởi các phương pháp toán học.

Tổng kết #

Lịch sử Toán học trong phần này được trình theo trình tự thời gian. Các giai đoạn của sự phát triển tri thức của con người gắn liền với sự phát triển của Toán học, từ chất phác và thừa nhận đến lập luận chặt chẽ. Cũng như các lĩnh vực khoa học khác, Toán học sinh ra nhằm phục vụ nhu cầu đời sống con người và nội dung của nó không do con người quy định mà do hoàn cảnh sống khách quan quy định.

Timeless Quotes

Sat, 19 Aug 2023 00:00:00 +0000

There are some things which cannot be learned quickly, and time, which is all we have, must be paid heavily for their acquiring. They are the very simplest things, and because it takes a man’s life to know them the little new that each man gets from life is very costly and the only heritage he has to leave.

– Ernest Hemingway (From A. E. Hotchner, Papa Hemingway, Random House, NY, 1966)

We are punished by our sins, not for them.

– Elbert Hubbard

the lyf so short, the craft so long to lerne

– Chaucer (1340-1400)

Ars longa, vita brevis, occasio praeceps, experimentum periculosum, iudicium difficile (Life is short, [the] craft long, opportunity fleeting, experiment treacherous, judgment difficult.)

– Hippocrates (c. 400BC)

‘the cat sat on the mat’ is not the beginning of a story, but ‘the cat sat on the dog’s mat’ is.

– John le Carré (David John Moore Cornwell)

Excellence in any department can be attained only by the labor of a lifetime; it is not to be purchased at a lesser price.

– Samuel Johnson

Only one who devotes himself to a cause with his whole strength and soul can be a true master. For this reason mastery demands all of a person.

– Albert Einstein

Books are attracted to me. They make a beeline for me, and stick to me. I have been so fond of them that at last they have begun to reciprocate. In my hands books burst like ripe fruit. Like magic flowers they unfold their petals to show me the vital thought, the suggestive word, the confirming quotation, the decisive illustration.

– Sergei Eisenstein

If we concentrate our attention on trying to solve a problem of geometry, and if at the end of an hour we are no nearer to doing so than at the beginning, we have nevertheless been making progress each minute of that hour in another more mysterious dimension. Without knowing or feeling it, this apparent barren effort has brought more light into the soul.

– Simone Weil

We see things not as they are, but as we are.

– The Talmud

The scientist does not study nature because it is useful; he studies it because he delights in it, and he delights in it because it is beautiful. If nature were not beautiful, it would not be worth knowing, and if nature were not worth knowing, life would not be worth living.

– Henri Poincaré

A noble man compares and estimates himself by an idea which is higher than himself; and a mean man, by one lower than himself. The one produces aspiration; the other ambition, which is the way in which a vulgar man aspires.

– Joseph Conrad

Believe that none of the effort you put into coming closer to God is ever wasted – even if in the end you don’t achieve what you are striving for.

– Rebbe Nachman of Breslov

When you look at a human being, you see his hands working, his feet walking, his mouth talking. You don’t see his heart, his brain, his lungs and kidneys. They work quietly, inside. But they are the essential organs of life. The world, too, has hands and feet—those who are making the news, moving things around, shaking things up. The heart, the inner organs, they are those who work quietly from the inside, those unnoticed, those who do a simple act of kindness with no thought of reward.

– Rabbi M. M. Schneerson

Too many people spend money they haven’t earned to buy things they don’t want to impress people they don’t like.

– Will Rogers

When you thwart what’s real about you in order to keep creating content for financial need, you’re just not gonna make it. You’re not gonna keep going. You have your number. It’s very dangerous to be liked by more people than should like you. It’s bad for them, and it’s bad for you. There’s gonna be a shock down the road for them, or you’re gonna dilute yourself and take yourself to a place where you can’t live with who you are. I think that you make an honest account of who you are and you live with the results. The results will be appropriate to who you are… If you’re saying things just to piss people off, then I don’t know why do it. If you’re saying things just to please people, that’s a short-lived victory. But if you just say the things you believe, and the things you like to say, and that mean something to you — if you stay close to the gut — then everything will work itself out.

– Louis C.K.

To exist is to change, to change is to mature, to mature is to go on creating oneself endlessly.

– Henri Bergson

What we have done for ourselves alone dies with us; what we have done for others and the world remains and is immortal.

– Albert Pike

Perhaps all the dragons of our lives are princesses who are only waiting to see us once beautiful and brave.

– Rainer Maria Rilke

You must stay drunk on writing so reality cannot destroy you.

– Ray Bradbury

The ultimate test of a man’s conscience may be his willingness to sacrifice something today for future generations whose words of thanks will not be heard.

– Gaylord Nelson

Finish each day and be done with it. You have done what you could; some blunders and absurdities have crept in; forget them as soon as you can. Tomorrow is a new day; you shall begin it serenely and with too high a spirit to be encumbered with your old nonsense.

– Ralph Waldo Emerson

Marriage is an alliance entered into by a man who can’t sleep with the window shut and a woman who can’t sleep with the window open.

– George Bernard Shaw

If you think education is expensive, try ignorance.

– Derek Bok

People talk about “wasting time,” or even “killing time.” Neither term is accurate. Time does not belong to you that you can waste it. Yetట Yet neither does it have a life of its own that you can take away. Rather, time awaits you to give it life.

– Rabbi M. M. Schneerson

Most folks are about as happy as they make up their minds to be.

– Abraham Lincoln

One who loves must learn fear. One who fears must learn love. The thinker must do. The doer must think. The pacifist must fight, the fighter must find peace. If you flow as a river, burn as a fire. If you burn as a furnace, flow as a river. If you fly as a bird, sit firm as a rock. If you sit firmly, then fly as a bird. Be a fire that flows. A rock that flies. Love with fear and fear with love. For we are not fire, not water, not air, not rocks, not thoughts, not deeds, not fear, not love. We are G-dly beings.

– Rabbi M. M. Schneerson

When you come to the end of all the light you know, and it’s time to step into the darkness of the unknown, faith is knowing that one of two things shall happen: Either you will be given something solid to stand on or you will be taught to fly.

– Edward Teller

Whatever you can do, or dream you can do, begin it. Boldness has genius and power and magic in it.

– Johann Goethe (John Anster’s translation of Faust)

It is impossible to enjoy idling thoroughly unless one has plenty of work to do.

– Jerome K. Jerome

Every society honors its live conformists and its dead troublemakers.

– Mignon McLaughlin

You can easily judge the character of a man by how he treats those who can do nothing for him.

– James D. Miles

In our thinking…we attribute to this concept of the bodily object a significance, which is to high degree independent of the sense impression which orignally gives rise to it. This is what we mean when we attribute to the bodily object a real existence. …By means of such concepts and mental relations between them, we are able to orient ourselves in the labyrinth of sense impressions. These notions and relations…appear to us as stronger and more unalterable than the individual sense experience itself, the character of which as anything other than the result of an illusion or hallucination is never completely guaranteed.

– Albert Einstein

Praise and blame, gain and loss, pleasure and sorrow come and go like the wind. To be happy, rest like a giant tree in the midst of them all.

– Buddha

I am always doing things I can’t do, that’s how I get to do them.

– Pablo Picasso

This above all: to thine own self be true. And it must follow, as the night the day, Thou canst not then be false to any man.

– William Shakespeare

If the world is cold make it your business to build fires.

– Horace Traubel

Nearly all men can stand adversity, but if you want to test a man’s character, give him power.

– Abraham Lincoln

Your work is to discover your work and then, with all your heart, to give yourself to it.

– Buddha

Strive to realize a state of inward happiness, independent of circumstances.

– J.P. Greaves

When one door of happiness closes, another opens; but often we look so long at the closed door that we do not see the one which has opened for us.

– Helen Keller

I keep six honest serving men (They taught me all I know) Their names are What and Why and When And How and Where and Who

– Rudyard Kipling, in Just So Stories

Whatsoever is, is in God, and without God nothing can be, or be conceived.

– Baruch Spinoza

We must not forget that when radium was discovered no one knew that it would prove useful in hospitals. The work was one of pure science. And this is a proof that scientific work must not be considered from the point of view of the direct usefulness of it. It must be done for itself, for the beauty of science, and then there is always the chance that a scientific discovery may become like the radium a benefit for humanity.

– Marie Curie

I believe that a scientist looking at nonscientific problems is just as dumb as the next guy.

– Richard Feynman

To be what we are, and to become what we are capable of becoming, is the only end in life.

– Baruch Spinoza

The highest activity a human being can attain is learning for understanding, because to understand is to be free.

– Baruch Spinoza

I call him free who is led solely by reason.

– Baruch Spinoza

God is the indwelling and not the transient cause of all things.

– Baruch Spinoza

He who finds a thought that enables him to obtain a slightly deeper glimpse into the eternal secrets of nature has been given great grace.

– Albert Einstein

Watch your thoughts; they become words. Watch your words; they become actions. Watch your actions, they become habits. Watch your habits, they become character. Watch your character; it becomes your destiny.

– Frank Outlaw

Creativity is God’s gift to you. What you do with it is your gift to God.

– Bob Moawad

In the long run men hit only what they aim at. Therefore, though they should fail immediately, they had better aim at something high.

– Henry David Thoreau

We act as though comfort and luxury were the chief requirements of life, when all that we need to make us really happy is something to be enthusiastic about.

– Charles Kingsley

I have always believed that whatever good or bad fortune may come our way we can always give it meaning and transform it into something of value.

– Hermann Hesse

It is even harder for the average ape to believe that he has descended from man.

– H.L. Mencken

Truth, like gold, is to be obtained not by its growth, but by washing away from it all that is not gold.

– Leo Tolstoy

If you do not change direction, you may end up where you are heading.

– Lao Tzu

The best thing for being sad is to learn something. That is the only thing that never fails. You may grow old and trembling in your anatomies, you may lie awake at night listening to the disorder of your veins, you may miss your only love, you may see the world about you devastated by evil lunatics, or know your honor trampled in the sewers of baser minds. There is only one thing for it then to learn. Learn why the world wags and what wags it. That is the only thing which the mind can never exhaust, never alienate, never be tortured by, never fear or distrust, and never dream of regretting.

– T. H. White, in The Once and Future King

What we hope ever to do with ease we may learn first to do with diligence.

– Samuel Johnson

The way is long if one follows precepts, but short… if one follows patterns.

– Lucius Annaeus Seneca

Find out just what any people will quietly submit to and you have found out the exact measure of injustice and wrong which will be imposed upon them.

– Frederick Douglass

Somewhere, something incredible is waiting to be known.

– Carl Sagan

Principles for the Development of a Complete Mind: Study the science of art. Study the art of science. Develop your senses – especially learn how to see. Realise that everything connects to everything else.

– Leonardo DaVinci

I have come here to chew bubblegum and kick ass … and I’m all out of bubblegum.

– Nada, in They Live (1988) by John Carpenter

Where the mind is without fear and the head is held high Where knowledge is free Where the world has not been broken up into fragments By narrow domestic walls Where the words come out From the depth of truth Where the tireless striving stretches its arms towards perfection Where the clear stream of reason has not lost its way into the dreary desert sand of dead habit Where the mind is led forward by thee In ever widening thought and action Into that heaven of freedom, my father Let my country awake.

– Rabindranath Tagore (from Gitanjali)

By all means marry; if you get a good wife, you’ll become happy; if you get a bad one, you’ll become a philosopher.

– Socrates

The belief in an external world independent of the perceiving subject is the basis of all natural science. Since, however, sense perception only gives information of this external world or of “physical reality” indirectly, we can only grasp the latter by speculative means. It follows from this that our notions of physical reality can never be final. We must always be ready to change these notions – that is to say, the axiomatic basis of physics – in order to do justice to perceived facts in the most perfect way logically.

– Albert Einstein

I love you when you bow in your mosque, kneel in your temple, pray in your church. For you and I are sons of one religion, and it is the spirit.

– Kahlil Gibran

To find yourself, think for yourself.

– Socrates

The earth is but one country, and mankind its citizens.

– Baha’u’llah

There is only one good, knowledge, and one evil, ignorance.

– Socrates

For every complicated problem there is a solution that is simple, direct, understandable, and wrong.

– H. L. Mencken

If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.

– John Louis von Neumann

The only true wisdom is in knowing you know nothing.

– Socrates

It’s only recently that I’ve come to understand that writers are not marginal to our society, that they, in fact, do all our thinking for us, that we are writing myths and our myths are believed, and that old myths are believed until someone writes a new one.

– Kurt Vonnegut

All ads do the same: create an anxiety relievable by purchase.

– David Foster Wallace

Beginnings are hard. For good reason. If they were easy, we would prowl into each new venture like a snug fat cat. When you begin pent up in an iron cage, a new life emerges. A tiger that breaks through the door of its cage and pounces with a vengeance. Bless those cages, those impossible brick walls, those rivers of fire that lie at the outset of each worthwhile journey. Without them we would be only as powerful as we appear.

– Rabbi M. M. Schneerson

I really think the mark of experience isn’t the ability to write a lot of good pages, it’s the ability to generate shitty pages faster without worrying so much about it.

– Justin Marks

The more subtle and elegant you are in hiding your plot points, the better you are as a writer.

– Billy Wilder

Inspiration does exist, but it must find you working.

– Pablo Picasso

Every character should want something, even if it is only a glass of water.

– Kurt Vonnegut

There is no abstract art. You must always start with something. Afterward you can remove all traces of reality.

– Pablo Picasso

To the complaint, ‘There are no people in these photographs,’ I respond, There are always two people: the photographer and the viewer.

– Ansel Adams

The more abstract is form, the more clear and direct its appeal.

– Wassily Kandinsky

The artist must have something to say, for mastery over form is not his goal but rather the adapting of form to its inner meaning.

– Wassily Kandinsky

Treat a man as he appears to be, and you make him worse. But treat a man as if he were what he potentially could be, and you make him what he should be.

– Johann Wolfgang von Goethe

Pure mathematics is, in its way, the poetry of logical ideas. One seeks the most general ideas of operation which will bring together in simple, logical and unified form the largest possible circle of formal relationships. In this effort toward logical beauty spiritual formulas are discovered necessary for the deeper penetration into the laws of nature.

– Albert Einstein

Pursue some path, however narrow and crooked, in which you can walk with love and reverence.

– Henry David Thoreau

If any man wish to write in a clear style, let him be first clear in his thoughts; and if any would write in a noble style, let him first possess a noble soul.

– Johann Wolfgang von Goethe

Only the curious will learn, only the resolute overcome the obstacles to learning. The Quest quotient has always excited me more than the intelligence quotient.

– Eugene S. Wilson

Human beings can attain a worthy and harmonious life only if they are able to rid themselves, within the limits of human nature, of striving to fulfill wishes of the material kind.

– Albert Einstein

You can’t wait for inspiration. You have to go after it with a club.

– Jack London

If you don’t have time to read, you don’t have the time – or the tools—to write.

– Stephen King

A professor must have a theory as a dog must have fleas.

– H. L. Mencken

We shall not cease from exploration, and the end of all our exploring will be to arrive where we started, and know the place for the first time.

– T. S. Eliot

Humankind has not woven the web of life. We are but one thread within it. Whatever we do to the web we do to ourselves. All things are bound together. All things are connected.

– Chief Seattle

We do not inherit the earth from our ancestors, we borrow it from our children.

– Native American Proverb

We cannot command Nature except by obeying her.

– Francis Bacon

Each player must accept the cards life deals him or her: but once they are in hand, he or she alone must decide how to play the cards in order to win the game.

– Voltaire

We are what we think. All that we are arises with our thoughts. With our thoughts, we make the world.

– Buddha

Every intellectual has a very special responsibility. He has the privilege and opportunity of studying. In return, he owes it to his fellow men (or ‘to society’) to represent the results of his study as simply, clearly and modestly as he can. The worst thing that intellectuals can do – the cardinal sin – is to try to set themselves up as great prophets vis-a-vis their fellow men and to impress them with puzzling philosophies. Anyone who cannot speak simply and clearly should say nothing and continue to work until he can do so.

– Karl Popper

A man who stands for nothing will fall for anything.

– Malcolm X

You need not leave your room. Remain sitting at your table and listen. You need not even listen, simply wait, just learn to become quiet, and still, and solitary. The world will freely offer itself to you to be unmasked. It has no choice; it will roll in ecstasy at your feet.

– Franz Kafka

Creativity is essentially a lonely art. An even lonelier struggle. To some a blessing. To others a curse. It is in reality the ability to reach inside yourself and drag forth from your very soul an idea.

– Lou Dorfsman

Life is not easy for any of us. But what of that? We must have perseverance and above all confidence in ourselves. We must believe that we are gifted for something, and that this thing, at whatever cost, must be attained.

– Marie Curie

Nothing in this world can take the place of persistence. Talent will not; nothing is more common than unsuccessful people with talent. Genius will not; unrewarded genius is almost a proverb. Education will not; the world is full of educated derelicts. Persistence and determination alone are omnipotent. The slogan “press on” has solved and always will solve the problems of the human race.

– Calvin Coolidge

Education is the passport to the future, for tomorrow belongs to those who prepare for it today.

– Malcolm X

Jump off the cliff and build your wings on the way down.

– Ray Bradbury

However great a man’s natural talent may be, the act of writing cannot be learned all at once.

– Jean Jacques Rousseau

Talent is cheaper than table salt. What separates the talented individual from the successful one is a lot of hard work.

– Stephen King

My ambition is to find freedom, without taking it from someone else.

– George Dyson

writing = ass + chair

– Oliver Stone

Truth is a demure lady, much too ladylike to knock you on your head and drag you to her cave. She is there, but people must want her, and seek her out.

– William F. Buckley

Death is a dignitary who when he comes announced is to be received with formal manifestations of respect, even by those most familiar with him. In the code of military etiquette silence and fixity are forms of deference.

– Ambrose Bierce (from An Occurrence at Owl Creek, 1890)

Don’t market yourself. Editors and readers don’t know what they want until they see it. Scratch what itches. Write what you need to write, feed the hunger for meaning in your life. Play at the serious questions of life and death.

– Donald M. Murray

Never, under any circumstances, hate a movie. It won’t help you and it’s a waste of time. There’s plenty of reasons to not to like a movie. But if you hate them? Meaning if let them bother you? Then they’ll do nothing but bother you. And I mean if you want to do this for a fucking living and you’re absolutely serious, then never hate a movie. You can learn so much about the craft from bad movies. Bad movies teach you what not to do and what to correct in your process and that’s way more helpful. And fuck man, hating movies closes you off to stuff that seems like whatever you hate. Or stuff by the same guy. And who knows? That other stuff could be awesome. Some of my favorite filmmakers made bad movies. It won’t help you. It just won’t. It stops your development right in its tracks, okay? I mean like everything and I ain’t trying to get you to be like me or anything. I’m just saying I think it’s better for you. And it makes me way, way happier. Never hate a movie. They’re gifts. Every fucking one of em.

– Quentin Tarantino

I think everybody should get rich and famous and do everything they ever dreamed of so they can see that it’s not the answer.

– Jim Carrey

Due to circumstances beyond my control, I am the master of my fate and captain of my soul.

– Ashleigh Brilliant (variant from a line in the poem “Invictus” by William Earnest Henley, written in 1875)

Entertain yourself. Luck comes just as often (and just as rarely) to every writer. Don’t be the writer that got lucky doing something they hate.

– Dan Harmon

If there’s a book you really want to read but it hasn’t been written yet, then you must write it.

– Toni Morrison

I’d just say to aspiring journalists or writers – who I meet a lot of – do it now. Don’t wait for permission to make something that’s interesting or amusing to you. Just do it now. Don’t wait. Find a story idea, start making it, give yourself a deadline, show it to people who’ll give you notes to make it better. Don’t wait till you’re older, or in some better job than you have now. Don’t wait for anything. Don’t wait till some magical story idea drops into your lap. That’s not where ideas come from. Go looking for an idea and it’ll show up. Begin now. Be a fucking soldier about it and be tough.

– Ira Glass

Success consists of going from failure to failure without loss of enthusiasm.

– Winston Churchill

All the gods, all the heavens, all the hells, are within you.

– Joseph Campbell

– Simone Weil

We see things not as they are, but as we are.

– The Talmud

– Henri Poincaré

– Joseph Conrad

Believe that none of the effort you put into coming closer to God is ever wasted – even if in the end you don’t achieve what you are striving for.

– Rebbe Nachman of Breslov

Too many people spend money they haven’t earned to buy things they don’t want to impress people they don’t like.

– Will Rogers

To exist is to change, to change is to mature, to mature is to go on creating oneself endlessly.

– Henri Bergson

What we have done for ourselves alone dies with us; what we have done for others and the world remains and is immortal.

– Albert Pike

Perhaps all the dragons of our lives are princesses who are only waiting to see us once beautiful and brave.

– Rainer Maria Rilke

The ultimate test of a man’s conscience may be his willingness to sacrifice something today for future generations whose words of thanks will not be heard.

– Gaylord Nelson

– Ralph Waldo Emerson

Marriage is an alliance entered into by a man who can’t sleep with the window shut and a woman who can’t sleep with the window open.

– George Bernard Shaw

If you think education is expensive, try ignorance.

– Derek Bok

Most folks are about as happy as they make up their minds to be.

– Abraham Lincoln

– Rabbi M. M. Schneerson

– Edward Teller

Whatever you can do, or dream you can do, begin it. Boldness has genius and power and magic in it.

– Johann Goethe (John Anster’s translation of Faust)

It is impossible to enjoy idling thoroughly unless one has plenty of work to do.

– Jerome K. Jerome

Every society honors its live conformists and its dead troublemakers.

– Mignon McLaughlin

You can easily judge the character of a man by how he treats those who can do nothing for him.

– James D. Miles

In our thinking…we attribute to this concept of the bodily object a significance, which is to high degree independent of the sense impression which originally gives rise to it. This is what we mean when we attribute to the bodily object a real existence. …By means of such concepts and mental relations between them, we are able to orient ourselves in the labyrinth of sense impressions. These notions and relations…appear to us as stronger and more unalterable than the individual sense experience itself, the character of which as anything other than the result of an illusion or hallucination is never completely guaranteed.

– Albert Einstein

Praise and blame, gain and loss, pleasure and sorrow come and go like the wind. To be happy, rest like a giant tree in the midst of them all.

– Buddha

The right time to show your good character is when you are pestered by somebody weaker than you.

– Buddha

I am always doing things I can’t do, that’s how I get to do them.

– Pablo Picasso

This above all: to thine own self be true. And it must follow, as the night the day, Thou canst not then be false to any man.

– William Shakespeare

If the world is cold make it your business to build fires.

– Horace Traubel

Nearly all men can stand adversity, but if you want to test a man’s character, give him power.

– Abraham Lincoln

Your work is to discover your work and then, with all your heart, to give yourself to it.

– Buddha

Strive to realize a state of inward happiness, independent of circumstances.

– J.P. Greaves

When one door of happiness closes, another opens; but often we look so long at the closed door that we do not see the one which has opened for us.

– Helen Keller

I keep six honest serving men (They taught me all I know) Their names are What and Why and When And How and Where and Who

– Rudyard Kipling, in Just So Stories

– Marie Curie

I believe that a scientist looking at nonscientific problems is just as dumb as the next guy.

– Richard Feynman

To be what we are, and to become what we are capable of becoming, is the only end in life.

– Baruch Spinoza

– Frank Outlaw

Creativity is God’s gift to you. What you do with it is your gift to God.

– Bob Moawad

In the long run men hit only what they aim at. Therefore, though they should fail immediately, they had better aim at something high.

– Henry David Thoreau

We act as though comfort and luxury were the chief requirements of life, when all that we need to make us really happy is something to be enthusiastic about.

– Charles Kingsley

I have always believed that whatever good or bad fortune may come our way we can always give it meaning and transform it into something of value.

– Hermann Hesse

Truth, like gold, is to be obtained not by its growth, but by washing away from it all that is not gold.

– Leo Tolstoy

If you do not change direction, you may end up where you are heading.

– Lao Tzu

– T. H. White, in The Once and Future King

What we hope ever to do with ease we may learn first to do with diligence.

– Samuel Johnson

The way is long if one follows precepts, but short… if one follows patterns.

– Lucius Annaeus Seneca

Find out just what any people will quietly submit to and you have found out the exact measure of injustice and wrong which will be imposed upon them.

– Frederick Douglass

Somewhere, something incredible is waiting to be known.

– Carl Sagan

– Leonardo DaVinci

I have come here to chew bubblegum and kick ass … and I’m all out of bubblegum.

– Nada, in They Live (1988) by John Carpenter

– Rabindranath Tagore (from Gitanjali)

By all means marry; if you get a good wife, you’ll become happy; if you get a bad one, you’ll become a philosopher.

– Socrates

– Albert Einstein

I love you when you bow in your mosque, kneel in your temple, pray in your church. For you and I are sons of one religion, and it is the spirit.

– Kahlil Gibran

To find yourself, think for yourself.

– Socrates

The earth is but one country, and mankind its citizens.

– Baha’u’llah

There is only one good, knowledge, and one evil, ignorance.

– Socrates

For every complicated problem there is a solution that is simple, direct, understandable, and wrong.

– H. L. Mencken

If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.

– John Louis von Neumann

The only true wisdom is in knowing you know nothing.

– Socrates

– Kurt Vonnegut

All ads do the same: create an anxiety relievable by purchase.

– David Foster Wallace

– Rabbi M. M. Schneerson

I really think the mark of experience isn’t the ability to write a lot of good pages, it’s the ability to generate shitty pages faster without worrying so much about it.

– Justin Marks