<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Statistical Physics on Lê Nhựt Nam</title><link>https://blog.namln.org/vi-vn/tags/statistical-physics/</link><description>Recent content in Statistical Physics on Lê Nhựt Nam</description><generator>Hugo</generator><language>vi-VN</language><lastBuildDate>Wed, 15 Jan 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.namln.org/vi-vn/tags/statistical-physics/index.xml" rel="self" type="application/rss+xml"/><item><title>Mạng neural có khả năng suy rộng là nhờ vào một thủ thuật (trick) kỳ quặc!!!</title><link>https://blog.namln.org/vi-vn/posts/nn-generalization/</link><pubDate>Wed, 15 Jan 2025 00:00:00 +0000</pubDate><guid>https://blog.namln.org/vi-vn/posts/nn-generalization/</guid><description>&lt;p&gt;Lý thuyết Học thống kê đang lừa dối bạn rằng: Các mô hình tham số hóa quá mức (&amp;ldquo;Overparametrized&amp;rdquo; models) không thật sự quá mức, và khả năng suy rộng/ tổng quát hóa (generalization) không chỉ là một câu hỏi về &lt;a href="https://www.lesswrong.com/posts/QPqztHpToij2nx7ET/hessian-and-basin-volume"&gt;độ rộng của lòng chảo trong không gian độ lỗi&lt;/a&gt;.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 1. Giải thích chuẩn được nêu ra ở đây về lý do tại sao mạng neural có khả năng suy rộng tốt đó chính là gradient descent ổn định trong lưu vực phẳng của hàm mất mát. Ở trường hợp phía bên trái, với cực tiểu nằm trong lưu vực tương đối nhọn, các cập nhật khiến mô hình nhảy lung tung và khó tiếp cận với cực tiểu. Hiệu suất của mô hình thay đổi đáng kể với các mẫu mới. Còn đối với trường hợp phía bên phải, với cực tiểu nằm trong lưu vực tương đối phẳng, các cập nhật ổn định ở mức không. Hiệu suất lúc này ổn định hơn dưới tác động của nhiễu.&lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/1bdc963f00c459d453cdbf71755c884c5b890eb2911aaaa4.png/w_663" alt
 style="float:center;width:50%;height:50%;"&gt;
&lt;/div&gt;
&lt;br/&gt;
&lt;p&gt;Theo thứ tự đầu tiên, do các lưu vực mất mát (loss basins) không thực sự là lưu vực mà là các thung lũng (valleys) và tại ở đáy của các thung lũng này có những &amp;ldquo;dòng sông (rivers)&amp;rdquo; mà có độ mất mát tối tiểu, không đổi. Số chiều của những tập tối tiểu này càng cao, tác động của số chiều của mô hình của bạn càng thấp. &lt;span class="sidenote"&gt;&lt;small&gt;Số chiều của các tham số tối ưu cũng phụ thuộc vào phân phối đúng (phân phối gốc) mà sinh ra phân phối của bạn, nhưng thậm chí là nếu tập các tham số tối ưu là zero-dimensional đi chăng nữa thì sự hiện hữu của các tập mức (level sets) ở một số nơi nào đó vẫn có thể ảnh hướng đến quá trình học (learning process) và khả năng suy rộng/ tổng quát hóa (generalization).&lt;/small&gt;&lt;/span&gt;. Khả năng suy rộng/ tổng quát hóa là một sự cân bằng giữa khả năng biểu diễn (expressivity, nhiều tác động của tham số) và tính đơn giản (simplicity, ít tác động của tham số)&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 2. Tính đối xứng làm giảm tác động của số chiều lên mô hình của bạn. Trong ví dụ này, một đường các điểm suy biến thực sự hạn chế bền mặt hàm mất mát hai chiều thành một chiều.&lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/a4dc4e50e4b35308155f8bcfc4de3fbb38db0cb49b5fdb0f.png/w_663" alt
 style="float:center;width:50%;height:50%"&gt;
&lt;/div&gt;
&lt;br/&gt;
&lt;!-- In particular, it is the singularities of these minimum-loss sets — points at which the tangent is ill-defined — that determine generalization performance. The remarkable claim of singular learning theory (the subject of this post), is that "knowledge … to be discovered corresponds to singularities in general" [1]. Complex singularities make for simpler functions that generalize further. --&gt;
&lt;p&gt;Thực vậy, chính là &lt;strong&gt;các kỳ dị&lt;/strong&gt; của các &lt;strong&gt;tập mất mát tối tiểu&lt;/strong&gt; - tức là &lt;strong&gt;các điểm&lt;/strong&gt; tại đó mà &lt;strong&gt;đường tiếp tuyến&lt;/strong&gt; không được xác định rõ ràng/ không đặt chỉnh (&lt;strong&gt;ill-defined&lt;/strong&gt;) - &lt;em&gt;quyết định hiệu suất suy rộng của mô hình&lt;/em&gt;. Khẳng định đáng chú ý của &lt;strong&gt;Lý thuyết Học kỳ dị&lt;/strong&gt; (tức đối tượng trung tâm của nghiên cứu này) là rằng &amp;ldquo;&lt;em&gt;Nhìn chung, Tri thức (knowledge) $\dots$ cần được khai phá tương ứng với các kỳ dị&lt;/em&gt;&amp;rdquo; [1]. Các kỳ dị phức tạp giúp cho các hàm đơn giản hơn mà có khả năng suy rộng tốt hơn.&lt;/p&gt;
&lt;div style="float:right;text-align: center;"&gt;
 &lt;em&gt;Hình 3. Khẳng định trung tâm của Lý thuyết học kỳ dị là các kỳ dị của tập của tối tiểu của hàm mất mát quyết định hành vi học và khả năng suy rộng của mô hình. Các mô hình càng gần với những kỳ dị phức thì càng suy rộng tốt.&lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/b9b31a496c92e3a953fd8f5a7294650502df2aa32aa8f6e3.png/w_766" alt
 style="float:center;width:50%; height:60%"&gt;
&lt;/div&gt;
&lt;p&gt;Về mặt lý thuyết cơ học, kết quả của những tập mất mát tối tiểu (minimum-loss sets) này xuất phát từ tính đối xứng nội tại của mạng neural&lt;span class="sidenote"&gt;&lt;small&gt;Và từ phân phối gốc (true distribution).&lt;/small&gt;&lt;/span&gt;: các biến thể liên tục của trọng số của một mạng cho trước nhất định phải thực hiện cùng một phép tính. Nhiều tính đối xứng trong số chúng là &amp;ldquo;tổng quát (generic)&amp;rdquo; vì chúng được tiền xác định bởi kiến trúc và luôn luôn hiện hữu. Các tính chất đối xứng thú vị hơn là các tính đối xứng &amp;ldquo;không tổng quát (non-generic)&amp;rdquo; mà mô hình học có thể tạo ra hoặc phá vỡ trong quá trình huấn luyện.&lt;/p&gt;
&lt;p&gt;Về các tính đối xứng không tổng quát (non-generic symmetries) này, một phần sức mạnh của mạng neural là chúng có thể thay đổi hiệu quả số chiều của chúng. Tính suy rộng/ tổng quát đến từ một dạng lựa chọn mô hình nội tại, trong đó mô hình tìm ra các điểm kỳ dị phức tạp hơn nhưng sử dụng ít tham số hiệu quả hơn, từ đó ưu tiên chọn lọc được các hàm đơn giản hơn và có khả năng tổng quát hóa tốt hơn.&lt;/p&gt;
&lt;p&gt;$$
\text{Complex Singularities} \Leftrightarrow \text{Fewer Parameters} \Leftrightarrow \text{Simpler Functions} \Leftrightarrow \text{Better Generalization}
$$&lt;/p&gt;
&lt;p&gt;Với nhiều rủi ro chỉ trích bởi yêu cầu về tính tao nhã, SLT có vẻ là một con đường đầy hứa hẹn để phát triển một lý thuyết cho sự hiểu biết tốt hơn về tính tổng quát hóa/ suy rộng và những giới hạn trong động lực huấn luyện. Nếu ta may mắn, SLT thậm chí có thể giúp chúng ta &lt;a href="https://www.youtube.com/watch?v=7LzW8-wxdUE"&gt;xây dựng một lý thuyết thống nhất vĩ đại về quy mô mô hình (grand unified theory of scaling)&lt;/a&gt;&lt;/p&gt;
&lt;!-- A lot still needs to be done (in terms of actual calculations, the theorists are still chewing on one-layer tanh models), but, from an initial survey, singular learning theory feels meatier than other explanations of generalization. It's more than just meatiness; there's a sense in which singular learning theory is a non-negotiable prerequisite for any theory of deep learning. Let's dig in.
 --&gt;
&lt;p&gt;Vẫn còn rất nhiều việc phải làm (về mặt tính toán thực tế, các nhà lý thuyết vẫn đang mải mê với các mô hình một lớp sử dụng hàm tanh), nhưng từ một khảo sát ban đầu, Lý thuyết Học kỳ dị có vẻ sâu sắc hơn so với các cách giải thích khác về tính tổng quát hóa. Và điều này không chỉ nằm ở sự sâu sắc; có thể nói rằng Lý thuyết Học kỳ dị là &lt;em&gt;một điều kiện tiên quyết không thể thiếu (non-negotiable prerequisite)&lt;/em&gt; cho bất kỳ lý thuyết nào về học sâu. Hãy cùng tìm hiểu sâu hơn.&lt;/p&gt;
&lt;h2 class="heading" id="i-trở-lại-với-bayes-ics"&gt;
 I. Trở lại với Bayes-ics&lt;span class="heading__anchor"&gt; &lt;a href="#i-tr%e1%bb%9f-l%e1%ba%a1i-v%e1%bb%9bi-bayes-ics"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Lý thuyết học kỳ dị bắt đầu với bốn thành phần cơ bản:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;\(q(x)\) là một số phân phối nào đó mà phát sinh ra các mẫu của chúng ta;&lt;/li&gt;
&lt;li&gt;Một &lt;strong&gt;mô hình&lt;/strong&gt; \(p(x \mid w)\) mà được tham số hóa bởi trọng số \(w \in \mathcal{W} \subset \mathbb{R}^d\) trong đó \(\mathcal{W}\) là một tập compact;&lt;/li&gt;
&lt;li&gt;Một phân phối tiên nghiệm trên các trọng số \(\varphi(w)\);&lt;/li&gt;
&lt;li&gt;Và một tập dữ liệu gồm các mẫu \(D_n = {X_1, \dots, X_n}\) trong đó mỗi biến ngẫu nhiên \(X_i\) i.i.d tương ứng với \(q(x)\).&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Mục tiêu ở mức thấp (lower-level) của &amp;ldquo;&lt;em&gt;learning&lt;/em&gt;&amp;rdquo; là tìm kiếm những &lt;em&gt;trọng số tối ưu&lt;/em&gt; cho một tập dữ liệu sẵn có. Đối với lý thuyết Bayesian, điều này có ý nghĩa rất cụ thể và hạn chế:&lt;/p&gt;
&lt;p&gt;$$
p(w \mid D_n) = \frac{p(D_n \mid w) \varphi(w)}{p(D_n)}.
$$&lt;/p&gt;
&lt;p&gt;Còn mục tiêu cao hơn của &amp;ldquo;&lt;em&gt;learning&lt;/em&gt;&amp;rdquo; là tìm kiếm &lt;em&gt;lớp mô hình/ kiến trúc tối ưu&lt;/em&gt; \(p(x \mid w)\) cho một tập dữ liệu sẵn có. Thay vì cố gắng tìm những trọng số sao cho cực đại likelihood hay thậm chí là cực đại posterior, mục tiêu đúng đắn của Bayesian là tìm kiếm mô hình mà cực đại model evidence, tức là:&lt;/p&gt;
&lt;p&gt;$$
p(D_n) = \int_\mathcal{W} p(D_n \mid w)\varphi(w)dw.
$$&lt;/p&gt;
&lt;p&gt;Thật vậy, mô thức Bayesian có thể tích hợp trọng số của nó để đưa ra các nhận định về toàn bộ các lớp mô hình là một trong những điểm mạnh chính của nó. Và thật vậy, tích phân này &lt;del&gt;thường&lt;/del&gt; &lt;em&gt;hầu như luôn luôn&lt;/em&gt; khó để giải và đó cũng chính là điểm yếu chính của nó. Thế nên mà Bayesian lựa chọn một hướng giải quyết dựa trên phong cách tần suất với phép tính gần đúng Laplace dễ hiểu hơn nhiều: ta tìm kiếm một lựa chọn của các trọng số $w^{(0)}$ mà cực đại likelihood và sau đó xấp xỉ phân phối như Gaussian ở gần điểm đó.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 4. Xấp xỉ Laplace chỉ là phép thác triển Taylor (bậc hai) của một người làm lý thuyết xác suất mà thôi.&lt;/em&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/be441dc100b30c7d3500df4fa7275a7e3f5215f3e5052b48.png/w_2062" alt
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;p&gt;Điều này được chứng minh là hợp lý khi dữ liệu lớn dần $(n \rightarrow \infty)$, nhờ vào định lý giới hạn trung tâm (central limit theorem), phân phối trở nên &lt;em&gt;gần (tiệm cận với) phân phối chuẩn (asymptotically normal)&lt;/em&gt; (so sánh với lý thuyết Vật lý và thuật ngữ của họ &amp;ldquo;mọi thế năng là một hàm điều hòa (harmonic oscillator) nếu ta nhìn nó đủ gần/ tiếp tục hạ nhiệt độ&amp;rdquo;.)&lt;/p&gt;
&lt;p&gt;Từ xấp xỉ này, &lt;a href="https://en.wikipedia.org/wiki/Bayesian_information_criterion#Derivation"&gt;một ít biến đổi Toán học&lt;/a&gt; dẫn dắt chúng ta đến với dạng tiệm cận (asumptotic form) với negative log evidence (khi lấy giới hạn \(n \rightarrow \infty\)) như sau:&lt;/p&gt;
&lt;p&gt;$$
-\log p(D_n) \approx \underbrace{-\log p(D_n \mid w_0)} _{accuracy} \quad+\quad \underbrace{\frac{d}{2}\log{n}} _{simplicity},
$$
trong đó \(d\) là chiều của không gian tham số.&lt;/p&gt;
&lt;p&gt;Biểu thức này được biết với tên gọi &lt;a href="https://en.wikipedia.org/wiki/Bayesian_information_criterion"&gt;Bayesian Information Criterion (BIC)&lt;/a&gt; và nó (khá giống với &lt;a href="https://en.wikipedia.org/wiki/Akaike_information_criterion"&gt;Akaike information criterion&lt;/a&gt;) tạo nên &lt;a href="https://en.wikipedia.org/wiki/Occam%27s_razor"&gt;Dao cạo Ockham (Occam&amp;rsquo;s razor)&lt;/a&gt; trong ngôn ngữ của Thống kê Bayesian. Ta có thể chấp nhận dừng lại với các mô hình mà hoạt động kém miễn là chúng đơn giản. Trong ngôn ngữ của phân tích độ phức tạp thuật toán (algorithmic-complexity), BIC có một diễn giải thay thế như một công cụ cho việc tối tiểu độ dài mô tả trong một ngữ cảnh tối ưu mã hóa nào đó.&lt;/p&gt;
&lt;p&gt;Thật không may, BIC sai. Hoặc ít nhất là BIC không áp dụng cho bất kỳ mô hình nào mà chúng ta thực sự quan tâm nghiên cứu. Và may mắn thay, lý thuyết học kỳ dị có thể tính toán chính xác dạng tiệm cận và tiết lộ những hàm ý rộng hơn nhiều so với BIC.&lt;/p&gt;
&lt;h2 class="heading" id="ii-lý-thuyết-học-thống-kê-được-xây-dựng-nên-từ-một-trò-lừa-dối"&gt;
 II. Lý thuyết học thống kê được xây dựng nên từ một trò lừa dối!&lt;span class="heading__anchor"&gt; &lt;a href="#ii-l%c3%bd-thuy%e1%ba%bft-h%e1%bb%8dc-th%e1%bb%91ng-k%c3%aa-%c4%91%c6%b0%e1%bb%a3c-x%c3%a2y-d%e1%bb%b1ng-n%c3%aan-t%e1%bb%ab-m%e1%bb%99t-tr%c3%b2-l%e1%bb%aba-d%e1%bb%91i"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Thông tin trọng yếu trong nghiên cứu của Watanabe là khi mà ánh xạ hàm tham số hóa (parameter-function map)
$$
\mathcal{W} \ni w \rightarrow p(\cdot \mid w)
$$
không phải là ánh xạ một-đến-một (injective function, đơn ánh), mọi thứ bắt đầu &lt;em&gt;kỳ quặc&lt;/em&gt;. Đó là khi mà những lựa chọn khác nhau của các trọng số tạo nên cùng các hàm, các công cụ của lý thuyết học thống kê bị phá sản. Chúng ta gọi những mô hình này là &lt;em&gt;&amp;ldquo;không có tính xác định&amp;rdquo; (non-identifiable)&lt;/em&gt;.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 5. Khi mà parameter-function map không còn là đơn ánh (one-to-one), thì đối tượng bên phải của nghiên cứu này không phải là không gian tham số mà là không gian hàm/ không gian phân phối.&lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/2d9eb26f836e503976d12074288c45785bd5efe9f58e6bb2.png/w_584" alt
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;!-- Take the example of the Laplace approximation. If there's a local continuous symmetry in weight space, i.e., some direction you can walk that doesn't affect the probability density, then your density isn't locally Gaussian. --&gt;
&lt;p&gt;Lấy ví dụ về phép xấp xỉ Laplace. Nếu có một đối xứng liên tục địa phương trong không gian trọng số, tức là một số hướng bạn có thể đi mà không ảnh hưởng đến mật độ xác suất, thì mật độ của bạn không phải là Gaussian địa phương.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 6. Xấp xỉ Laplace bị phá vỡ khi có một hướng phẳng hoàn hảo.&lt;/em&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/d5c80893b9ed8cf65d9e6f1536d4e5d8cd91baae4c9e140d.png/w_1175" alt
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;!-- Even if the symmetries are non-continuous, the model will not in general be asymptotically normal. In other words, the standard central limit theorem does not hold. --&gt;
&lt;p&gt;Ngay cả khi các đối xứng không liên tục, nhìn chung, mô hình sẽ không tiệm cận chuẩn tắc (asymptotically normal). Nói cách khác, &lt;em&gt;định lý giới hạn trung tâm chuẩn (standard central limit theorem) không còn đúng&lt;/em&gt;!.&lt;/p&gt;
&lt;!-- The same problem arises if you're looking at loss landscapes in standard presentations of machine learning. Here, you'll find attempts to measure basin volume by fitting a paraboloid to the Hessian of the loss landscape at the final trained weights. It's the same trick, and it runs into the same problem. --&gt;
&lt;p&gt;Vấn đề tương tự phát sinh nếu bạn đang xem xét tới bề mặt mất mát (loss landscapes) trong một số trình bày quy chuẩn của học máy. Ở đây, bạn sẽ tìm thấy các nỗ lực để đo thể tích lưu vực &amp;ldquo;basin&amp;rdquo; bằng cách khớp một parabol với Hessian của loss landscape tại trọng số cuối cùng đã được huấn luyện xong. Đó là một &lt;em&gt;thủ thuật quen thuộc&lt;/em&gt; và nó vẫn tiếp tục gặp cùng vấn đề!.&lt;/p&gt;
&lt;!-- This isn't the kind of thing you can just solve by adding a small \\(\epsilon\\) to the Hessian and calling it a day. There are ways to recover "volumes", but they require care. So, as a practical takeaway, if you ever find yourself adding \\(\epsilon\\) to make your Hessians invertible, recognize that those zero directions are important to understanding what's really going on in the network. Offer those eigenvalues the respect they deserve. --&gt;
&lt;p&gt;Đây không phải là loại vấn đề mà bạn có thể giải quyết đơn giản bằng cách thêm một \(\epsilon\) nhỏ vào Hessian và coi như xong. Có các cách để khôi phục &amp;ldquo;thể tích&amp;rdquo;, nhưng chúng đòi hỏi sự cẩn trọng. Vì vậy, một bài học thực tế ở đây là: nếu bạn thấy mình thêm \(\epsilon\) để làm cho Hessian có thể nghịch đảo, hãy nhận ra rằng các hướng không (zero directions) đó &lt;strong&gt;thực sự rất quan trọng&lt;/strong&gt; để hiểu điều gì đang diễn ra trong mạng học. Hãy dành cho các giá trị riêng đó sự tôn trọng mà chúng xứng đáng nhận được.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 7. Thêm epsilon để tạo ra một "giả" parabol là trò tiểu xảo!!!&lt;/em&gt;
 &lt;/br&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/83a641ca3ad8a1688f95d606534573a447d47d537f6c7469.png/w_665" alt
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;!-- The consequence of these zeros (and, yes, they really exist in NNs) is that they reduce the effective dimensionality of your model. A step in these directions doesn't change the actual model being implemented, so you have fewer parameters available to "do things" with. --&gt;
&lt;p&gt;Hệ quả của các giá trị bằng 0 này (và tất nhiên, chúng thực sự tồn tại trong mạng neural) là chúng làm giảm chiều không gian hiệu quả của mô hình. Một bước di chuyển theo các hướng này không làm thay đổi mô hình thực sự đang được triển khai, do đó bạn có ít tham số hơn để &amp;ldquo;thực hiện các tác vụ&amp;rdquo;.&lt;/p&gt;
&lt;!-- So the basic problem is this: almost all of the models we actually care about (not just neural networks, but Bayesian networks, HMMs, mixture models, Boltzmann machines, etc.) are loaded with symmetries, and this means we can't apply the conventional tooling of statistical learning theory. --&gt;
&lt;p&gt;Vấn đề cơ bản ở đây là: &lt;strong&gt;hầu hết các mô hình mà chúng ta thực sự quan tâm (không chỉ mạng neural mà còn cả mạng Bayesian, mô hình Markov ẩn (HMMs), mô hình hỗn hợp/ mixture models, máy Boltzmann, v.v.) đều chứa đầy các đối xứng, và điều này có nghĩa là chúng ta không thể áp dụng công cụ thông thường của lý thuyết học thống kê được&lt;/strong&gt;.&lt;/p&gt;
&lt;h2 class="heading" id="iii-learning-học-là-vật-lý-kết-hợp-với-likelihoods"&gt;
 III. Learning (Học) là vật lý kết hợp với likelihoods&lt;span class="heading__anchor"&gt; &lt;a href="#iii-learning-h%e1%bb%8dc-l%c3%a0-v%e1%ba%adt-l%c3%bd-k%e1%ba%bft-h%e1%bb%a3p-v%e1%bb%9bi-likelihoods"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Bây giờ hãy viết lại biểu thức cập nhật Bayes thân yêu của chúng ta như sau:&lt;/p&gt;
&lt;p&gt;$$
p(w \mid D_n) = \frac{1}{Z_n}\varphi(w)e^{-n\beta L_n(w)},
$$
trong đó hàm \(L_n(w)\) là negative log likelihood được định nghĩa như sau:&lt;/p&gt;
&lt;p&gt;$$
L_n(w) := - \frac{1}{n}\log p(D_n \mid w) = -\frac{1}{n}\sum_{i=1}^{n}\log p(x_i \mid w),
$$
và \(Z_n\) là model evidence, được định nghĩa như sau:&lt;/p&gt;
&lt;p&gt;$$
Z_n := p(D_n) = \int_\mathcal{W}\varphi e^{-n\beta L_n(w)}dw.
$$&lt;/p&gt;
&lt;p&gt;Để ý rằng chúng ta &amp;ldquo;lé lút&amp;rdquo; thêm vào một nghịch đảo &amp;ldquo;nhiệt lượng&amp;rdquo; (inverse temperature) \(\beta &amp;gt; 0\) thế nên giờ đây chúng ta đang nằm trong &lt;em&gt;tempered Bayes paradigm&lt;/em&gt; [4].&lt;/p&gt;
&lt;p&gt;Mục tiêu hiện tại của thay đổi này là để nhấn mạnh mối liên hệ với Vật lý, trong đó \(Z_n\) là một ký hiệu quen thuộc (và &amp;ldquo;hàm phân hoạch/ partition function&amp;rdquo; là tên gọi của nó). Tương tự lý thuyết thông tin của hàm phân vùng là năng lượng tự do (free energy):
$$
F_n := -\log Z_n,
$$
mà sẽ là đối tượng nghiên cứu trung tâm của chúng ta.&lt;/p&gt;
&lt;p&gt;Dưới định nghĩa của Hamiltonian (hay &amp;ldquo;hàm năng lượng/ energy function&amp;rdquo;), ta có:
$$
H_n(w) := nL_n(w) - \frac{1}{\beta}\log \varphi(w),
$$&lt;/p&gt;
&lt;p&gt;Mối liên hệ giờ đây đã hoàn thiện: &lt;em&gt;Lý thuyết Học thống kê thực chất là Vật lý Toán, trong đó Hamiltonian là một quá trình ngẫu nhiên được xác định bởi xác suất likelihood và phân phối tiên nghiệm (prior distribution). Cũng giống như &lt;strong&gt;Hình học của bề mặt năng lượng&lt;/strong&gt; mà quyết định hành vi của các hệ thống Vật lý mà chúng ta nghiên cứu, &lt;strong&gt;Hình học của log-likelihood&lt;/strong&gt; sẽ quyết định hành vi của các hệ thống học mà chúng ta nghiên cứu.&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;Trong cách diễn giải Vật lý này, một phân phối hậu nghiệm (posteriori distribution) là trạng thái cân bằng (equilibrium state) gắn liền với Hamiltonian thực nghiệm (empirical Hamiltonian). Ý nghĩa của năng lượng tự do (free energy) nằm ở chỗ giá trị tối thiểu của năng lượng tự do — &lt;em&gt;chứ không phải Hamiltonian&lt;/em&gt; — mới quyết định trạng thái cân bằng.&lt;/p&gt;
&lt;p&gt;Bước tiếp theo là &lt;em&gt;chuẩn hóa&lt;/em&gt; các đại lượng quan tâm này để ta có thể dễ làm việc với chúng hơn. Đối với negative log likelihood, việc chuẩn hóa có nghĩa là trừ đi giá trị tối thiểu (minimum value) của nó. &lt;span class="sidenote"&gt;&lt;small&gt;Cần làm rõ rằng việc chuẩn hóa này dựa trên giả định về tính khả thi (assumption of realizability) — nghĩa là tồn tại một số trọng số \(w_0\) sao cho \(p(x \mid w_0)\) bằng với \(q(x)\) gần như ở mọi nơi. Với giả định này, giá trị tối thiểu của negative log likelihood tương ứng với entropy thực nghiệm của hệ thống.&lt;/small&gt;&lt;/span&gt;&lt;/p&gt;
&lt;!-- Our next step will be to normalize these quantities of interest to make them easier to work with. For the negative log likelihood, this means subtracting its minimum value. &lt;span class="sidenote"&gt;&lt;small&gt;To be precise, this rests on the assumption of realizability — that there is some weight \(w_0\) for which \(p(x \mid w_0)\) equals \(q(x)\) almost everywhere. In this case, the minimum value of the negative log likelihood is the empirical entropy.&lt;/small&gt;&lt;/span&gt; --&gt;
&lt;p&gt;Nhưng điều đó chỉ cho ta KL divergence (phân kỳ KL):
$$
K_n(w) = L^0_n(w) := L_n(w) - S_n = \frac{1}{n}\sum_{i = 1}^n\log \frac{q(X_i)}{p(X_i \mid w)},
$$
trong đó \(S_n\) là entropy thực nghiệm được định nghĩa như sau:
$$
S_n := -\frac{1}{n}\sum_{i = 1}^n\log q(X_i),
$$
Dễ thấy, entropy thực nghiệm là một thành phần độc lập với \(w\).&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 8. Thực chất phân kỳ Kullback-Leibler thực nghiệm chỉ là một phiên bản được thay đổi tỷ lệ và được tịnh tiến của negative log likelihood. Việc ước lượng triển vọng cực đại (Maximum Likelihood Estimation) tương đương với việc tối thiểu hóa độ phân kỳ KL thực nghiệm.&lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/0bcaa1d9e7342422e63401bd4de108ddceb3d7f62c2250d4.png/w_695" alt
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;p&gt;Tương tự, ta chuẩn hóa hàm phân hoạch để có được:
$$
Z^0_n = \frac{Z_n}{\prod_{i=1}^n q(X_i)^\beta}.
$$
và chuẩn hóa năng lượng tự do để có được:
$$
F^0_n = -\log Z^0_n.
$$&lt;/p&gt;
&lt;p&gt;Điều này cho phép viết lại phân phối hậu nghiệm như sau:
$$
p(w \mid D_n) = \frac{1}{Z^0_n}\varphi(w)e^{-n\beta K_n(w)}.
$$&lt;/p&gt;
&lt;!-- The more important aim of this conversion is that now the minima of the term in the exponent, \\(K(w)\\) , are equal to 0. If we manage to find a way to express \\(K(w)\\) as a polynomial, this lets us to pull in the powerful machinery of algebraic geometry, which studies the zeros of polynomials. We've turned our problem of probability theory and statistics into a problem of algebra and geometry. --&gt;
&lt;p&gt;Mục tiêu quan trọng của quá trình biến đổi này là làm cho các điểm cực tiểu của biểu thức trong số mũ, \(K(w)\), bằng 0. Nếu chúng ta tìm được cách biểu diễn \(K(w)\) dưới dạng một đa thức, điều này cho phép chúng ta tận dụng công cụ mạnh mẽ của Hình học Đại số (Algebraic Geometry) - một lĩnh vực nghiên cứu các nghiệm của đa thức. Nhờ vậy, chúng ta đã chuyển vấn đề từ trong Lý thuyết Xác suất và Thống kê thành một vấn đề của Đại số và Hình học.&lt;/p&gt;
&lt;h2 class="heading" id="iv-tại-sao-lại-singular-kỳ-dị"&gt;
 IV. Tại sao lại &amp;ldquo;singular&amp;rdquo; (kỳ dị)?&lt;span class="heading__anchor"&gt; &lt;a href="#iv-t%e1%ba%a1i-sao-l%e1%ba%a1i-singular-k%e1%bb%b3-d%e1%bb%8b"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- Singular learning theory is "singular" because the "singularities" (where the tangent is ill-defined) of the set of your loss function's minima, --&gt;
&lt;p&gt;Lý thuyết học &amp;ldquo;kỳ dị&amp;rdquo; được gọi là &amp;ldquo;kỳ dị&amp;rdquo; vì các &amp;ldquo;điểm kỳ dị&amp;rdquo; (nơi tiếp tuyến không được xác định rõ/ không đặt chỉnh - ill-defined) của tập hợp các cực tiểu của hàm mất mát của chúng ta,
$$
\mathcal{W}_0 := { w_0 \in \mathcal{W} \mid K(w_0) = 0},
$$
quyết định dạng tiệm cận (asymptotic form) của năng lượng tự do. Về mặt Toán học, \(\mathcal{W}_0\) là một &lt;a href="https://en.wikipedia.org/wiki/Algebraic_variety"&gt;algebraic variety/ đối tượng đại số&lt;/a&gt; mà thực chất là một đa tạp (manifold) có thể bao gồm các điểm kỳ dị, nơi nó không cần phải có cấu trúc Euclid địa phương (locally Euclidean).&lt;/p&gt;
&lt;!-- determine the asymptotic form of the free energy. Mathematically, \\(\mathcal{W}_0\\) is an [algebraic variety](https://en.wikipedia.org/wiki/Algebraic_variety), which is just a manifold with optional singularities where it does not have to be locally Euclidean. --&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 9. Ví dụ về đường cong \( y^2 = x^2 + x^3 \) (tương đương với đối tượng đại số của đa thức \( f(x, y) = x^2 + x^3 - y^2 \)). 
 &lt;a href="https://en.wikipedia.org/wiki/Crunode"&gt;[Nguồn]&lt;/a&gt;
 &lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/a6/Cubic_with_double_point.svg/450px-Cubic_with_double_point.svg.png" 
 alt="Curve example" 
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;!-- By default, it's difficult to study these varieties close to their singularities. In order to do so anyway, we need to "resolve the singularities." We construct another well-behaved geometric object whose "shadow" is the original object in a way that this new system keeps all the essential features of the original. --&gt;
&lt;p&gt;Hiển nhiên, thật rất khó khăn để nghiên cứu các đối tượng đại số này khi gần các điểm kỳ dị của chúng. Để làm được điều đó, chúng ta cần &amp;ldquo;giải quyết các điểm kỳ dị&amp;rdquo; (resolve the singularities). Điều này được thực hiện bằng cách xây dựng một đối tượng hình học mới, có cấu trúc tốt hơn, mà &amp;ldquo;bóng&amp;rdquo; của nó chính là đối tượng ban đầu, sao cho hệ thống mới này giữ được tất cả các đặc điểm quan trọng của hệ thống ban đầu.&lt;/p&gt;
&lt;!-- It'll help to take a look at the following figure. The main idea behind resolution of singularities is to create a new manifold \\(\mathcal{U}\\) and a map \\(g: \mathcal{U} \rightarrow \mathcal{W}\\), such that \\(K(g(u))\\) is a polynomial in the local coordinates of \\(\mathcal{U}\\). We "disentangle" the singularities so that in our new coordinates they cross "normally". --&gt;
&lt;p&gt;Hãy xem hình minh họa sau đây để hiểu rõ hơn. Ý tưởng chính đằng sau việc giải quyết điểm kỳ dị là tạo ra một đa tạp mới \(\mathcal{U}\) và một ánh xạ \(g: \mathcal{U} \rightarrow \mathcal{W}\), sao cho \(K(g(u))\) là một đa thức trong các tọa độ địa phương của \(\mathcal{U}\). Chúng ta &amp;ldquo;gỡ rối&amp;rdquo; các điểm kỳ dị để trong hệ tọa độ mới để mà chúng giao nhau theo cách &amp;ldquo;bình thường&amp;rdquo;.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 10. Dựa trên Hình 2.5 của [1]. Các đường biểu diễn những điểm nằm trong \\(\mathcal{W}_0\\). Và các màu sắc ở đây chỉ mang vai trò giữ sự chú ý của ta vào những điểm này.
 &lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/cc462b4308f4f6b63a71a0df0347e82f1f7916a4021113c4.png/w_1212" 
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;!-- Because this "blow up" creates a new object, we have to be careful that the quantities we end up measuring don't change with the mapping — we want to find the birational invariants. --&gt;
&lt;p&gt;Do việc &amp;ldquo;thổi phồng&amp;rdquo; (blow up) tạo ra một đối tượng mới, chúng ta cần cẩn thận để đảm bảo rằng các đại lượng đo lường cuối cùng không thay đổi theo phép ánh xạ—chúng ta cần tìm các &lt;strong&gt;bất biến song tỉ (birational invariants)&lt;/strong&gt;.&lt;/p&gt;
&lt;!-- We are interested in one birational invariant in particular: the real log canonical threshold (RLCT). Roughly, this measures how "bad" a singularity is. More precisely, it measures the "effective dimensionality" near the singularity. --&gt;
&lt;p&gt;Một bất biến song tỉ mà chúng ta đặc biệt quan tâm là &lt;strong&gt;ngưỡng chuẩn tắc log thực (RLCT - Real Log Canonical Threshold)&lt;/strong&gt;. Nói một cách đơn giản, RLCT đo lường mức độ &amp;ldquo;tồi tệ&amp;rdquo; của một điểm kỳ dị. Chính xác hơn, nó đo lường &amp;ldquo;chiều không gian hiệu quả&amp;rdquo; gần điểm kỳ dị đó.&lt;/p&gt;
&lt;!-- After fixing the central limit theorem to work in singular models, Watanabe goes on to derive the asymptotic form of the free energy as \\(n \rightarrow \infty\\), --&gt;
&lt;p&gt;Sau khi điều chỉnh định lý giới hạn trung tâm để áp dụng được cho các mô hình kỳ dị, Watanabe đã dẫn xuất dạng tiệm cận của năng lượng tự do khi \(n \rightarrow \infty\):
$$
F_n = n\beta S_n + \lambda\log n - (m -1)\log\log n + F^R(\xi) + o_p(1),
$$
trong đó \(\lambda\) là RLCT, \(m\) là &amp;ldquo;multiplicity&amp;rdquo; gắn với RLCT, \(F^R(\xi)\) là một (well-behaved) biến ngẫu nhiên, and \(o_p(1)\) là một biến ngẫu nhiên mà hội tụ (theo nghĩa Xác suất) về không.&lt;/p&gt;
&lt;!-- The important observation here is that the global behavior of your model is dominated by the local behavior of its "worst" singularities. --&gt;
&lt;p&gt;Quan sát quan trọng ở đây là hành vi toàn cục của mô hình bị chi phối bởi hành vi địa phương tại các điểm kỳ dị &amp;ldquo;tồi tệ nhất&amp;rdquo; của nó.&lt;/p&gt;
&lt;!-- For regular (=non-singular) models, the RLCT is \\(d/ 2\\), and with the right choice of inverse temperature, the formula above simplifies to --&gt;
&lt;p&gt;Đối với các mô hình thông thường (= không kỳ dị), RLCT là \(d/2\), và với lựa chọn nhiệt nghịch đảo phù hợp, công thức trên trở nên đơn giản:
$$
F_n \approx nS_n + \frac{d}{2}\log n \quad\text{(for regular models)},
$$&lt;/p&gt;
&lt;!-- which is just the BIC, as expected. --&gt; Như kỳ vọng, đây chính là BIC (Bayesian Information Criterion)!.
&lt;!-- The free energy formula generalizes the BIC from classical learning theory to singular learning theory, which strictly includes regular learning theory as a special case. We see that singularities act as a kind of implicit regularization that penalizes models with higher effective dimensionality. --&gt;
&lt;p&gt;Công thức năng lượng tự do này khái quát hóa BIC từ Lý thuyết Học cổ điển sang Lý thuyết Học kỳ dị, trong đó lý thuyết học thông thường là một trường hợp đặc biệt. Chúng ta thấy rằng các điểm kỳ dị hoạt động như một dạng &lt;strong&gt;điều chuẩn ngầm (implicit regularization)&lt;/strong&gt;, phạt các mô hình có chiều không gian hiệu quả cao hơn.&lt;/p&gt;
&lt;h2 class="heading" id="v-sự-chuyển-pha-là-các-thao-tác-kỳ-dị"&gt;
 V. Sự chuyển pha là các thao tác kỳ dị!&lt;span class="heading__anchor"&gt; &lt;a href="#v-s%e1%bb%b1-chuy%e1%bb%83n-pha-l%c3%a0-c%c3%a1c-thao-t%c3%a1c-k%e1%bb%b3-d%e1%bb%8b"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- Minimizing the free energy is maximizing the model evidence, which, as we saw, is the preferred Bayesian way of doing model selection. Other paradigms may disagree&lt;span class="sidenote"&gt;&lt;small&gt;They are, of course, wrong.&lt;/small&gt;&lt;/span&gt;, but at least among us this makes minimizing the free energy the central aim of statistical learning. --&gt;
&lt;p&gt;Cực tiểu hóa năng lượng tự do đồng nghĩa với việc cực đại hóa bằng chứng mô hình (model evidence) - mà như chúng ta đã biết thì đó chính là cách tiếp cận được ưa chuộng trong Bayesian để lựa chọn mô hình. Các phong cách (paradigms) khác có thể không đồng tình với điều này&lt;span class="sidenote"&gt;&lt;small&gt;Tất nhiên, họ sai.&lt;/small&gt;&lt;/span&gt;, nhưng ít nhất đối với chúng ta, điều này khiến việc cực tiểu năng lượng tự do trở thành mục tiêu trung tâm của Học thống kê.&lt;/p&gt;
&lt;p&gt;Giống như trong Học thống kê, trong Vật lý cũng vậy.&lt;/p&gt;
&lt;p&gt;Trong các hệ vật lý, chúng ta phân biệt giữa &lt;strong&gt;trạng thái vi mô (microstates)&lt;/strong&gt; như vị trí và vận tốc cụ thể của từng hạt trong một chất khí, với &lt;strong&gt;trạng thái vĩ mô (macrostates)&lt;/strong&gt; như giá trị của thể tích và áp suất. Việc ánh xạ từ trạng thái vi mô sang trạng thái vĩ mô không phải là một đơn ánh chính là điểm khởi đầu của Vật lý Thống kê: &lt;em&gt;các phân phối đồng nhất (uniform distributions) trên trạng thái vi mô dẫn đến các phân phối thú vị hơn trên trạng thái vi mô&lt;/em&gt;.&lt;/p&gt;
&lt;!-- Often, we're interested in how continuously varying our levers (like temperature or the positions of the walls containing our gas) leads to discontinuous changes in the macroscopic parameters. We call these changes phase transitions. --&gt;
&lt;p&gt;Thường thì, chúng ta quan tâm đến các thay đổi liên tục của các yếu tố điều khiển (như nhiệt độ hoặc vị trí của các bức tường chứa chất khí) dẫn đến những thay đổi rời rạc trong các tham số vĩ mô. Những thay đổi này được gọi là &lt;strong&gt;chuyển pha (phase transitions)&lt;/strong&gt;.&lt;/p&gt;
&lt;!-- The free energy is the central object of study because its derivatives generate the quantities we care about (like entropy, heat capacity, and pressure). So a phase transition means a discontinuity in one of the free energy's derivatives. --&gt;
&lt;p&gt;Năng lượng tự do là đối tượng trung tâm của nghiên cứu vì các đạo hàm của nó sinh ra những đại lượng mà chúng ta quan tâm (như entropy, nhiệt dung - heat capacity, và áp suất - pressure). Do đó, một &lt;em&gt;chuyển pha&lt;/em&gt; tương ứng với &lt;em&gt;một gián đoạn&lt;/em&gt; trong một trong các &lt;em&gt;đạo hàm của năng lượng tự do&lt;/em&gt;.&lt;/p&gt;
&lt;!-- So too, in the setting of Bayesian inference, the free energy generates the quantities we care about, which are now quantities like the expected generalization loss, --&gt;
&lt;p&gt;Tương tự, trong thiết lập của suy luận Bayesian, năng lượng tự do cũng sinh ra các đại lượng mà chúng ta quan tâm, chẳng hạn như &lt;em&gt;kỳ vọng mất mát suy rộng (expected generalization loss)&lt;/em&gt;:
$$
G_n = \mathbb{E} _{X _{n+1}}[F _{n+1}] - F_n.
$$&lt;/p&gt;
&lt;!-- Except for the fact that the number of samples, \\(n\\), is discrete, this is just a derivative.&lt;span class="sidenote"&gt;&lt;small&gt;So \(n\) is really a kind of inverse temperature, like \(\beta\). Increasing the number of samples decreases the effective temperature, which brings us closer to the (degenerate) ground state.&lt;/small&gt;&lt;/span&gt; --&gt;
&lt;p&gt;Ngoại trừ rằng số mẫu \(n\) là rời rạc, thì đây thực chất chỉ là một đạo hàm (derivative). &lt;span class="sidenote"&gt;&lt;small&gt;Do đó, thực chất \(n\) là một dạng &amp;ldquo;nghịch đảo nhiệt độ&amp;rdquo; (inverse temperature), giống như \(\beta\). Việc tăng số lượng mẫu làm giảm nhiệt độ hiệu quả và đưa chúng ta tiến gần hơn đến &lt;em&gt;trạng thái cơ bản (degenerate ground state)&lt;/em&gt;.&lt;/small&gt;&lt;/span&gt;&lt;/p&gt;
&lt;!-- So too, in learning, we're interested in how continuously changing either the model or the truth leads to discrete changes in the functions we implement and, thereby, to discontinuities in the free energy and its derivatives. --&gt;
&lt;p&gt;Tương tự như trong học máy, chúng ta quan tâm đến việc làm thế nào các thay đổi liên tục trong mô hình hoặc trong phân phối đúng để dẫn đến các thay đổi rời rạc trong các hàm mà chúng ta triển khai và do đó gây ra sự gián đoạn trong năng lượng tự do và các đạo hàm của nó.&lt;/p&gt;
&lt;!-- One way to subject this question to investigation is to study how our models change when we restrict our models to some subset of parameter space, \\(\mathcal{W}^{(i)} \subset \mathcal{W}\\). What happens when as vary this subset? --&gt;
&lt;p&gt;Một cách để kiểm tra câu hỏi này là nghiên cứu cách các mô hình thay đổi khi chúng ta giới hạn chúng trong một tập con của không gian tham số, \(\mathcal{W}^{(i)} \subset \mathcal{W}\). &lt;strong&gt;Điều gì xảy ra khi chúng ta thay đổi tập con này?&lt;/strong&gt;&lt;/p&gt;
&lt;!-- Recall that the free energy is defined as the negative log of the partition function. When we restrict ourselves to \\(\mathcal{W}^{(i)}\\), we derive a restricted free energy, --&gt;
&lt;p&gt;Nhắc lại rằng năng lượng tự do được định nghĩa như negative log của hàm phân hoạch. Khi ta giới hạn về \(\mathcal{W}^{(i)}\), ta thu được một năng lượng tự bị giới hạn (restricted free energy),
$$
F_n(\mathcal{W}^{(i)})
:= -\log Z_n(\mathcal{W}^{(i)})
= -\log \int_{\mathcal{W}^{(i)} \subset \mathcal{W}} \varphi(w)e^{-n\beta L_n(w)}dw
= n\beta S_n(\mathcal{W}^{(i)}) + \lambda^{(i)}\log n - (m^{(i)} - 1)\log\log n + F^R(\xi) + o_p(1),
$$&lt;/p&gt;
&lt;!-- which has a completely analogous asymptotic form (after swapping out the integrals over all of weight space with integrals over just this subset). The important difference is that the RLCT in this equation is the RLCT associated to the largest singularity in \\(\mathcal{W}^{(i)}\\) rather than the largest singularity in \\(\mathcal{W}\\). --&gt;
&lt;p&gt;có dạng tiệm cận hoàn toàn tương tự (sau khi hoán đổi các tích phân trên toàn bộ không gian trọng số chỉ với các tích phân trên tập hợp con này). Sự khác biệt quan trọng là RLCT trong phương trình này là RLCT liên quan đến điểm kỳ dị lớn nhất trong \(\mathcal{W}^{(i)}\) chứ không phải điểm kỳ dị lớn nhất trong \(\mathcal{W}\).&lt;/p&gt;
&lt;!-- What we see, then, is that phase transitions during learning correspond to discrete changes in the geometry of the "local" (=restricted) loss landscape. The expected behavior for models in these sets is determined by the largest nearby singularities. --&gt;
&lt;p&gt;Những gì chúng ta thấy là các chuyển pha trong quá trình học tương ứng với những thay đổi rời rạc trong hình học của cảnh quan mất mát &amp;ldquo;địa phương (local)&amp;rdquo; (tức là bị giới hạn, restricted). Hành vi kỳ vọng (expected behavior) của các mô hình trong những tập hợp này được quyết định bởi các điểm kỳ dị lớn nhất gần đó.&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 11. Trong quá trình học Bayesian, điểm kỳ dị liên quan trở nên đơn giản hơn dần khi có nhiều dữ liệu hơn. Nói chung, các quá trình học liên quan đến việc cân bằng giữa việc khớp chính xác hơn và các điểm kỳ dị "điều chuẩn hóa". Dựa trên Hình 7.6 trong [1].
 &lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://39669.cdn.cke-cs.com/rQvD3VnunXZu34m86e5f/images/b2cf2acfc72dad486bc33bf8ffc5c9df105b679111d1747e.png/w_1200" 
 style="float:center;width:50%; height:50%"&gt;
&lt;/div&gt;
&lt;!-- In this light, the link with physics is not just the typical arrogance of physicists asserting themselves on other people's disciplines. The link goes much deeper. --&gt;
&lt;p&gt;Nhìn từ góc độ này, mối liên hệ với Vật lý không chỉ là sự tự tin quá mức của các nhà vật lý khi áp đặt quan điểm của họ lên các lĩnh vực khác. Mối liên hệ này sâu sắc hơn nhiều.&lt;/p&gt;
&lt;!-- Physicists have known for decades that the macroscopic behavior of the systems we care about is the consequence of critical points in the energy landscape: global behavior is dominated by the local behavior of a small set of singularities. This is true everywhere from [statistical physics](https://www.cambridge.org/core/journals/ergodic-theory-and-dynamical-systems/article/abs/feigenbaum-julia-sets-of-singularities-of-free-energy/D354EEE41F4090211E371860924DAAFA) and [condensed matter theory](https://www.nature.com/articles/nphys1463) to [string theory](https://www.sciencedirect.com/science/article/abs/pii/S0550321308005841). Singular learning theory tells us that learning machines are no different: the geometry of singularities is fundamental to the dynamics of learning and generalization. --&gt;
&lt;p&gt;Các nhà vật lý đã biết trong nhiều thập kỷ rằng hành vi vĩ mô của các hệ mà chúng ta quan tâm là hệ quả của các điểm tới hạn trong cảnh quan năng lượng: hành vi toàn cục bị chi phối bởi hành vi cục bộ của một tập hợp nhỏ các điểm kỳ dị. Điều này đúng ở khắp nơi, từ &lt;a href="https://www.cambridge.org/core/journals/ergodic-theory-and-dynamical-systems/article/abs/feigenbaum-julia-sets-of-singularities-of-free-energy/D354EEE41F4090211E371860924DAAFA"&gt;statistical physics&lt;/a&gt;, &lt;a href="https://www.nature.com/articles/nphys1463"&gt;condensed matter theory&lt;/a&gt;, cho đến &lt;a href="https://www.sciencedirect.com/science/article/abs/pii/S0550321308005841"&gt;string theory&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Lý thuyết Học kỳ dị&lt;/strong&gt; cho chúng ta thấy rằng các máy học không khác gì: hình học của các điểm kỳ dị là yếu tố cơ bản trong động lực học của việc học và khái quát hóa.&lt;/p&gt;
&lt;h2 class="heading" id="vi-mạng-neural-là-sự-kỳ-dị-của-tính-đối-xứng"&gt;
 VI. Mạng neural là sự kỳ dị của tính đối xứng&lt;span class="heading__anchor"&gt; &lt;a href="#vi-m%e1%ba%a1ng-neural-l%c3%a0-s%e1%bb%b1-k%e1%bb%b3-d%e1%bb%8b-c%e1%bb%a7a-t%c3%adnh-%c4%91%e1%bb%91i-x%e1%bb%a9ng"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- The trick behind why neural networks generalize so well is something like their ability to exploit symmetry. Many models take advantage of the parameter-function map not being one-to-one. Neural networks take this to the next level. --&gt;
&lt;p&gt;Thủ thuật đẳng sau lý do mà mạng neural suy rộng tốt như thế là một số thứ giống như khả năng năng của chúng để khai phá tính đối xứng. Nhiều mô hình sử dụng ưu thế của parameter-function map không phải là một đơn ánh. Và với các mạng neural thì điều này được đưa lên một tầm cao mới.&lt;/p&gt;
&lt;!-- There are discrete permutation symmetries, where you can flip two columns in one layer as long as you flip the two corresponding rows in the next layer, e.g., --&gt;
&lt;p&gt;Có các đối xứng hoán vị rời rạc, trong đó ta có thể lật hai cột trong một lớp miễn là ta lật hai hàng tương ứng trong lớp tiếp theo, ví dụ:
$$
\begin{pmatrix}
\textcolor{red}{a} &amp;amp; \textcolor{blue}{b} &amp;amp; c \\
\textcolor{red}{d} &amp;amp; \textcolor{blue}{e} &amp;amp; f \\
\textcolor{red}{g} &amp;amp; \textcolor{blue}{h} &amp;amp; i
\end{pmatrix} \cdot
\begin{pmatrix}
\textcolor{red}{j} &amp;amp; \textcolor{red}{k} &amp;amp; \textcolor{red}{l} \\
\textcolor{blue}{m} &amp;amp; \textcolor{blue}{n} &amp;amp; \textcolor{blue}{o} \\
p &amp;amp; q &amp;amp; r
\end{pmatrix}
= \begin{pmatrix}
\textcolor{blue}{b} &amp;amp; \textcolor{red}{a} &amp;amp; c \\
\textcolor{blue}{e} &amp;amp; \textcolor{red}{d} &amp;amp; f \\
\textcolor{blue}{h} &amp;amp; \textcolor{red}{g} &amp;amp; i
\end{pmatrix} \cdot
\begin{pmatrix}
\textcolor{blue}{m} &amp;amp; \textcolor{blue}{n} &amp;amp; \textcolor{blue}{o} \\
\textcolor{red}{j} &amp;amp; \textcolor{red}{k} &amp;amp; \textcolor{red}{l} \\
p &amp;amp; q &amp;amp; r
\end{pmatrix}
$$&lt;/p&gt;
&lt;!-- There are scaling symmetries associated to ReLU activations, --&gt;
&lt;p&gt;Có những đối xứng tỷ lệ liên quan đến hàm kích hoạt ReLU,
$$
\text{ReLU}(x) = \frac{1}{\alpha}(\alpha x), \quad \alpha &amp;gt; 0,
$$
và liên hệ với layer norm,
$$
\text{LayerNorm}(\alpha x) = \text{LayerNorm}(x), \quad \alpha &amp;gt; 0,
$$&lt;/p&gt;
&lt;!-- (Note: these are often broken by the presence of regularization.) --&gt;
&lt;p&gt;(Lưu ý: Những điều này thường bị phá vỡ bởi sự hiện diện của regularization.)&lt;/p&gt;
&lt;!-- And there's a \\(GL_n\\) symmetry associated to the residual stream (you can multiply the embedding matrix by any invertible matrix as long as you apply the inverse of that matrix before the attention blocks, the MLP layers, and the unembedding layer, and if you apply the matrix after each attention block and MLP layer). --&gt;
&lt;p&gt;Và có một đối xứng \(GL_n\) liên quan đến dòng dư thừa (ta có thể nhân ma trận embedding với bất kỳ ma trận khả nghịch nào miễn là ta áp dụng nghịch đảo của ma trận đó trước các khối attention, các lớp MLP, và lớp unembedding, và nếu ta áp dụng ma trận sau mỗi khối attention và lớp MLP).&lt;/p&gt;
&lt;!-- But these symmetries aren't actually all that interesting. That's because they're generic. They're always present for any choice of \\(w\\). The more interesting symmetries are non-generic symmetries that depend on \\(w\\). --&gt;
&lt;p&gt;Nhưng những đối xứng này thực ra không quá thú vị. Đó là vì chúng mang tính chất chung (generic). Chúng luôn tồn tại với bất kỳ lựa chọn \(w\) nào. Những đối xứng thú vị hơn là những đối xứng không tổng quát (non-generic symmetries) phụ thuộc vào \(w\).&lt;/p&gt;
&lt;!-- It's the changes in these symmetries that correspond to phase transitions in the posterior; this is the mechanism by which neural networks are able to change their effective dimensionality. --&gt;
&lt;p&gt;Sự thay đổi trong các đối xứng không tổng quát này tương ứng với các chuyển pha trong xác suất hậu nghiệm; đây là cơ chế giúp các mạng neural thay đổi chiều hiệu dụng của chúng.&lt;/p&gt;
&lt;!-- These non-generic symmetries include things like a degenerate node symmetry, which is the well-known case in which a weight is equal to zero and performs no work, and a weight annihilation symmetry in which multiple weights are non-zero but combine to have an effective weight of zero. --&gt;
&lt;p&gt;Các đối xứng không tổng quát này bao gồm những thứ như đối xứng nút suy biến (degenerate node symmetry) - là một trường hợp phổ biến khi một trọng số bằng không và không thực hiện được bất cứ công việc nào, và đối xứng tiêu diệt trọng số (weight annihilation symmetry) khi nhiều trọng số không bằng không nhưng kết hợp lại có hiệu quả trọng số bằng không.&lt;/p&gt;
&lt;!-- The consequence is that even if our optimizers are not performing explicit Bayesian inference, these non-generic symmetries allow the optimizers to perform a kind of internal model selection. There's a trade-off between lower effective dimensionality and higher accuracy that is subject to the same kinds of phase transitions as discussed in the previous section. --&gt;
&lt;p&gt;Hệ quả là, ngay cả khi các bộ tối ưu hóa của chúng ta không thực hiện suy luận Bayesian một cách rõ ràng, những đối xứng không tổng quát này cho phép các bộ tối ưu hóa thực hiện một dạng lựa chọn mô hình nội tại. Có một sự đánh đổi giữa chiều hiệu dụng (effective dimensionality) thấp hơn và độ chính xác cao hơn, chịu ảnh hưởng bởi các loại chuyển pha giống như đã được thảo luận trong phần trước.&lt;/p&gt;
&lt;!-- The dynamics may not be exactly the same, but it is still the singularities and geometric invariants of the loss landscape that determine the dynamics. --&gt;
&lt;p&gt;Động lực học có thể không hoàn toàn giống nhau, nhưng chính các điểm kỳ dị và các bất biến hình học của bề mặt mất mát (loss landscape) quyết định động lực học này.&lt;/p&gt;
&lt;h2 class="heading" id="vii-thảo-luận-và-các-giới-hạn-hiện-nay-ý-kiến-về-các-phản-bác-của-tác-giả"&gt;
 VII. Thảo luận và các giới hạn hiện nay (Ý kiến về các phản bác của tác giả)&lt;span class="heading__anchor"&gt; &lt;a href="#vii-th%e1%ba%a3o-lu%e1%ba%adn-v%c3%a0-c%c3%a1c-gi%e1%bb%9bi-h%e1%ba%a1n-hi%e1%bb%87n-nay-%c3%bd-ki%e1%ba%bfn-v%e1%bb%81-c%c3%a1c-ph%e1%ba%a3n-b%c3%a1c-c%e1%bb%a7a-t%c3%a1c-gi%e1%ba%a3"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- All of the preceding discussion holds in general for any model where the parameter-function mapping is not one-to-one. When this is the case, singular learning theory is less a series of interesting and debate-worthy conjectures than a necessary frame. --&gt;
&lt;p&gt;Tất cả các thảo luận trước đó đều áp dụng chung cho bất kỳ mô hình nào mà parameter-function mapping không phải là đơn ánh. Khi điều này xảy ra, Lý thuyết Học kỳ dị (SLT) không chỉ là một loạt giả thuyết thú vị và đáng tranh luận mà còn là một khung lý thuyết cần thiết.&lt;/p&gt;
&lt;!-- The more important question is whether this theory actually tells us anything useful in practice. Quantities like the RLCT are exceedingly difficult to calculate for realistic systems, so can we actually put this theory to use? --&gt;
&lt;p&gt;Câu hỏi quan trọng hơn là liệu lý thuyết này có thực sự mang lại điều gì hữu ích trong thực tế hay không. Các đại lượng như RLCT cực kỳ khó tính toán cho các hệ thống thực tế, vậy chúng ta có thể thực sự áp dụng lý thuyết này không?&lt;/p&gt;
&lt;!-- I'd say the answer is a tentative yes. Results so far suggest that the predictions of SLT hold up to experimental scrutiny — the predicted phase transitions are actually [observable](http://therisingsea.org/notes/MSc-Carroll.pdf) for small toy models. --&gt;
&lt;p&gt;Tôi cho rằng câu trả lời là có, dù còn dè dặt. Các kết quả hiện tại cho thấy các dự đoán của SLT phù hợp với các thí nghiệm thực tế — các chuyển pha được dự đoán thực sự &lt;a href="http://therisingsea.org/notes/MSc-Carroll.pdf"&gt;có thể quan sát được/ observable&lt;/a&gt; trong các toy models.&lt;/p&gt;
&lt;!-- That's not to say there aren't limitations. I'll list a few from [here](http://www.therisingsea.org/notes/metauni/slt6.pdf)[3] and a few of my own. --&gt;
&lt;p&gt;Điều đó không có nghĩa là không có những hạn chế. Tôi sẽ liệt kê một số từ &lt;a href="http://www.therisingsea.org/notes/metauni/slt6.pdf"&gt;nguồn này&lt;/a&gt; [3] và một số ý kiến riêng của tôi.&lt;/p&gt;
&lt;!-- Before we get to my real objections, here are a few objections I think aren't actually good objections: --&gt;
&lt;p&gt;Trước khi đi sâu vào những phản biện thực sự của tôi, sau đây là một số phản biện mà tôi cho là không thực sự tốt:&lt;/p&gt;
&lt;!-- - **But we care about function-approximation**. This whole discussion is couched in a very probabilistic context. In practice, we're working with loss functions and are approximating functions, not densities. I don't think this is much of a problem as it's usually possible to recover your Bayesian footing in deterministic function approximation. Even when this isn't the case, the general claim — that the geometry of singularities determine dynamics — seems pretty robust. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng chúng ta quan tâm đến việc xấp xỉ hàm!&amp;rdquo;&lt;/strong&gt;: Thảo luận này diễn ra trong một bối cảnh rất xác suất. Trong thực tế, chúng ta đang làm việc với các hàm mất mát và xấp xỉ hàm, không phải mật độ. Tôi không nghĩ đây là vấn đề lớn vì thông thường có thể khôi phục cơ sở Bayesian của bạn ngay cả trong việc xấp xỉ hàm xác định. Ngay cả khi không làm được điều đó, tuyên bố chung — rằng hình học của các điểm kỳ dị quyết định động lực học — dường như vẫn khá vững chắc.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But we don't even train to completion!** (/We're not actually reaching the minimum loss solutions). I expect most of the results to hold for any level set of the loss landscape — we'll just be interested in the dominant singularities of the level sets we end up in (even if they don't perfectly minimize the loss). --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng chúng ta không huấn luyện đến hoàn chỉnh!&amp;rdquo;&lt;/strong&gt;: Tôi mong đợi hầu hết các kết quả sẽ đúng với bất kỳ tập mức mất mát nào — chúng ta chỉ quan tâm đến các điểm kỳ dị nổi trội trong các tập mức mà chúng ta đạt được (ngay cả khi chúng không tối thiểu hóa mất mát hoàn hảo).&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But calculating (and even approximating) the RLCT is pretty much intractable**. In any case, knowing of something's theoretical existence can often help us out on what may initially seem like unrelated turf. A more optimistic counter would be something like "maybe we can compute this for simple one-layer neural networks, and then find a straightforward iterative scheme to extend it to deeper layers." And that really doesn't seem all too unreasonable — when I see all the stuff physicists can squeeze out of nature, I'm optimistic about what learning theorists can squeeze out of neural networks. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng việc tính toán (và thậm chí xấp xỉ) RLCT là không khả thi.&amp;rdquo;&lt;/strong&gt;: Việc biết sự tồn tại lý thuyết của một thứ có thể giúp ích trong những trường hợp ban đầu tưởng chừng không liên quan. Một phản biện lạc quan hơn là: &amp;ldquo;&lt;em&gt;Có thể chúng ta tính được điều này cho các mạng neural đơn lớp đơn giản, rồi tìm cách mở rộng lặp đến các lớp sâu hơn.&lt;/em&gt;&amp;rdquo; Điều này thực sự không quá vô lý.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But how do you adapt the results from \\(\tanh\\) to realistic activations like swishes?** In the same way that many of the universal approximation theorems don't depend on the particulars of your activation function, I don't expect this to be a major objection to the theory. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng làm sao chuyển đổi kết quả từ \(\tanh\) sang các hàm kích hoạt thực tế như swish?&amp;rdquo;&lt;/strong&gt;: Giống như nhiều định lý xấp xỉ phổ quát (universal approximation theorems) không phụ thuộc vào chi tiết của hàm kích hoạt, tôi không nghĩ đây là một phản biện lớn đối với lý thuyết.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But ReLU networks are not analytic**. Idk man, seems unimportant. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng mạng ReLU không phải có tính giải tích.&amp;rdquo;&lt;/strong&gt;: Tôi không rõ, nhưng dường như điều này không quan trọng.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But what do asymptotic limits in \\(n\\) actually tell us about the finite case?** I guess it's my background in statistical physics, but I'd say that a few trillion tokens is a heck of a lot closer to infinity than it is to zero. In all seriousness, physics has a long history of success with finite-size scaling and perturbative expansions around well-behaved limits, and I expect these to transfer. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng các giới hạn tiệm cận ở \(n\) thực sự nói gì về trường hợp hữu hạn?&amp;rdquo;&lt;/strong&gt;: Theo quan điểm của tôi trong vật lý thống kê, vài nghìn tỷ mẫu dữ liệu gần với vô hạn hơn là về không.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But isn't this all just a fancy way of saying it was broad basins this entire time?** Yeah, so I owe you an apology for all the Hessian-shaming and introduction-clickbaiting. In practice, I do expect small eigenvalues to be a useful proxy to how well specific models can generalize — less than zeros, but not nothing. **Overall, the question that SLT answers seems to be a different question: it's about why we should expect models on average (and up to higher order moments) to generalize.** --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng tất cả điều này chỉ là cách diễn đạt phức tạp của ý tưởng rằng các bể rộng chi phối toàn bộ?&amp;rdquo;&lt;/strong&gt;: Thực tế, câu hỏi mà SLT trả lời dường như là một câu hỏi khác: nó nói về lý do tại sao chúng ta kỳ vọng các mô hình nói chung (và dựa trên các khoảnh khắc bậc cao hơn) có thể khái quát hóa.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Những phản biện thực sự của tôi như sau:&lt;/p&gt;
&lt;!-- - **But these predictions of "generalization error" are actually a contrived kind of theoretical device that isn't what we mean by "generalization error" in the typical ML setting**. Pretty valid, but I'm optimistic that [we can find the quantities we actually care about from the ones we can calculate right now](http://www.therisingsea.org/notes/metauni/slt6.pdf). --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng các dự đoán về &amp;rsquo;lỗi khái quát hóa&amp;rsquo; thực chất là một thiết bị lý thuyết không liên quan đến &amp;rsquo;lỗi khái quát hóa&amp;rsquo; mà chúng ta hiểu trong ML.&amp;rdquo;&lt;/strong&gt;: Đây là một ý kiến hợp lý, nhưng tôi lạc quan rằng &lt;a href="http://www.therisingsea.org/notes/metauni/slt6.pdf"&gt;chúng ta có thể tìm ra các đại lượng mà chúng ta thực sự quan tâm từ những gì hiện tại chúng ta tính được&lt;/a&gt;.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But what does Bayesian inference actually have to do with SGD and its variants?** This complaint seems rather important especially since I'm not sold on the whole [NNs-are-doing-Bayesian-inference](https://towardsdatascience.com/neural-networks-are-fundamentally-bayesian-bee9a172fad8) thing. I think it's conceivable that we can find a way to relate any process that decreases free energy to the predictions here, but this does remain my overall biggest source of doubt. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng suy luận Bayesian liên quan gì đến SGD và các biến thể của nó?&amp;rdquo;&lt;/strong&gt;: Điều này quan trọng, đặc biệt khi tôi không hoàn toàn tin vào quan điểm rằng &lt;a href="https://towardsdatascience.com/neural-networks-are-fundamentally-bayesian-bee9a172fad8"&gt;các mạng neural đang thực hiện suy luận Bayesian&lt;/a&gt;. Đây vẫn là nguồn nghi ngờ lớn nhất của tôi.&lt;/li&gt;
&lt;/ul&gt;
&lt;!-- - **But the true distribution is not realizable**. For the above presentation, we assumed there is some choice of parameters \\(w_0\\) such that \\(p(x \mid w_0)\\) is equal to \\(q(x)\\) almost everywhere (this is "realizability" or "grain of truth"). In real-world systems, this is never the case. For renormalizable &lt;span class="sidenote"&gt;&lt;small&gt;A word with a specific technical sense but that is related to renormalization in statistical physics.&lt;/small&gt;&lt;/span&gt;models, extending the results to the non-realizable case turns out to be not too difficult. For non-renormalizable theories, we're in novel territory. --&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;Nhưng phân phối thực sự không khả kiến.&amp;rdquo;&lt;/strong&gt;: Trong phần trình bày này, chúng ta giả định rằng có một lựa chọn tham số \(w_0\) sao cho \(p(x \mid w_0)\) bằng \(q(x)\) gần như ở khắp mọi nơi (đây là tính &amp;ldquo;khả kiến&amp;rdquo; hay &amp;ldquo;hạt nhân sự thật&amp;rdquo;). Ở các hệ thống thực tế, điều này không bao giờ đúng. Đối với các lý thuyết có thể chuẩn hóa (renormalizable)&lt;span class="sidenote"&gt;&lt;small&gt;Renormalizable: Một từ có ý nghĩa kỹ thuật cụ thể nhưng liên quan đến chuẩn hóa trong vật lý thống kê.&lt;/small&gt;&lt;/span&gt;, việc mở rộng kết quả sang trường hợp không thể thực hiện được hóa ra không quá khó. Đối với các lý thuyết không thể chuẩn hóa (non-renormalizable), chúng ta đang ở trong một miền đất mới lạ.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 class="heading" id="viii-chúng-ta-sẽ-đi-đến-đâu-ý-kiến-định-hướng-tương-lai-của-tác-giả"&gt;
 VIII. Chúng ta sẽ đi đến đâu? (Ý kiến định hướng tương lai của tác giả)&lt;span class="heading__anchor"&gt; &lt;a href="#viii-ch%c3%bang-ta-s%e1%ba%bd-%c4%91i-%c4%91%e1%ba%bfn-%c4%91%c3%a2u-%c3%bd-ki%e1%ba%bfn-%c4%91%e1%bb%8bnh-h%c6%b0%e1%bb%9bng-t%c6%b0%c6%a1ng-lai-c%e1%bb%a7a-t%c3%a1c-gi%e1%ba%a3"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- I hope you've enjoyed this taster of singular learning theory and its insights: the sense of learning theory as physics with likelihoods, of learning as the thermodynamics of loss, of generalization as the presence of singularity, and of the deep, universal relation between global behavior and the local geometry of singularities. --&gt;
&lt;p&gt;Hy vọng rằng bạn đã cảm nhận được những điểm đặc sắc từ Lý thuyết Học kỳ dị (Singular Learning Theory) và những góc nhìn mà nó mang lại: cảm giác rằng Lý thuyết Học giống như Vật lý kết hợp với xác suất triển vọng, rằng Học là nhiệt động lực học của mất mát (thermodynamics of loss), rằng khái quát hóa/ tổng quát hóa/ khả năng suy rộng là sự hiện diện của kỳ dị và mối quan hệ sâu sắc mang tính phổ quát giữa hành vi toàn cục và hình học địa phương của các điểm kỳ dị.&lt;/p&gt;
&lt;!-- The work is far from done, but the possible impact for our understanding of intelligence is profound. --&gt;
&lt;p&gt;Công việc này còn rất xa mới hoàn thành, nhưng tác động tiềm năng của nó đến sự hiểu biết của chúng ta về trí tuệ là sâu sắc.&lt;/p&gt;
&lt;!-- To close, let me share one of directions I find most exciting — that of singular learning theory as a path towards predicting the scaling laws we see in deep learning models [5]. --&gt;
&lt;p&gt;Để kết thúc, hãy cùng khám phá một hướng đi mà tôi thấy đặc biệt thú vị — lý thuyết học kỳ dị như một con đường để dự đoán các quy luật mở rộng (scaling laws) mà chúng ta quan sát được trong các mô hình học sâu [5].&lt;/p&gt;
&lt;!-- There's [speculation](http://www.therisingsea.org/notes/metauni/dlt3.pdf) that we might be able to transfer the machinery of the renormalization group, a set of techniques and ideas developed in physics to deal with critical phenomena and scaling, to understand phase transitions in learning machines, and ultimately to compute the scaling coefficients from first principles. --&gt;
&lt;p&gt;Có &lt;a href="http://www.therisingsea.org/notes/metauni/dlt3.pdf"&gt;sự suy đoán&lt;/a&gt; rằng chúng ta có thể chuyển giao các công cụ và ý tưởng của nhóm tái chuẩn hóa (renormalization group), một tập hợp kỹ thuật được phát triển trong vật lý để xử lý các hiện tượng tới hạn và quy mô, nhằm hiểu các chuyển pha (phase transitions)trong các máy học, và cuối cùng là tính toán các hệ số mở rộng từ các nguyên lý đầu tiên.&lt;/p&gt;
&lt;!-- To borrow Dan Murfet's [call to arms](http://www.therisingsea.org/notes/metauni/dlt3.pdf) [3]: --&gt;
&lt;p&gt;Mượn lời kêu gọi hành động của &lt;a href="http://www.therisingsea.org/notes/metauni/dlt3.pdf"&gt;Dan Murfet (call to arms)&lt;/a&gt; [3]:&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;It is truly remarkable that resolution of singularities, one of the deepest results in algebraic geometry, together with the theory of critical phenomena and the renormalisation group, some of the deepest ideas in physics, are both implicated in the emerging mathematical theory of deep learning. This is perhaps a hint of the fundamental structure of intelligence, both artificial and natural. There is much to be done!&lt;/p&gt;
&lt;/blockquote&gt;
&lt;blockquote&gt;
&lt;p&gt;Thật đáng kinh ngạc khi việc giải quyết các điểm kỳ dị, một trong những kết quả sâu sắc nhất của hình học đại số, cùng với lý thuyết về hiện tượng tới hạn và nhóm tái chuẩn hóa, một số ý tưởng sâu sắc nhất trong vật lý, đều có liên quan đến lý thuyết toán học đang nổi lên của học sâu. Đây có lẽ là một gợi ý về cấu trúc cơ bản của trí tuệ, cả nhân tạo lẫn tự nhiên. Còn rất nhiều việc phải làm!&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 class="heading" id="ix-tài-liệu-tham-khảo"&gt;
 IX. Tài liệu tham khảo&lt;span class="heading__anchor"&gt; &lt;a href="#ix-t%c3%a0i-li%e1%bb%87u-tham-kh%e1%ba%a3o"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;[1]: &lt;a href="http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/ag-slt.html"&gt;Watanabe 2009&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;[2]: &lt;a href="http://therisingsea.org/notes/MSc-Carroll.pdf"&gt;Carroll 2021&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;[3]: &lt;a href="https://metauni.org/slt/"&gt;Metauni 2021-2023&lt;/a&gt; (Super awesome online lecture series hosted in Roblox that you should all check out.)&lt;/p&gt;
&lt;p&gt;[4]: &lt;a href="http://arxiv.org/abs/1901.05353"&gt;Guedj 2019&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;[5]: &lt;a href="https://arxiv.org/pdf/2001.08361.pdf"&gt;Kaplan 2020&lt;/a&gt;&lt;/p&gt;</description></item><item><title>Thể tích Hessian và Basin</title><link>https://blog.namln.org/vi-vn/posts/hessian-and-basin-volume/</link><pubDate>Sat, 11 Jan 2025 00:00:00 +0000</pubDate><guid>https://blog.namln.org/vi-vn/posts/hessian-and-basin-volume/</guid><description>&lt;p&gt;Khi thảo luận về &amp;ldquo;các lưu vực rộng (broad basins)&amp;rdquo; trong miền mất mát của một mạng DNN, Hessian của hàm mất mát thường được đề cập. Bài viết này sẽ tập trung giải thích một xấp xỉ lý thuyết đơn giản của thể tích lưu vực (basin volume) mà sử dụng Hessian của hàm mất mát. &lt;span class="sidenote"&gt;&lt;small&gt;Lưu ý rằng mô hình này không hề &lt;em&gt;hoàn hảo&lt;/em&gt; và cũng không thể tính toán được đối với các mạng học lớn nếu không có thêm các thủ thuật/phép tính gần đúng!.&lt;/small&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Giả sử rằng cực tiểu của chúng ta có giá trị mất mát $loss = 0$. Định nghĩa lưu vực (basin) như một vùng của không gian tham số mà rút về vị trí cực tiểu của ta trong đó $loss &amp;lt; \text{threshold } T$. &lt;span class="sidenote"&gt;&lt;small&gt;Việc đặt ra một ngưỡng không nhất thiết là một kỳ vọng hay một tiêu chuẩn, nhưng nó giúp việc thiết lập mô hình dễ dàng hơn.&lt;/small&gt;&lt;/span&gt;&lt;/p&gt;
&lt;h2 class="heading" id="mô-hình-đơn-giản-nhất"&gt;
 Mô hình đơn giản nhất&lt;span class="heading__anchor"&gt; &lt;a href="#m%c3%b4-h%c3%acnh-%c4%91%c6%a1n-gi%e1%ba%a3n-nh%e1%ba%a5t"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Nếu tất cả các trị riêng của ma trận Hessian đều dương (positive) và không tầm thường (non-trivial) &lt;span class="sidenote"&gt;&lt;small&gt;Điều kiện này cơ bản là không bao giờ xảy ra với các mạng học DNN; chúng ta sẽ xử lý một xíu để điều chỉnh vấn đề này trong phần kế tiếp.&lt;/small&gt;&lt;/span&gt;, ta có thể xấp xỉ giá trị hàm mất mát như một parabol được căn giữa dựa trên cực tiểu của ta như sau:&lt;/p&gt;
&lt;div style="float:right;text-align:center;"&gt;
 &lt;em&gt;Hình 1. Phần parabol mà chúng ta thấy trên đồ thị chính xác là lưu vực của chúng ta, vì trục thẳng đứng bị cắt ở ngưỡng mất mát.&lt;/em&gt;
 &lt;br/&gt;
 &lt;img src="https://upload.wikimedia.org/wikipedia/commons/thumb/0/02/Paraboloid_Quadric.Png/640px-Paraboloid_Quadric.Png" alt
 style="float:center;width:50%;height:50%;"&gt;
&lt;/div&gt;
&lt;br/&gt;
&lt;!-- The vertical axis is loss, and the horizontal plane is parameter space. The shape of the basin in parameter space is the shadow of this paraboloid, which is an ellipsoid. --&gt;
&lt;p&gt;Trục dọc là mất mát, và mặt phẳng ngang là không gian tham số. Hình dạng của lưu vực trong không gian tham số là bóng của parabol này, là một hình elip.&lt;/p&gt;
&lt;!-- The principal directions of curvature of the paraboloid are given by the eigenvectors of the Hessian. The curvatures (second derivative) in each of those directions is given by the corresponding eigenvalue. --&gt;
&lt;p&gt;Các hướng chính của độ cong của parabol được đưa ra bởi các vectơ riêng của Hessian. Độ cong (đạo hàm bậc hai) theo mỗi hướng đó được đưa ra bởi giá trị riêng tương ứng.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Bán kính (Radii) của hình elip&lt;/strong&gt;: Nếu chúng ta bắt đầu ở cực tiểu và đi theo một hướng chính, mất mát lúc này như một hàm khoảng cách đã di chuyển được tính toán như sau:
$$
L(x) = \frac{1}{2}\lambda_i x^2
$$
trong đó $\lambda_i$ là trị riêng Hessian theo hướng đó.&lt;/p&gt;
&lt;p&gt;Thế nên với ngưỡng mất mát cho trước của ta $T$, ta sẽ chạm đến ngưỡng đó ở khoảng cách
$$
x = \sqrt{\frac{2T}{\lambda_i}}
$$
Đây là bán kính của hình elip lưu vực mất mát theo hướng đó.&lt;/p&gt;
&lt;p&gt;Thể tích của hình elip được tính như sau:
$$
V_{\text{basin}} = V_i\prod_i\sqrt{\frac{2T}{\lambda_i}}
$$
trong đó hằng số $V_n$ là &lt;a href="https://en.wikipedia.org/wiki/Volume_of_an_n-ball"&gt;thể tích của quả cầu đơn vị trong không gian $n$ chiều&lt;/a&gt;. Bởi vì tích của các trị riêng là định thức của ma trận Hessian, nên ta có thể viết lại như sau:
$$
V_{\text{basin}} = \frac{V_n(2T)^{n/2}}{\sqrt{\det[Hessian]}}
$$&lt;/p&gt;
&lt;p&gt;Vì vậy, thể tích lưu vực tỷ lệ nghịch với căn bậc hai của định thức của Hessian. Mọi thứ trong tử số đều là hằng số, vì vậy chỉ có định thức của Hessian là quan trọng trong mô hình này.&lt;/p&gt;
&lt;p&gt;Và vấn đề ở đây là với mô hình này là &lt;strong&gt;định thức của Hessian thường bằng không&lt;/strong&gt;, do các &lt;strong&gt;trị riêng bằng không&lt;/strong&gt;.&lt;/p&gt;
&lt;h2 class="heading" id="sửa-lỗi-mô-hình"&gt;
 Sửa lỗi mô hình&lt;span class="heading__anchor"&gt; &lt;a href="#s%e1%bb%ada-l%e1%bb%97i-m%c3%b4-h%c3%acnh"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- If we don't include a regularization term in the loss, the basin as we defined it earlier can actually be infinitely big (it's not just a problem with the paraboloid model). However, we don't really care about volume that is so far from the origin that it is never reached. --&gt;
&lt;p&gt;Nếu ta không thêm vào một thành phần chính quy hóa trong hàm mất mát, thì lưu vực như ta đã định nghĩa trước đó thực sự có thể vô cùng lớn (đây không chỉ là vấn đề với mô hình parabol mà còn là đối với nhiều mô hình khác nữa). Tuy nhiên, chúng ta không thực sự quan tâm đến thể tích quá xa gốc tọa độ mà nó không bao giờ đạt tới được.&lt;/p&gt;
&lt;!-- A somewhat principled way to fix the model is to look at volume weighted by the initialization distribution. This is easiest to work with if the initialization is Gaussian. To make the math tractable, we can replace our ellipsoid with a "fuzzy ellipsoid" -- i.e. a multivariate Gaussian. Now we just have to integrate the product of two Gaussians, which should be easy. There are also somewhat principled reasons for using a "fuzzy ellipsoid", which I won't explain here. --&gt;
&lt;p&gt;Một cách có cơ sở để sửa mô hình là xem xét khối lượng được cân nhắc theo phân phối khởi tạo. Cách này dễ làm việc nhất nếu khởi tạo là Gaussian. Để làm cho phép tính dễ hiểu hơn, chúng ta có thể thay thế ellipsoid của mình bằng một &amp;ldquo;ellipsoid mờ&amp;rdquo; &amp;ndash; tức là một &lt;strong&gt;hàm Gaussian đa biến (multivariate Gaussian)&lt;/strong&gt;. Bây giờ chúng ta chỉ cần lấy tích phân của tích của hai hàm Gaussian, điều này hẳn là dễ dàng. Và cũng có một số lý do có cơ sở để sử dụng một &amp;ldquo;ellipsoid mờ&amp;rdquo;, mà chúng ta sẽ không giải thích ở đây mà chúng ta sẽ thảo luận trong một bài viết khác (maybe).&lt;/p&gt;
&lt;!-- However, this is only somewhat principled; if you think about it further, it starts to become unclear: Should we use the initialization Gaussian, or one based on the expected final L2 norm? What about cases where the norm peaks in the middle of training, and is smaller at the start and finish? --&gt;
&lt;p&gt;Tuy nhiên, điều này chỉ có cơ sở và hợp lý một phần nào đấy. Nếu bạn suy nghĩ kỹ hơn về nó, nó bắt đầu trở nên không rõ ràng: Liệu rằng chúng ta nên sử dụng khởi tạo Gaussian hay ta nên dựa trên chuẩn L2? Còn những trường hợp chuẩn đạt đỉnh trong quá trình huấn luyện và nhỏ ở đầu và cuối quá trình thì sao?&lt;/p&gt;
&lt;!-- If we have an L2 regularization term in the loss, then the infinite volume problem usually goes away; the L2 term makes all the eigenvalues positive, so the formula is fine. If we have weight decay, we can interpret this as L2 regularization and add it to the loss. --&gt;
&lt;p&gt;Nếu ta có một chính quy hoá L2 trong hàm mất mát, thì vấn đề khối vô hạn thường biến mất. Thành phần chính quy L2 giúp các trị riêng luôn dương, dẫn đến biểu thức ổn định. Nếu ta dùng weight decay thì ta có diễn giải nó như thành phần chính quy L2 và thêm nó vào hàm mất mát!.&lt;/p&gt;
&lt;!-- For a relatively simple approximation, I recommend the formula: --&gt;
&lt;p&gt;Để có một phép xấp xỉ tương đối đương giản, chúng tôi đề xuất biểu thức như sau:
$$
V_{\text{basin}} = \frac{V_n(2T)^{n/2}}{\sqrt{\det[Hessian(Loss) + (\lambda +c)I_n]}}
$$
trong đó:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;$Loss$ là hàm mất mát mà chưa có thành phần chính quy.&lt;/li&gt;
&lt;li&gt;$\lambda$ là lượng trọng số suy giảm (weight decay) (hoặc chính quy hóa L2 $\frac{1}{2}\lambda|\theta|^2$)&lt;/li&gt;
&lt;li&gt;$c = k / \sigma^2$, trong đó $\sigma$ là độ lệch chuẩn của Gaussian khởi tạo và $k$ là hằng số theo thứ tự đơn vị. Chúng tôi chưa tính toán chính xác được giá trị $k$ phù hợp nhất về mặt lý thuyết. Nhưng đối với một mô hình thô,
$ k = 1$ có lẽ là đủ tốt rồi.&lt;/li&gt;
&lt;li&gt;$T$ là ngưỡng mất mát. Nếu bạn thực sự quan tâm đến thể tích tuyệt đối, bạn có thể thử đặt $T$ theo kinh nghiệm bằng cách xem xét nơi xấp xỉ parabol bị phá vỡ. Nếu bạn chỉ quan tâm đến thể tích so với các lưu vực khác, bạn có thể bỏ qua $T$ vì nó là hằng số.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 class="heading" id="ước-lượng-trong-thực-hành"&gt;
 Ước lượng trong thực hành&lt;span class="heading__anchor"&gt; &lt;a href="#%c6%b0%e1%bb%9bc-l%c6%b0%e1%bb%a3ng-trong-th%e1%bb%b1c-h%c3%a0nh"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- If the DNN of interest is large (&gt;10k params for instance), the Hessian becomes very unwieldy.&lt;span class="sidenote"&gt;&lt;small&gt;I think explicitly calculating the eigenvalues and eigenvectors is $O(n^3)$&lt;/small&gt;&lt;/span&gt; Luckily, it is possible to efficiently estimate the quantity $\det[Hessian(Loss) + (\lambda +c)I_n]$ without ever computing the Hessian. --&gt;
&lt;p&gt;Nếu mạng nơ-ron sâu (DNN) mà ta quan tâm có kích thước lớn (ví dụ, &amp;gt;10k tham số), ma trận Hessian trở nên rất phức tạp.&lt;span class="sidenote"&gt;&lt;small&gt;Tôi nghĩ việc tính toán trực tiếp các giá trị riêng và vector riêng có độ phức tạp là $O(n^3)$&lt;/small&gt;&lt;/span&gt;. May mắn thay, có thể ước tính hiệu quả lượng $\det[Hessian(Loss) + (\lambda + c)I_n]$ mà không cần phải tính trực tiếp ma trận Hessian.&lt;/p&gt;
&lt;!-- **One correct&lt;span class="sidenote"&gt;&lt;small&gt;This only works well if $(\lambda + c)$ is significantly larger than the resolution of the stochastic Lanczos quadrature.&lt;/small&gt;&lt;/span&gt; method of doing this is to get the eigenvalue spectrum of the Hessian using .** Then shift the spectrum up by 
$λ + c$ and estimate the product. --&gt;
&lt;p&gt;Một phương pháp đúng&lt;span class="sidenote"&gt;&lt;small&gt;Phương pháp này chỉ hoạt động tốt nếu $(\lambda + c)$ lớn hơn đáng kể so với độ phân giải của phương pháp cầu phương Lanczos ngẫu nhiên.&lt;/small&gt;&lt;/span&gt; để thực hiện điều này là lấy phổ giá trị riêng của ma trận Hessian bằng cách sử dụng &lt;a href="https://arxiv.org/abs/1901.10159"&gt;phương pháp cầu phương Lanczos ngẫu nhiên (stochastic Lanczos quadrature)&lt;/a&gt;. Sau đó, dịch phổ trị riêng lên bởi lượng $λ + c$ và ước tính tích.&lt;/p&gt;
&lt;h3 class="heading" id="một-chút-về-các-công-trình-gần-đây"&gt;
 Một chút về các công trình gần đây&lt;span class="heading__anchor"&gt; &lt;a href="#m%e1%bb%99t-ch%c3%bat-v%e1%bb%81-c%c3%a1c-c%c3%b4ng-tr%c3%acnh-g%e1%ba%a7n-%c4%91%c3%a2y"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h3&gt;&lt;!-- The "easy way out" is to use the trace of the Hessian instead of the determinant. This is extremely easy to estimate: Just sample the second derivative in random directions, and the average value is proportional to the trace. The problem is that the trace is simply the wrong measure, and is probably a somewhat poor proxy for the determinant. --&gt;
&lt;p&gt;Cách &amp;ldquo;đơn giản&amp;rdquo; là sử dụng dấu vết (trace) của ma trận Hessian thay vì định thức (determinant). Đây là một cách cực kỳ dễ ước tính: chỉ cần lấy mẫu đạo hàm bậc hai theo các hướng ngẫu nhiên, và giá trị trung bình sẽ tỷ lệ với dấu vết. Vấn đề là dấu vết không phải là thước đo phù hợp và có lẽ là một đại diện kém chính xác cho định thức.&lt;/p&gt;
&lt;!-- Most (all?) of the flatness and volume measures I have seen in the literature are actually tracking the trace. There is one ([Keskar et. al.](https://arxiv.org/pdf/1609.04836.pdf))&lt;span class="sidenote"&gt;&lt;small&gt;This paper is widely cited and generally very good.&lt;/small&gt;&lt;/span&gt; which seems to be correcting in the wrong direction (increasing the influence of large eigenvalues relative to the trace, when it should be doing the opposite).&lt;span class="sidenote"&gt;&lt;small&gt;The determinant is a product, so it is more sensitive to small eigenvalues than the trace.&lt;/small&gt;&lt;/span&gt; There is another which samples ellipsoid radius in random directions and calculates the volume of an ellipsoid slice in that direction (which is proportional to $r^n$). While this is technically an unbiased estimator for finite ellipsoids, it has two problems in practice:&lt;span class="sidenote"&gt;&lt;small&gt;I have confirmed with simulations that it is flawed for very large $n$. Doing the equivalent of our $(\lambda+c)I_n$ correction fixes the first issue but not the second.&lt;/small&gt;&lt;/span&gt; --&gt;
&lt;!-- 1. The ellipsoid is usually actually infinite, which means the method is sampling to estimate an infinite quantity. (Predictably, the median estimate goes up without bound as we increase the number of samples.) --&gt;
&lt;!-- 2. There are far too few samples to get a good estimate of the determinant, and the thing which is tracked in practice is quite trace-like. --&gt;
&lt;p&gt;Hầu hết (hoặc tất cả?) các thước đo độ phẳng và thể tích mà tôi thấy trong tài liệu thực chất đều theo dõi dấu vết. Có một nghiên cứu (&lt;a href="https://arxiv.org/pdf/1609.04836.pdf"&gt;Keskar et. al.&lt;/a&gt;)&lt;span class="sidenote"&gt;&lt;small&gt;Bài báo này được trích dẫn rộng rãi và nhìn chung rất chất lượng.&lt;/small&gt;&lt;/span&gt; dường như điều chỉnh theo hướng không đúng (tăng ảnh hưởng của các giá trị riêng lớn so với dấu vết, trong khi đáng lẽ phải làm ngược lại).&lt;span class="sidenote"&gt;&lt;small&gt;Định thức là một tích, vì vậy nó nhạy cảm hơn với các giá trị riêng nhỏ so với dấu vết.&lt;/small&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Có một nghiên cứu khác lấy mẫu bán kính elip trong các hướng ngẫu nhiên và tính thể tích của lát cắt elip theo hướng đó (tỷ lệ với $r^n$). Mặc dù về mặt kỹ thuật đây là một ước tính không chệch cho các elip hữu hạn, nhưng phương pháp này gặp hai vấn đề trong thực tế:&lt;span class="sidenote"&gt;&lt;small&gt;Tôi đã xác nhận qua mô phỏng rằng phương pháp này có sai sót với $n$ rất lớn. Việc áp dụng điều chỉnh tương đương với $(\lambda+c)I_n$ có thể khắc phục vấn đề đầu tiên nhưng không giải quyết được vấn đề thứ hai.&lt;/small&gt;&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Elip thường thực sự là vô hạn, nghĩa là phương pháp này đang lấy mẫu để ước tính một lượng vô hạn. (Dễ đoán, ước tính trung vị tăng không giới hạn khi chúng ta tăng số lượng mẫu.)&lt;/li&gt;
&lt;li&gt;Có quá ít mẫu để ước tính chính xác định thức, và giá trị được theo dõi trên thực tế khá giống dấu vết.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 class="heading" id="lý-thuyết-thông-tin"&gt;
 Lý thuyết thông tin&lt;span class="heading__anchor"&gt; &lt;a href="#l%c3%bd-thuy%e1%ba%bft-th%c3%b4ng-tin"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;!-- How many bits does it take to specify (locate) a loss basin? --&gt;
&lt;!-- The simplest answer is $−\log2(V)$, where $V$ is the initialization-weighted volume of the basin. The weighting is done such that it integrates to 1. --&gt;
&lt;p&gt;Cần bao nhiêu bit để xác định (xác định vị trí) một lưu vực mất mát?&lt;/p&gt;
&lt;p&gt;Câu trả lời đơn giản nhất là $−\log2(V)$, trong đó $V$ là thể tích được khởi tạo theo trọng số của lưu vực. Trọng số được thực hiện sao cho nó tích hợp thành 1.&lt;/p&gt;
&lt;h2 class="heading" id="tài-liệu-tham-khảo"&gt;
 Tài liệu tham khảo&lt;span class="heading__anchor"&gt; &lt;a href="#t%c3%a0i-li%e1%bb%87u-tham-kh%e1%ba%a3o"&gt;#&lt;/a&gt;&lt;/span&gt;
&lt;/h2&gt;&lt;p&gt;Bài viết được dịch từ &lt;a href="https://www.lesswrong.com/posts/QPqztHpToij2nx7ET/hessian-and-basin-volume"&gt;Hessian and Basin volume&lt;/a&gt; bởi &lt;a href="https://www.lesswrong.com/users/vivek-1?from=post_header"&gt;Vivek Hebbar&lt;/a&gt;&lt;/p&gt;</description></item><item><title>Lý thuyết học kỳ dị - Singular Learning Theory</title><link>https://blog.namln.org/vi-vn/posts/slt-overview/</link><pubDate>Fri, 10 Jan 2025 00:00:00 +0000</pubDate><guid>https://blog.namln.org/vi-vn/posts/slt-overview/</guid><description>&lt;p&gt;Lý thuyết học kỳ dị hay Singular Learning Theory (SLT) là một lý thuyết cơ sở toán học mới nhằm mục tiêu mở rộng và cải thiện Lý thuyết Học thống kê cổ điển (Traditional Statistical Learning Theory) bằng các kỹ thuật từ các lý thuyết Hình học Đại số (Algebraic geometry), Thống kê Bayesian (Bayesian statistics) và Vật lý Thống kê (Statistical physics). Đây là một lý thuyết đầy hứa hẹn cho việc xây dựng nền tảng toán học của lý thuyết học máy hiện đại.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Giáo trình chính&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;[1] S. Watanabe. &amp;ldquo;&lt;a href="https://www.cambridge.org/core/books/algebraic-geometry-and-statistical-learning-theory/9C8FD1BDC817E2FC79117C7F41544A3A"&gt;Algebraic geometry and statistical learning theory&lt;/a&gt;&amp;rdquo;. 2009.&lt;/p&gt;
&lt;p&gt;[2] S. Watanabe. &amp;ldquo;&lt;a href="https://www.routledge.com/Mathematical-Theory-of-Bayesian-Statistics/Watanabe/p/book/9780367734817"&gt;Mathematical theory of Bayesian statistics&lt;/a&gt;&amp;rdquo;. 2018.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Luận văn Thạc sĩ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;[1] Spencer Wong&amp;rsquo;s MSc thesis, May 2022, &lt;a href="http://therisingsea.org/notes/MScThesisSpencerWong.pdf"&gt;From Analytic to Algebraic: The Algebraic Geometry of Two Layer Neural Networks&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;[2] Liam Carroll&amp;rsquo;s MSc thesis, October 2021, &lt;a href="http://therisingsea.org/notes/MSc-Carroll.pdf"&gt;Phase transitions in neural networks&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;[3] Tom Waring&amp;rsquo;s MSc thesis, October 2021, &lt;a href="http://therisingsea.org/notes/MSc-Waring.pdf"&gt;Geometric Perspectives on Program Synthesis and Semantics&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;[4] Matt Farrugia-Roberts&amp;rsquo; MSc thesis, October 2022, &lt;a href="https://far.in.net/mthesis"&gt;Structural Degeneracy in Neural Networks&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Luận văn Tiến sĩ&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;[1] Shaowei Lin&amp;rsquo;s PhD thesis, 2011, &lt;a href="https://escholarship.org/content/qt6r99035v/qt6r99035v_noSplash_55ad6962455379ca776283fed8278b40.pdf"&gt;Algebraic Methods for Evaluating Integrals in Bayesian Statistics&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Bài báo khoa học cơ sở&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;[1] Shun-ichi Amari, T. Ozeki, H. Park, Learning and inference in hierarchical models with singularities, Syst. Comput. Japan 34:7 (2003) 34–42&lt;/p&gt;
&lt;p&gt;[2] Sumio Watanabe, Almost all learning machines are singular, Proc. IEEE Symp. Found. Comput. Intell., Apr. 2007, 383–388.&lt;/p&gt;
&lt;p&gt;[3] S. Wei, D. Murfet, M. Gong, H. Li , J. Gell-Redman, T. Quella &amp;lsquo;&lt;a href="https://www.suswei.com/publication/wei-2022-singular/wei-2022-singular.pdf"&gt;Deep learning is singular, and that&amp;rsquo;s good&lt;/a&gt;&amp;rsquo;. 2022.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Bài viết&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;[1] Jesse Hoogland’s blog posts: &lt;a href="https://www.lesswrong.com/posts/fovfuFdpuEwQzJu2w/neural-networks-generalize-because-of-this-one-weird-trick"&gt;general intro to SLT&lt;/a&gt;, and &lt;a href="https://www.lesswrong.com/posts/2N7eEKDuL5sHQou3N/spooky-action-at-a-distance-in-the-loss-landscape"&gt;effects of singularities on dynamics&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;[2] Edmund Lau&amp;rsquo;s blog &lt;a href="https://edmundlth.github.io/posts/singular-learning-theory-part-1/"&gt;Probably Singular&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;Bài viết được dịch từ: &lt;a href="https://www.lesswrong.com/s/mqwA5FcL6SrHEQzox"&gt;Singular Learning Theory&lt;/a&gt; được viết bởi &lt;a href="https://www.lesswrong.com/users/alexander-gietelink-oldenziel"&gt;Alexander Gietelink Oldenziel&lt;/a&gt;&lt;/p&gt;</description></item></channel></rss>