Academic Projects Links About 🚇

CS336-3-scaling-law

Blur image

Jan 27, 2026

/ Update Jan 27, 2026

3 min read

CS336-3-scaling-law

views | comments

9.Scaling Law basics#

9.1 data与performance的关系#

可以用一个公式来表示数据量与模型性能的关系： Data vs Performance 假设有 $N$ 个样本，然后这些样本服从高斯分布，即 $x_i \sim N(\mu, \sigma^2)$ ，如果使用 $\hat{\mu} = \frac{1}{N} \sum_{i=1}^{N} x_i$ 来估计 $\mu$ ，那么估算的均方误差 $\mathbb{E}[(\hat{\mu}-\mu)^2]=\frac{\sigma^2}{N}$ 。然后两边取个log,于是 $log(error)=-log(N)+2log(\sigma)$ ，误差的对数与数据量的对数成线性关系。这就是一种scaling law。从这里可以认识到任何像 $\frac{1}{N^{\alpha}}$ 这样的关系都可以被看作是一种scaling law。

9.2 data 与 model size的关系#

在进行模型构建时选择哪些呢？

架构

对比不同的架构，发现transformer与LSTM,可以从下面的图中看到结果 Architecture Comparison

优化器

对比不同的优化器，如Adam与SGD,可以从下面的图中看到结果， Optimizer Comparison

width vs depth

对比不同的宽度与深度，可以从下面的图中看到结果，当然在实际使用中还需要考虑计算成本与时间成本等因素， Width vs Depth

9.3 hyper-parameter与performance的关系#

batch size

batch size的影响如下图所示：通过左图可以看出来小 batch 的梯度方向不稳定，路径带有更多噪声，大 batch 的梯度更接近真实方向，路径更直，更稳定。然后但每一步计算成本更高。

右图中的Noise Scale可以认为是训练中 “噪声刚好被压到可接受水平” 的那个最小批量大小。于是右图的含义就是训练速度与batch size的关系。

然后可以定义临界批量大小 = 达到目标损失所需的最小样本数 / 达到目标损失所需的最小步数

learning rate

当模型宽度缩放时，最优学习率也会变化。，因此可以采用mup等方法来进行，当模型缩放时，学习率按固定规律缩放。

9.4 data与model size的数学关系#

Joint data-model scaling law可以表示为：

Error(N, M) = N^{-\alpha}+M^{-\beta}+C

也有研究表明可以表示为下面的式子，基本上是等价的，差了一个常数项，这个代表某个不可降低的最低误差C：

Error(N, M) =(M^{-\alpha}+n^{-1})^{\beta}

CS336-3-scaling-law

https://linxii.top/blog/cs336-3-scaling-law

Author 林夕夕

Published at January 27, 2026

Copyright CC BY-NC-SA 4.0

Buy me a cup of coffee ☕.

CV基础学习笔记1

CS336-2-system

Comment seems to stuck. Try to refresh?✨