Frontier / LLM Measurement

LLM 作为测量工具：用预测变量做下游推断的偏差与纠正

用 LLM 给海量样本打标签很诱人，但把"预测出来的变量"当真值放进回归会带来系统性偏差。本页讲偏差来源与三种纠正法：金标准校正、PPI、DSL。

LLM 能廉价地把文本 / 图片标注成变量，但它的错误往往是系统性的、与协变量相关的——直接把预测标签当真值回归，会让系数有偏、置信区间过窄。解决办法是留一个人工标注的"金标准"小样本来校正。

原理图解

一图看懂原理

LLM 廉价地给全样本打标签 Y_hat（量大但有系统偏差），再用一个随机人工标注的金标准小样本（准）来扣除偏差（PPI / DSL），得到无偏估计与有效置信区间。预测提供"量"，金标准提供"准"。

先看这里

学完这一页你应该会什么

知道 LLM 测量误差通常不是经典误差（均值为 0、与一切独立），可能系统性且与 X 相关。

理解直接用预测变量回归会同时"有偏 + 低估不确定性"。

会用一个人工标注的金标准小样本做偏差校正。

了解 Prediction-Powered Inference (PPI)：用金标准纠正预测的偏差项。

了解 DSL（设计型监督学习）：按已知抽样概率加权纠偏。

学习路径

学习路径：从廉价预测到可信推断

按这条路径学习：先识别 LLM 误差是系统性的，再认识朴素回归偏差，最后用金标准 + PPI/DSL 纠正。

Step 1
Predict
LLM 给全样本廉价标注 Y_hat。
Y_hat=f(text)
Step 2
Bias
识别误差是否与 X 相关（系统性）。
e=Y_hat−Y
Step 3
Gold
随机抽样人工标注金标准子样本。
L: (Y, Y_hat)
Step 4
Correct
用 PPI / DSL 扣除偏差项。
theta_PPI
Step 5
Report
报告一致性、抽样设计与有效 CI。
valid CI

01 / 直觉

核心直觉

把 LLM 当一台便宜但有偏的测量仪器：它能测很多，但读数有系统漂移。

若直接用 LLM 标签 Y_hat 回归，等于把测量误差当成真实信号，偏差会进入系数；又因忽略了标注不确定性，标准误偏小、置信区间过窄。

纠正的共同思路：花小钱标注一个随机金标准子样本，用它估计并扣掉 LLM 的系统偏差——预测提供"量"，金标准提供"准"。

02 / 数学

从预测标签到无偏的下游估计

01 / 预测变量

LLM 把输入映射成预测标签 Y_hat=f(text)。它与真值 Y 的差是测量误差 e=Y_hat−Y，一般非零均值，且可能与 X 相关。

Y_hat = f(text),  e = Y_hat − Y

02 / 朴素回归的偏差

用 Y_hat 替代 Y 回归 X，估计到的是 X 对 Y_hat 的关系，而不是对真值 Y 的关系；偏差正比于 X 对测量误差 e 的关系。误差与 X 相关时，这不是简单衰减，而是方向不定的偏差。

plim(beta_naive) = beta + Cov(X, e)/Var(X)

03 / 金标准校正

在一个随机抽取、人工标注的子样本上同时有真值 Y 与预测 Y_hat，用它估计 LLM 的偏差结构并扣除。金标准越随机、越有代表性，校正越可靠。

labeled set L: (Y_i, Y_hat_i, X_i)

04 / Prediction-Powered Inference

PPI 的点估计 = 全样本用 Y_hat 的估计，减去在金标准上的"纠偏项"（Y_hat 的估计 − Y 的估计）。既无偏，又比只用小金标准更紧。

theta_PPI = theta(Y_hat; all) − [theta(Y_hat; L) − theta(Y; L)]

05 / DSL：设计型监督学习

按已知（研究者设计的）标注抽样概率 pi 加权，构造对 LLM 误差稳健的矩条件，得到一致估计与有效标准误。

weight 1/pi_i on labeled units in the moment

03 / 代码

代码案例：从有偏的 LLM 标签到金标准纠偏

下面模拟一个与协变量相关的系统性 LLM 误差，展示朴素回归的偏差，再用金标准 / PPI 思路纠正。

案例 1：LLM 误差是系统性的，而非经典噪声

经典测量误差均值为 0、与一切独立；LLM 误差常与协变量相关，方向系统。

import numpy as np
rng = np.random.default_rng(1)
X = rng.normal(size=6)
Y = 1.0 * X
Y_hat = Y + 0.6 * X - 0.3            # error depends on X
print("error e = Y_hat - Y:", np.round(Y_hat - Y, 2))
print("corr(e, X) ~ 高，不是均值为0的独立噪声")

预期输出

error e = Y_hat - Y: [ 0.34 -0.64  0.27 -0.99  0.13  0.02]
corr(e, X) ~ 高，不是均值为0的独立噪声

怎么读这段代码

误差与 X 相关，意味着不是经典测量误差。
这种误差会把偏差直接带进系数，方向不一定是衰减。
因此不能只靠"加大样本"消除，必须校正。

案例 2：朴素回归被系统误差带偏

直接用 LLM 标签回归 X，系数偏离真值。

import numpy as np
rng = np.random.default_rng(0)
n = 4000
X = rng.normal(size=n)
Y = 1.0 * X + rng.normal(size=n)
Y_hat = Y + 0.6 * X - 0.3 + rng.normal(scale=0.5, size=n)
print("true beta = 1.00")
print("naive beta =", round(np.polyfit(X, Y_hat, 1)[0], 3))

预期输出

true beta = 1.00
naive beta = 1.60

怎么读这段代码

把预测标签当真值，系数从 1.0 偏到约 1.6。
偏差来自 X 对测量误差的相关。
若再忽略标注不确定性，置信区间还会过窄。

案例 3：金标准 / PPI 纠偏恢复真值

用一个随机人工标注小样本估计并扣除偏差项。

L = rng.choice(n, size=300, replace=False)
b_all = np.polyfit(X, Y_hat, 1)[0]
b_yhat_L = np.polyfit(X[L], Y_hat[L], 1)[0]
b_y_L = np.polyfit(X[L], Y[L], 1)[0]
b_ppi = b_all - (b_yhat_L - b_y_L)
print("PPI-corrected beta =", round(b_ppi, 3))

预期输出

PPI-corrected beta = 1.01

怎么读这段代码

纠偏项用金标准上"预测估计 − 真值估计"的差。
校正后系数回到约 1.0。
金标准提供"准"，全样本预测提供"量"，二者结合既无偏又更紧。

04 / 案例

案例：用 LLM 编码演讲"民粹语气"作为结果变量

研究问题：某事件是否提高了政客演讲的民粹语气？人工编码上万篇演讲成本太高。
用 LLM 给全部演讲打"民粹语气"分数作为结果 Y_hat，廉价但可能系统性高估/低估某类政客。
随机抽取数百篇做人工金标准编码，用 PPI 或 DSL 纠正 LLM 偏差，得到无偏的处理效应与有效置信区间。
可信报告需说明：标注 prompt 与版本、金标准抽样概率、LLM 与人工的一致性、纠偏方法，以及对 prompt 漂移的稳健性。

05 / 因果

接入因果设计：被测量的 D / Y / X 都要纠偏

LLM 测量进入因果研究时，无论它扮演处理、结果还是混淆，预测误差都会传导到处理效应估计。PPI / DSL 不只用于均值或回归系数，也可用于处理效应估计量。

01 / LLM 测结果 Y → 纠偏后估效应

把 LLM 打的结果分数接入 RCT / DiD，用金标准把系统偏差从效应估计里扣除。

tau_PPI = tau(Y_hat; all) − [tau(Y_hat; L) − tau(Y; L)]

02 / LLM 测处理 D → 处理含误差

LLM 判定的处理状态含误差会衰减或扭曲效应；需信度评估或第二测量作工具。

03 / LLM 测混淆 X → 调整不足风险

用 LLM 测的混淆做控制，若测量不准会残留混淆（调整不足），需金标准校核。

04 / 设计先于规模

先定金标准抽样设计与纠偏方法，再扩大 LLM 标注规模——否则规模只是放大系统偏差。

三条红线：(1) LLM 误差多为系统性、与 X 相关，加样本不能消除；(2) 必须留随机金标准做纠偏与不确定性量化；(3) prompt / 模型版本漂移会改变测量口径，需固定与记录版本。

06 / 风险

常见误区

把 LLM 标签当金标准直接回归，忽略系统性偏差。

以为 LLM 误差是经典噪声，用"加大样本"来"平均掉"——系统误差不会被平均掉。

不留金标准验证样本，无法估计也无法纠正偏差。

金标准抽样不随机（只标注容易的样本），导致校正本身有偏。

在标准误里忽略标注不确定性，置信区间过窄、过度显著。

LLM 作为测量工具：用预测变量做下游推断的偏差与纠正

一图看懂原理

学完这一页你应该会什么

学习路径：从廉价预测到可信推断

Predict

Bias

Gold

Correct

Report

核心直觉

从预测标签到无偏的下游估计

代码案例：从有偏的 LLM 标签到金标准纠偏

案例 1：LLM 误差是系统性的，而非经典噪声

案例 2：朴素回归被系统误差带偏

案例 3：金标准 / PPI 纠偏恢复真值

案例：用 LLM 编码演讲"民粹语气"作为结果变量

接入因果设计：被测量的 D / Y / X 都要纠偏

常见误区

参考资料