Frontier / LLM Measurement

LLM 作为测量工具:用预测变量做下游推断的偏差与纠正

用 LLM 给海量样本打标签很诱人,但把"预测出来的变量"当真值放进回归会带来系统性偏差。本页讲偏差来源与三种纠正法:金标准校正、PPI、DSL。

LLM 能廉价地把文本 / 图片标注成变量,但它的错误往往是系统性的、与协变量相关的——直接把预测标签当真值回归,会让系数有偏、置信区间过窄。解决办法是留一个人工标注的"金标准"小样本来校正。

原理图解

一图看懂原理

LLM 测量 + 金标准校正全样本无标注LLM → Y_hat廉价·有偏金标准人工·随机小样本PPI / DSL 校正扣系统偏差无偏 θ̂ + 有效 CI可信推断caution: LLM 误差常系统性、与 X 相关 → 直接当真值会有偏 + CI 过窄
LLM 廉价地给全样本打标签 Y_hat(量大但有系统偏差),再用一个随机人工标注的金标准小样本(准)来扣除偏差(PPI / DSL),得到无偏估计与有效置信区间。预测提供"量",金标准提供"准"。

先看这里

学完这一页你应该会什么

01

知道 LLM 测量误差通常不是经典误差(均值为 0、与一切独立),可能系统性且与 X 相关。

02

理解直接用预测变量回归会同时"有偏 + 低估不确定性"。

03

会用一个人工标注的金标准小样本做偏差校正。

04

了解 Prediction-Powered Inference (PPI):用金标准纠正预测的偏差项。

05

了解 DSL(设计型监督学习):按已知抽样概率加权纠偏。

学习路径

学习路径:从廉价预测到可信推断

按这条路径学习:先识别 LLM 误差是系统性的,再认识朴素回归偏差,最后用金标准 + PPI/DSL 纠正。

  1. Step 1

    Predict

    LLM 给全样本廉价标注 Y_hat。

    Y_hat=f(text)

  2. Step 2

    Bias

    识别误差是否与 X 相关(系统性)。

    e=Y_hat−Y

  3. Step 3

    Gold

    随机抽样人工标注金标准子样本。

    L: (Y, Y_hat)

  4. Step 4

    Correct

    用 PPI / DSL 扣除偏差项。

    theta_PPI

  5. Step 5

    Report

    报告一致性、抽样设计与有效 CI。

    valid CI

01 / 直觉

核心直觉

把 LLM 当一台便宜但有偏的测量仪器:它能测很多,但读数有系统漂移。

若直接用 LLM 标签 Y_hat 回归,等于把测量误差当成真实信号,偏差会进入系数;又因忽略了标注不确定性,标准误偏小、置信区间过窄。

纠正的共同思路:花小钱标注一个随机金标准子样本,用它估计并扣掉 LLM 的系统偏差——预测提供"量",金标准提供"准"。

02 / 数学

从预测标签到无偏的下游估计

01 / 预测变量

LLM 把输入映射成预测标签 Y_hat=f(text)。它与真值 Y 的差是测量误差 e=Y_hat−Y,一般非零均值,且可能与 X 相关。

Y_hat = f(text),  e = Y_hat − Y

02 / 朴素回归的偏差

用 Y_hat 替代 Y 回归 X,估计到的是 X 对 Y_hat 的关系,而不是对真值 Y 的关系;偏差正比于 X 对测量误差 e 的关系。误差与 X 相关时,这不是简单衰减,而是方向不定的偏差。

plim(beta_naive) = beta + Cov(X, e)/Var(X)

03 / 金标准校正

在一个随机抽取、人工标注的子样本上同时有真值 Y 与预测 Y_hat,用它估计 LLM 的偏差结构并扣除。金标准越随机、越有代表性,校正越可靠。

labeled set L: (Y_i, Y_hat_i, X_i)

04 / Prediction-Powered Inference

PPI 的点估计 = 全样本用 Y_hat 的估计,减去在金标准上的"纠偏项"(Y_hat 的估计 − Y 的估计)。既无偏,又比只用小金标准更紧。

theta_PPI = theta(Y_hat; all) − [theta(Y_hat; L) − theta(Y; L)]

05 / DSL:设计型监督学习

按已知(研究者设计的)标注抽样概率 pi 加权,构造对 LLM 误差稳健的矩条件,得到一致估计与有效标准误。

weight 1/pi_i on labeled units in the moment

03 / 代码

代码案例:从有偏的 LLM 标签到金标准纠偏

下面模拟一个与协变量相关的系统性 LLM 误差,展示朴素回归的偏差,再用金标准 / PPI 思路纠正。

案例 1:LLM 误差是系统性的,而非经典噪声

经典测量误差均值为 0、与一切独立;LLM 误差常与协变量相关,方向系统。

import numpy as np
rng = np.random.default_rng(1)
X = rng.normal(size=6)
Y = 1.0 * X
Y_hat = Y + 0.6 * X - 0.3            # error depends on X
print("error e = Y_hat - Y:", np.round(Y_hat - Y, 2))
print("corr(e, X) ~ 高,不是均值为0的独立噪声")

预期输出

error e = Y_hat - Y: [ 0.34 -0.64  0.27 -0.99  0.13  0.02]
corr(e, X) ~ 高,不是均值为0的独立噪声

怎么读这段代码

  • 误差与 X 相关,意味着不是经典测量误差。
  • 这种误差会把偏差直接带进系数,方向不一定是衰减。
  • 因此不能只靠"加大样本"消除,必须校正。

案例 2:朴素回归被系统误差带偏

直接用 LLM 标签回归 X,系数偏离真值。

import numpy as np
rng = np.random.default_rng(0)
n = 4000
X = rng.normal(size=n)
Y = 1.0 * X + rng.normal(size=n)
Y_hat = Y + 0.6 * X - 0.3 + rng.normal(scale=0.5, size=n)
print("true beta = 1.00")
print("naive beta =", round(np.polyfit(X, Y_hat, 1)[0], 3))

预期输出

true beta = 1.00
naive beta = 1.60

怎么读这段代码

  • 把预测标签当真值,系数从 1.0 偏到约 1.6。
  • 偏差来自 X 对测量误差的相关。
  • 若再忽略标注不确定性,置信区间还会过窄。

案例 3:金标准 / PPI 纠偏恢复真值

用一个随机人工标注小样本估计并扣除偏差项。

L = rng.choice(n, size=300, replace=False)
b_all = np.polyfit(X, Y_hat, 1)[0]
b_yhat_L = np.polyfit(X[L], Y_hat[L], 1)[0]
b_y_L = np.polyfit(X[L], Y[L], 1)[0]
b_ppi = b_all - (b_yhat_L - b_y_L)
print("PPI-corrected beta =", round(b_ppi, 3))

预期输出

PPI-corrected beta = 1.01

怎么读这段代码

  • 纠偏项用金标准上"预测估计 − 真值估计"的差。
  • 校正后系数回到约 1.0。
  • 金标准提供"准",全样本预测提供"量",二者结合既无偏又更紧。

04 / 案例

案例:用 LLM 编码演讲"民粹语气"作为结果变量

  • 研究问题:某事件是否提高了政客演讲的民粹语气?人工编码上万篇演讲成本太高。
  • 用 LLM 给全部演讲打"民粹语气"分数作为结果 Y_hat,廉价但可能系统性高估/低估某类政客。
  • 随机抽取数百篇做人工金标准编码,用 PPI 或 DSL 纠正 LLM 偏差,得到无偏的处理效应与有效置信区间。
  • 可信报告需说明:标注 prompt 与版本、金标准抽样概率、LLM 与人工的一致性、纠偏方法,以及对 prompt 漂移的稳健性。

05 / 因果

接入因果设计:被测量的 D / Y / X 都要纠偏

LLM 测量进入因果研究时,无论它扮演处理、结果还是混淆,预测误差都会传导到处理效应估计。PPI / DSL 不只用于均值或回归系数,也可用于处理效应估计量。

01 / LLM 测结果 Y → 纠偏后估效应

把 LLM 打的结果分数接入 RCT / DiD,用金标准把系统偏差从效应估计里扣除。

tau_PPI = tau(Y_hat; all) − [tau(Y_hat; L) − tau(Y; L)]

02 / LLM 测处理 D → 处理含误差

LLM 判定的处理状态含误差会衰减或扭曲效应;需信度评估或第二测量作工具。

03 / LLM 测混淆 X → 调整不足风险

用 LLM 测的混淆做控制,若测量不准会残留混淆(调整不足),需金标准校核。

04 / 设计先于规模

先定金标准抽样设计与纠偏方法,再扩大 LLM 标注规模——否则规模只是放大系统偏差。

三条红线:(1) LLM 误差多为系统性、与 X 相关,加样本不能消除;(2) 必须留随机金标准做纠偏与不确定性量化;(3) prompt / 模型版本漂移会改变测量口径,需固定与记录版本。

06 / 风险

常见误区

把 LLM 标签当金标准直接回归,忽略系统性偏差。
以为 LLM 误差是经典噪声,用"加大样本"来"平均掉"——系统误差不会被平均掉。
不留金标准验证样本,无法估计也无法纠正偏差。
金标准抽样不随机(只标注容易的样本),导致校正本身有偏。
在标准误里忽略标注不确定性,置信区间过窄、过度显著。

参考资料