Agent / Scholarly Writing

降 AIGC:AI 文本检测的原理、局限与负责任的论文改写

AI 检测器靠困惑度、突发性与概率曲率等统计信号判断"像不像机器写的",但这些信号既不稳定也可被改写绕过。这一页讲清检测原理与边界,并把"人性化改写"定位为:用你真正理解的内容、你的声音、可核验的事实重写草稿,并按期刊规范披露 AI 使用——而不是教你伪装作弊。

这一页接在 Agent 实证研究工作流之后。一句话:理解 AI 检测器怎么工作(困惑度 / 突发性 / DetectGPT / 水印),就明白它们为什么会误判,也就明白真正的解法是"真实作者身份 + 事实核验 + 透明披露",而不是和检测器玩猫鼠游戏。

原理图解

一图看懂原理

降 AIGC:检测信号与根本局限文本逐词对数概率困惑度/突发性统计信号曲率/水印DetectGPT, z-test分数=线索非判定低困惑度 ≠ 机器假阳性偏向非母语披露与核验 > 对抗
AI 文本检测的主线:从文本算困惑度与突发性 → DetectGPT 看概率曲率 → 水印做统计检验 → 得到一个分数。但人机分布高度重叠,分数只能作线索,不能作判定;负责任的做法是真实作者身份、逐条核验、按期刊披露 AI 使用。

先看这里

学完这一页你应该会什么

01

理解三类检测信号:困惑度与突发性、DetectGPT 的概率曲率、生成水印。

02

知道检测器为什么不可靠:高假阳性、对非母语写作有系统性偏差、易被改写削弱。

03

把"人性化改写"理解为提升真实性、准确性与可读性,而非规避学术诚信。

04

了解主流期刊 / 会议关于 AI 使用披露的政策,知道该在哪里、怎么声明。

学习路径

学习路径:困惑度 → 突发性 → 曲率 → 水印 → 局限

按这条路径理解 AI 文本检测:先看最朴素的困惑度与突发性,再到 DetectGPT 的概率曲率与生成水印,最后认清分布重叠带来的根本局限。

  1. Step 1

    Perplexity

    机器文本平均更"不意外",困惑度偏低。

    PPL=exp(−mean log p)

  2. Step 2

    Burstiness

    人类句子意外度起伏更大,机器更平滑。

    std/mean

  3. Step 3

    Curvature

    DetectGPT:机器文本处于对数概率局部极大。

    d(x)>0

  4. Step 4

    Watermark

    生成偏向绿名单,可统计检验但易被改写削弱。

    z-score

  5. Step 5

    Limits

    分布重叠 → 假阳性不可避免,分数只能作参考。

    AUC<1

01 / 直觉

核心直觉

LLM 倾向生成"高概率、低意外"的词序列,所以机器文本的平均困惑度偏低、句子层面的意外度方差(突发性)偏小——这是大多数检测器的统计基础。

DetectGPT 用一个洞察:机器文本通常落在模型对数概率的局部极大值附近,做微小改写后对数概率倾向下降;人类文本不一定有这种曲率。

水印在生成时把 token 选择偏向一个伪随机"绿名单",事后可做统计检验;但翻译、改写或换模型都会削弱它——这说明所有检测信号都建立在脆弱的分布假设上。

02 / 数学

检测信号的统计原理与根本局限

01 / 困惑度(perplexity)

困惑度是模型对一段文本平均"有多意外"的指标。机器自己生成的文本对它自己困惑度低,但人类精心打磨、用词常规的文本困惑度也可能很低——这就是假阳性的来源之一。

PPL=exp(−(1/N) Σ_i log p(w_i | w_<i))

02 / 突发性(burstiness)

人类写作的句子意外度起伏更大(有长难句也有短句),机器文本更平滑。突发性用句子级意外度的离散程度刻画这种起伏。

burstiness = std(s_j) / mean(s_j),  s_j=句子 j 的平均意外度

03 / DetectGPT 概率曲率

对文本做多次小扰动(同义改写),比较原文与扰动文本的平均对数概率。机器文本通常处于局部极大,差值显著为正;人类文本不一定。

d(x)=log p(x) − E_{tilde x}[log p(tilde x)];  d>0 → 偏机器

04 / 生成水印

生成时用前一个 token 的哈希把词表分成"绿 / 红"名单并偏向绿名单。检测时数绿 token 比例做 z 检验。优点是可证统计性,缺点是改写 / 翻译会快速削弱。

z = (|green| − γT) / sqrt(T γ(1−γ))

05 / 为何改写会降低所有信号

同义替换与句式重排会提高困惑度、打散水印、削弱曲率。这不是一份"绕过指南",而是说明检测本质上脆弱:信号依赖具体模型与生成方式,换一种写法分布就变了。

06 / 根本局限:分布重叠

人类与机器文本的统计分布高度重叠,"人写但用 AI 润色"更是连续光谱而非二分类。因此任何阈值都在假阳性与漏报之间权衡,ROC 不可能完美——这决定了检测分数只能作参考,不能作铁证。

TPR 与 FPR 不可兼得(分布重叠 → AUC<1)

03 / 代码

代码案例:从对数概率计算困惑度与突发性(检测侧)

下面只演示检测一侧的统计量:给定一段文本的逐词对数概率,计算困惑度与句子级突发性,并说明为什么人类精炼文本也可能被误判。

案例 1:困惑度怎么算

困惑度是平均负对数似然的指数,越低表示模型越"不意外"。

import numpy as np
log_probs = np.array([-1.2, -0.9, -1.5, -0.7, -1.1])  # nats per token
ppl = np.exp(-log_probs.mean())
print("perplexity:", round(float(ppl), 3))

预期输出

perplexity: 2.93

怎么读这段代码

  • 机器自生成文本对自身困惑度低。
  • 但常规、清晰的人类文本困惑度也可能低。
  • 所以低困惑度不等于"机器写的"。

案例 2:突发性区分人机的直觉

人类句子意外度起伏大,机器更平滑。

import numpy as np
human = np.array([3.1, 0.8, 2.9, 1.0, 3.4])   # varied sentence surprisal
machine = np.array([1.8, 1.9, 1.7, 2.0, 1.8])  # smooth
b = lambda s: round(float(s.std() / s.mean()), 3)
print("human burstiness :", b(human))
print("machine burstiness:", b(machine))

预期输出

human burstiness : 0.594
machine burstiness: 0.057

怎么读这段代码

  • 人类文本突发性高(句子长短意外度起伏大)。
  • 机器文本更平滑,突发性低。
  • 但改写或混合写作会让两者趋同。

案例 3:一个假阳性演示

非母语者用简单、规范的句式写作,可能被误判为 AI。

import numpy as np
# a careful non-native writer: short, regular sentences -> low PPL, low burstiness
lp = np.array([-0.8, -0.7, -0.9, -0.6, -0.8, -0.7])
ppl = np.exp(-lp.mean())
sent = np.array([0.75, 0.80, 0.70])   # smooth per-sentence surprisal
burst = sent.std() / sent.mean()
print("PPL:", round(float(ppl), 2), "| burstiness:", round(float(burst), 3),
      "-> may be flagged, wrongly")

预期输出

PPL: 2.16 | burstiness: 0.058 -> may be flagged, wrongly

怎么读这段代码

  • 简洁规范的人类写作同样低困惑度、低突发性。
  • 这正是检测器对非母语作者有偏的机制。
  • 结论:分数只能作线索,不能作判定。

04 / 案例

案例:非母语研究者用 LLM 润色英文论文被误判

  • 场景:一位非英语母语的研究者用 LLM 润色英文论文的语言,被某检测器判为"高度疑似 AI 生成"。
  • 问题:检测信号无法区分"机器代写"与"人写后机器润色",且对规范、简洁的非母语写作系统性偏向假阳性。
  • 负责任路径:保留写作过程的版本与草稿;用自己的话重述贡献与论证,确保每句都对应你真正理解的内容;逐条核验引用、数据与数字。
  • 透明披露:按目标期刊 / 会议的政策,在 methods、acknowledgments 或投稿信中声明 AI 工具的使用范围(如"仅用于语言润色"),把诚信与可核验放在第一位。

05 / 风险

常见误区

把检测分数当铁证:主流检测器假阳性高,且对非母语写作有系统性偏差。
用"降 AIGC 工具"伪装欺骗——这违反学术诚信,而且机械改写常引入事实与引用错误。
改写后不再逐条核验事实、数据与引用,放大幻觉与错误传播的风险。
忽视目标期刊 / 会议的 AI 披露政策(许多要求在 methods 或投稿信中声明)。
以为水印可靠:开源模型可不加水印,翻译 / 改写会迅速削弱水印信号。

参考资料