CNN 卷积神经网络
CNN 解决的是“如何在局部结构中识别稳定模式”的问题。它不是把所有输入直接连到一起,而是在局部窗口内共享卷积核,让模型在图像、空间网格或文本 n-gram 中捕捉重复出现的局部特征。
结构拆解
- 卷积层:用 kernel 在输入上滑动,学习边缘、形状、局部词组或空间邻近关系。
- padding 与 stride:控制边界保留、特征图尺寸和信息压缩速度。
- pooling:通过 max / average pooling 压缩局部信息,提升平移不变性。
- feature map 与 receptive field:解释模型看到的是局部窗口还是更大范围的组合特征。
科研场景
在经管社科中可用于遥感图像、夜间灯光、街景、地理栅格、票据图像、合同版式或文本局部特征抽取。
边界与风险
CNN 对长距离依赖和复杂语义关系不够自然,通常需要与序列模型、注意力机制或预训练模型结合。
练习连接
用一个小型分类任务比较手工特征、CNN 特征和预训练嵌入的差异,重点看过拟合、可解释性和样本量要求。
RNN / LSTM / GRU 序列模型
RNN 家族解决的是“如何让模型带着记忆读序列”的问题。LSTM 和 GRU 通过门控机制缓解普通 RNN 在长序列中遗忘过快、梯度消失和长期依赖困难的问题。
结构拆解
- RNN hidden state:把前一时刻信息传给下一时刻,适合按时间展开的数据。
- LSTM 输入门、遗忘门、输出门:决定写入、保留和输出哪些记忆。
- GRU 更新门、重置门:用更轻量的结构控制短期与长期信息。
- 双向序列建模:同时利用前文和后文信息,适合文本标注和序列分类。
科研场景
适合企业经营轨迹、金融时间序列、用户行为序列、政策文本演化和事件历史数据。
边界与风险
序列模型训练较慢,长文本并行效率较低;当文本非常长或依赖关系复杂时,Transformer 通常更合适。
练习连接
用面板或文本序列构造一个预测任务,比较滞后变量、LSTM 与 GRU 在样本外表现和解释成本上的差异。
seq2seq 与 Encoder-Decoder
seq2seq 把一个输入序列映射成一个输出序列,是翻译、摘要、问答、代码生成和研究报告生成的早期核心框架。
结构拆解
- Encoder:把输入文本、代码或变量说明转化为上下文表示。
- Decoder:按步骤生成输出,每一步依赖已生成内容和上下文表示。
- teacher forcing:训练时用真实前序 token 帮助模型学习稳定生成。
- greedy search / beam search:推理时在速度、质量和多样性之间权衡。
科研场景
能解释“把自然语言研究任务转成代码”“把回归表转成文字说明”“把文献段落转成摘要”的基本机制。
边界与风险
早期 seq2seq 容易把全部信息压到一个瓶颈表示中,长文本效果受限,因此需要注意力机制改进。
练习连接
把一段变量定义或实证任务说明转成结构化 JSON / Python 伪代码,观察生成错误如何出现以及如何验证。
注意力机制
注意力机制解决的是“当前生成或判断时,应该看输入中的哪一部分”的问题。它通过 query、key、value 计算相关性权重,使模型能动态选择信息来源。
结构拆解
- Q/K/V:query 提出当前问题,key 描述可检索位置,value 承载实际信息。
- scaled dot-product attention:用向量相似度计算关注权重并加权求和。
- cross-attention:让输出端在生成时读取输入端信息。
- attention weights:可帮助检查模型是否关注了合理位置,但不能直接等同于因果解释。
科研场景
适合长政策文本、论文段落、变量说明、访谈材料和多来源证据之间的关联建模。
边界与风险
注意力不是可靠的因果解释;长上下文会带来成本、噪音和检索错误,仍需要审计与引用。
练习连接
用一段政策文本定位与处理变量、时间窗口和样本限制相关的句子,训练如何把注意力结果转成可检查证据。
Transformer 模型架构
Transformer 用自注意力替代传统循环结构,使模型可以并行处理序列,并通过多头注意力同时捕捉不同关系类型。现代大语言模型基本都建立在这一架构之上。
结构拆解
- tokenization 与 embedding:把文本、代码或符号变成向量表示。
- positional encoding:补充顺序信息,让模型知道 token 的位置。
- multi-head self-attention:在多个表示子空间中学习依赖关系。
- feed-forward network、residual connection、LayerNorm:提升非线性表达、稳定训练和深层堆叠能力。
科研场景
用于论文阅读、政策文本编码、摘要生成、代码生成、表格解释、检索增强问答和 Agent 任务规划。
边界与风险
Transformer 学到的是统计关联和任务模式,不自动保证事实正确、因果识别正确或代码可运行。
练习连接
拆解一次 LLM 回答:输入如何被 token 化,模型如何生成,哪些部分需要 RAG、代码执行和人工确认。
大语言模型 LLM 与 Agent
LLM 先通过大规模 next-token pretraining 学会语言、代码和知识模式,再通过 instruction tuning、偏好对齐、RAG、function calling 和工具调用进入真实任务。
结构拆解
- pretraining:用海量文本学习语言分布、常识关联和代码模式。
- instruction tuning 与 alignment:让模型更会遵循任务、解释步骤并降低有害输出。
- RAG:先检索外部资料,再把证据送入模型生成回答。
- tool calling / MCP:让模型调用 Python、Stata、R、数据库、浏览器或 StatsPAI,而不是只生成自然语言。
科研场景
可辅助选题、读文献、写代码、查错、解释表格、生成报告草稿、组装复现包和协调多工具研究流程。
边界与风险
LLM 可能幻觉、误读数据、遗漏识别假设或生成不可复现结论;必须用日志、代码执行、引用、单元测试和人工审阅约束。
练习连接
把“完成一个实证分析”的自然语言任务拆成 Agent 计划,要求每一步留下文件、日志、结果和人工确认点。