Python 编程、AI 原理,与 Agent 实证研究

海报之外的详细 Syllabus

1 小时公开课:大学课程式扩展大纲

这部分是海报下方的普通网页内容,不改变海报本身。公开课虽然只有 1 小时,但按照大学课程导论的方式组织:先建立知识地图,再说明每个模块的核心概念、课堂演示、后续作业和继续学习路径。

课程信息

课程性质
免费公开课
用于建立完整路线图和判断后续学习重点。
课程时长
60 分钟
含讲授、演示、问题诊断和后续学习建议。
授课对象
经管社科师生与实证研究者
适合想把 Python、AI 和因果推断接入研究流程的人。
授课方式
概念讲解 + 案例演示
重点不是堆工具名,而是解释每个工具在研究流程中的位置。
软件环境
Python / Jupyter / VSCode / Stata / R / StatsPAI
公开课会展示工具链,不要求当场完成全部安装。

学习目标

  • 画出从 Python 编程、数据工程、机器学习、深度学习、因果推断到 Agent 自动化研究的完整路线图。
  • 理解 CNN、RNN、LSTM、GRU、seq2seq、注意力机制、Transformer 和大语言模型分别解决什么问题。
  • 区分预测、解释和因果识别三类任务,知道为什么 AI 不能替代研究设计。
  • 知道 Agent 不是“自动写论文机器”,而是需要工具调用、日志、代码执行和人工审阅的研究助手。
  • 判断自己当前应该优先补 Python 工作流、计量识别、AI 架构,还是 Agent 自动化。

先修要求

  • 不要求 Python 基础,但需要愿意阅读代码示例。
  • 建议有一门计量经济学、统计学或实证研究课程的基本背景。
  • 最好知道回归表、变量、样本、处理组和对照组这些基本概念。
  • 课前可准备一个自己正在做或想做的实证研究问题,用来对照课程路线图。

模块安排

公开课按四个部分推进,每个部分都包含概念框架、研究例子、工具演示和后续学习任务。

Part 1

Python 与可复现研究工作流

约 12 分钟

解释为什么现代实证研究需要脚本化流程:数据下载、清洗、描述性统计、图表、回归表和报告草稿都应该可以追踪、复跑和审计。

讲授主题
  • Python 项目目录:data、scripts、notebooks、tables、figures、logs、README。
  • Jupyter 适合探索,脚本适合复现,Git 适合保存每一步变化。
  • pandas 如何完成清洗、merge、reshape、groupby 和导出。
  • Stata、R、Python 如何互相校验结果,避免单一工具黑箱。
课堂练习
  • 展示一个最小可复现实证项目:原始数据、清洗脚本、描述性统计表和结果图。
  • 演示如何把一份手工 Excel 工作流改成可复跑 Python pipeline。
关键问题
  • 什么样的文件结构会让 AI Agent 更容易读懂研究任务?
  • 哪些步骤必须脚本化,哪些步骤仍然适合人工检查?

课后任务

把自己的一个研究项目拆成 6 个文件夹:raw、processed、scripts、tables、figures、notes,并写出每个文件夹的用途。

阶段产出

一张个人研究项目目录图和一份最小复现清单。

Part 2

AI 原理、深度学习与大语言模型

约 18 分钟

从 sklearn 的分类、回归、聚类、降维讲到神经网络,再把 CNN、LSTM、GRU、seq2seq、注意力机制、Transformer 和 LLM 串成一条模型发展线。

讲授主题
  • 训练集、验证集、测试集、交叉验证、损失函数、正则化与过拟合。
  • CNN 如何提取局部模式,LSTM/GRU 如何处理序列记忆。
  • seq2seq 如何把输入序列变成输出序列,为什么需要注意力机制。
  • Transformer 的 tokenization、embedding、位置编码、Q/K/V、多头注意力、残差连接和 LayerNorm。
  • 大语言模型的 pretraining、instruction tuning、alignment、RAG、function calling 和工具调用。
课堂练习
  • 用同一个文本分类或变量解释任务对比传统机器学习、神经网络和 LLM 的工作方式。
  • 拆解一次 ChatGPT/Codex 回答:哪些来自模型参数,哪些应该来自检索、代码执行或外部文件。
关键问题
  • 什么时候应该用传统机器学习,什么时候需要深度学习,什么时候才需要 LLM?
  • 为什么 LLM 会幻觉,为什么 RAG 和工具调用能降低但不能消除风险?

课后任务

写一页模型选择说明:给定一个研究任务,说明可能使用的特征、模型、验证方法和失败风险。

阶段产出

一张 AI 模型架构概念图和一份 LLM 使用边界说明。

Part 3

因果推断与机器学习如何结合

约 15 分钟

把“预测准确”与“识别可信”分开。机器学习可以帮助变量选择、高维控制、异质性发现和 nuisance 预测,但不能自动提供因果识别。

讲授主题
  • 潜在结果框架、处理效应、选择偏误、共同支持和识别假设。
  • RCT、DID、PSM、IV、RD、合成控制和事件研究的使用场景。
  • DML、因果森林、异质性处理效应和高维协变量控制。
  • 稳健性检验、安慰剂检验、机制分析和结果解释。
课堂练习
  • 用一个政策评估例子展示从研究问题到识别策略的推理路径。
  • 比较“预测谁会接受处理”和“估计处理是否有效”之间的差别。
关键问题
  • 机器学习可以帮因果推断做什么,不能帮它做什么?
  • 为什么识别策略必须先于模型复杂度?

课后任务

为自己的研究问题写出处理变量、结果变量、反事实、识别假设和一个可行的稳健性检验。

阶段产出

一页因果识别诊断表。

Part 4

Agent 实证研究与自动化科研演示

约 15 分钟

展示如何把自然语言研究任务拆成可执行步骤,让 Agent 调用 Python、Stata、R、StatsPAI 和文件系统,同时保留日志、结果和人工确认点。

讲授主题
  • Agent 的规划、工具选择、短期记忆、长期记忆和反馈循环。
  • MCP、function calling、文件读写、代码执行和 provenance 记录。
  • 自动生成描述性统计、回归表、图形、代码注释和报告草稿。
  • 人类审阅节点:识别策略、变量定义、样本限制、异常结果和最终表述。
课堂练习
  • 演示一句“做一个 DID 分析”如何被拆成数据检查、变量构造、模型估计、结果解释和报告生成。
  • 展示如何要求 Agent 保存中间文件,而不是只给一个自然语言答案。
关键问题
  • 哪些科研步骤可以自动化,哪些步骤必须由研究者负责?
  • 如何设计一个可审计、可复现、可暂停的 Agent 工作流?

课后任务

把一个研究任务写成 Agent 可执行 briefing:目标、数据、变量、限制、输出格式和人工确认点。

阶段产出

一份 Agent 研究任务说明书。

模型架构专题

这一部分把大语言模型放回深度学习发展脉络中讲清楚:从局部特征提取、序列记忆、输入输出生成,到注意力与 Transformer,再到可调用工具的 LLM Agent。

CNN 卷积神经网络

CNN 解决的是“如何在局部结构中识别稳定模式”的问题。它不是把所有输入直接连到一起,而是在局部窗口内共享卷积核,让模型在图像、空间网格或文本 n-gram 中捕捉重复出现的局部特征。

结构拆解
  • 卷积层:用 kernel 在输入上滑动,学习边缘、形状、局部词组或空间邻近关系。
  • padding 与 stride:控制边界保留、特征图尺寸和信息压缩速度。
  • pooling:通过 max / average pooling 压缩局部信息,提升平移不变性。
  • feature map 与 receptive field:解释模型看到的是局部窗口还是更大范围的组合特征。

科研场景

在经管社科中可用于遥感图像、夜间灯光、街景、地理栅格、票据图像、合同版式或文本局部特征抽取。

边界与风险

CNN 对长距离依赖和复杂语义关系不够自然,通常需要与序列模型、注意力机制或预训练模型结合。

练习连接

用一个小型分类任务比较手工特征、CNN 特征和预训练嵌入的差异,重点看过拟合、可解释性和样本量要求。

RNN / LSTM / GRU 序列模型

RNN 家族解决的是“如何让模型带着记忆读序列”的问题。LSTM 和 GRU 通过门控机制缓解普通 RNN 在长序列中遗忘过快、梯度消失和长期依赖困难的问题。

结构拆解
  • RNN hidden state:把前一时刻信息传给下一时刻,适合按时间展开的数据。
  • LSTM 输入门、遗忘门、输出门:决定写入、保留和输出哪些记忆。
  • GRU 更新门、重置门:用更轻量的结构控制短期与长期信息。
  • 双向序列建模:同时利用前文和后文信息,适合文本标注和序列分类。

科研场景

适合企业经营轨迹、金融时间序列、用户行为序列、政策文本演化和事件历史数据。

边界与风险

序列模型训练较慢,长文本并行效率较低;当文本非常长或依赖关系复杂时,Transformer 通常更合适。

练习连接

用面板或文本序列构造一个预测任务,比较滞后变量、LSTM 与 GRU 在样本外表现和解释成本上的差异。

seq2seq 与 Encoder-Decoder

seq2seq 把一个输入序列映射成一个输出序列,是翻译、摘要、问答、代码生成和研究报告生成的早期核心框架。

结构拆解
  • Encoder:把输入文本、代码或变量说明转化为上下文表示。
  • Decoder:按步骤生成输出,每一步依赖已生成内容和上下文表示。
  • teacher forcing:训练时用真实前序 token 帮助模型学习稳定生成。
  • greedy search / beam search:推理时在速度、质量和多样性之间权衡。

科研场景

能解释“把自然语言研究任务转成代码”“把回归表转成文字说明”“把文献段落转成摘要”的基本机制。

边界与风险

早期 seq2seq 容易把全部信息压到一个瓶颈表示中,长文本效果受限,因此需要注意力机制改进。

练习连接

把一段变量定义或实证任务说明转成结构化 JSON / Python 伪代码,观察生成错误如何出现以及如何验证。

注意力机制

注意力机制解决的是“当前生成或判断时,应该看输入中的哪一部分”的问题。它通过 query、key、value 计算相关性权重,使模型能动态选择信息来源。

结构拆解
  • Q/K/V:query 提出当前问题,key 描述可检索位置,value 承载实际信息。
  • scaled dot-product attention:用向量相似度计算关注权重并加权求和。
  • cross-attention:让输出端在生成时读取输入端信息。
  • attention weights:可帮助检查模型是否关注了合理位置,但不能直接等同于因果解释。

科研场景

适合长政策文本、论文段落、变量说明、访谈材料和多来源证据之间的关联建模。

边界与风险

注意力不是可靠的因果解释;长上下文会带来成本、噪音和检索错误,仍需要审计与引用。

练习连接

用一段政策文本定位与处理变量、时间窗口和样本限制相关的句子,训练如何把注意力结果转成可检查证据。

Transformer 模型架构

Transformer 用自注意力替代传统循环结构,使模型可以并行处理序列,并通过多头注意力同时捕捉不同关系类型。现代大语言模型基本都建立在这一架构之上。

结构拆解
  • tokenization 与 embedding:把文本、代码或符号变成向量表示。
  • positional encoding:补充顺序信息,让模型知道 token 的位置。
  • multi-head self-attention:在多个表示子空间中学习依赖关系。
  • feed-forward network、residual connection、LayerNorm:提升非线性表达、稳定训练和深层堆叠能力。

科研场景

用于论文阅读、政策文本编码、摘要生成、代码生成、表格解释、检索增强问答和 Agent 任务规划。

边界与风险

Transformer 学到的是统计关联和任务模式,不自动保证事实正确、因果识别正确或代码可运行。

练习连接

拆解一次 LLM 回答:输入如何被 token 化,模型如何生成,哪些部分需要 RAG、代码执行和人工确认。

大语言模型 LLM 与 Agent

LLM 先通过大规模 next-token pretraining 学会语言、代码和知识模式,再通过 instruction tuning、偏好对齐、RAG、function calling 和工具调用进入真实任务。

结构拆解
  • pretraining:用海量文本学习语言分布、常识关联和代码模式。
  • instruction tuning 与 alignment:让模型更会遵循任务、解释步骤并降低有害输出。
  • RAG:先检索外部资料,再把证据送入模型生成回答。
  • tool calling / MCP:让模型调用 Python、Stata、R、数据库、浏览器或 StatsPAI,而不是只生成自然语言。

科研场景

可辅助选题、读文献、写代码、查错、解释表格、生成报告草稿、组装复现包和协调多工具研究流程。

边界与风险

LLM 可能幻觉、误读数据、遗漏识别假设或生成不可复现结论;必须用日志、代码执行、引用、单元测试和人工审阅约束。

练习连接

把“完成一个实证分析”的自然语言任务拆成 Agent 计划,要求每一步留下文件、日志、结果和人工确认点。

作业与评估

课堂理解检查

20%

用 5 个诊断问题判断自己是否理解 Python、AI、因果推断和 Agent 的边界。

模型架构概念图

30%

把 CNN、LSTM、GRU、seq2seq、注意力机制、Transformer 和 LLM 放在一张图里,说明输入、信息流和输出。

个人后续学习计划

50%

根据自己的研究阶段列出接下来两周要补的工具、概念和项目文件。

结课成果

  • 一份个人研究工作流诊断表。
  • 一张 AI 与因果推断学习路线图。
  • 一份是否参加 4 天暑期班、以及应该重点听哪些模块的自我评估。

学习规范

  • 公开课鼓励带着真实研究问题参加,但课堂不会替代具体论文的一对一诊断。
  • 所有 AI 输出都需要回到数据、代码、文献和识别假设中验证。
  • 课程强调可复现研究,任何自动化流程都应保留中间文件和操作记录。