01. NLP 导论与历史
官方 PPT 来源
- 第 1 讲导论 PPT
- 第 1 讲历史 PPT
- 本页只整理上述官方 PPT 中的 NLP 正式课堂内容;课程评分、作业安排等行政信息不纳入笔记。
核心问题
- NLP 的研究范式为什么会从早期规则、手工系统,转向统计学习、深度学习和大语言模型?
- 现代 NLP 课程要掌握的主线是什么:深度学习基础、预训练、后训练、高效适配、RAG、Agent、评测和推理。
- 语言既有符号结构,又能被神经网络以向量和概率方式建模;CS224n 的历史梳理就是围绕这条张力展开。
PPT 脉络
introslides 5:课程学习目标强调现代 NLP 中深度学习方法的基础,以及 2025 左右常用的 pretraining、post-training、efficient adaptation 等主题。historyslides 3-23:早期 NLP 与机器翻译、Dartmouth AI、McCulloch-Pitts neuron、perceptron、information retrieval 和 1960s NLP。historyslides 24-31:手工构建的 symbolic NLP 系统,以及形式语法、unification-based grammar、knowledge representation。historyslides 32-37:Statistical NLP 的兴起,核心转向 annotated data、probabilistic modeling 和 machine learning。historyslides 38-57:深度学习、word vectors、RNN encoder-decoder、LSTM、NMT、LLM 和 generative AI。
关键概念
- 早期机器翻译是 NLP/Computational Linguistics 的重要起点,但 ALPAC report 之后,纯机器翻译热潮受到冲击。
- Symbolic AI 强调语言结构、规则和知识表示;它能表达复杂结构,但手工构建和覆盖真实语言现象很困难。
- Statistical NLP 把语言问题改写成概率预测问题,依赖标注数据、统计建模和学习算法。
- Deep Learning for NLP 让模型通过向量表示和神经网络学习语言模式,课程 PPT 用 word vectors、RNN encoder-decoder、LSTM 和 NMT 展示这条过渡。
- LLM 阶段把 language model 的 next-token prediction 放大到大规模数据和模型上,并带来 ChatGPT 之后的 generative AI 浪潮。
复习清单
- 能说清楚 NLP 的四个历史阶段:early explorations、hand-built symbolic systems、StatNLP、deep learning/LLMs。
- 能解释为什么 word vectors 是从符号词项到神经表示的重要转折。
- 能把 RNN encoder-decoder、LSTM、NMT 和 LLM 放到同一条历史线上理解。
自学讲义
1. 这门课到底学什么?
CS224n 的主线不是“学会调包做 NLP”,而是理解现代 NLP 模型为什么长成现在这样。
第 1 讲导论 PPT 里给出的学习目标可以概括为:
- 掌握 deep learning applied to NLP 的基础方法。
- 理解 word vectors、neural networks、RNNs、attention、Transformers。
- 进入现代 NLP/LLM 的关键方法:pretraining、post-training、efficient adaptation 等。
所以后面的每讲都在回答一个递进问题:
2. 第一阶段:早期探索与机器翻译
NLP 的起点之一是 machine translation。早期研究者希望把一种语言自动翻译成另一种语言。
这个阶段有两个特点:
- 对语言规则和逻辑抱有很强信心。
- 计算资源和数据都很有限。
Dartmouth AI 之后,AI 和 NLP 都经历了早期乐观时期。但机器翻译很快暴露出语言复杂性:词义、句法、世界知识和上下文都不是简单替换表能解决的。
3. 第二阶段:手工符号系统
1970-1992 左右,很多 NLP 系统依赖 hand-built symbolic rules。
这类方法把语言看成符号结构,强调:
- 语法规则。
- 逻辑表示。
- 知识库。
- 推理规则。
优点是可解释,能表达明确结构。缺点是:
- 规则很难覆盖真实语言。
- 新领域需要大量人工适配。
- 模糊、歧义、例外现象太多。
4. 第三阶段:统计 NLP
1990s 开始,NLP 大量吸收 speech recognition 和 electrical engineering 中的概率建模思想。
核心变化:
语言问题开始被写成预测问题:
- 给定前文预测下一个词。
- 给定句子预测标签。
- 给定源语言句子预测目标语言句子。
这一阶段的关键是 annotated data、probabilistic prediction 和 machine learning。
5. 第四阶段:深度学习与词向量
Deep learning 进入 NLP 后,一个关键转折是 distributed representation。
词不再只是离散 ID,而是向量:
这让模型可以表达相似性和连续变化。RNN encoder-decoder、LSTM、NMT 等模型进一步把整个句子也变成神经网络可处理的表示。
6. 第五阶段:大语言模型
PPT 把 LLM 放在语言模型历史中理解:language model 的核心是 next-token prediction。
大语言模型把这个目标扩展到:
- 更大模型。
- 更多数据。
- Transformer 架构。
- 更强生成能力。
- post-training 后的助手行为。
ChatGPT 之后,LLM 不只是 NLP 模型,也成为通用 AI interface。
7. 学这门课的正确心法
不要把历史当背景八卦。历史告诉你每个模型在解决什么旧问题:
- Word vectors 解决 one-hot 无相似性。
- RNN 解决 fixed-window 无长历史。
- Attention 解决 RNN bottleneck。
- Transformer 解决 recurrence 的并行和长路径问题。
- Pretraining 解决标注数据规模不足。
- Post-training 解决语言模型不等于助手。
自测题
- 为什么早期机器翻译很难靠词典替换解决?
- 符号系统和统计 NLP 的核心差别是什么?
- 词向量为什么是深度学习 NLP 的关键前置步骤?
- RNN encoder-decoder 和 NMT 在历史线上解决了什么问题?
- LLM 为什么可以被看成 language model 路线的延伸?