01. NLP 导论与历史

官方 PPT 来源

核心问题

intro slides 5：课程学习目标强调现代 NLP 中深度学习方法的基础，以及 2025 左右常用的 pretraining、post-training、efficient adaptation 等主题。
history slides 3-23：早期 NLP 与机器翻译、Dartmouth AI、McCulloch-Pitts neuron、perceptron、information retrieval 和 1960s NLP。
history slides 24-31：手工构建的 symbolic NLP 系统，以及形式语法、unification-based grammar、knowledge representation。
history slides 32-37：Statistical NLP 的兴起，核心转向 annotated data、probabilistic modeling 和 machine learning。
history slides 38-57：深度学习、word vectors、RNN encoder-decoder、LSTM、NMT、LLM 和 generative AI。

早期机器翻译是 NLP/Computational Linguistics 的重要起点，但 ALPAC report 之后，纯机器翻译热潮受到冲击。
Symbolic AI 强调语言结构、规则和知识表示；它能表达复杂结构，但手工构建和覆盖真实语言现象很困难。
Statistical NLP 把语言问题改写成概率预测问题，依赖标注数据、统计建模和学习算法。
Deep Learning for NLP 让模型通过向量表示和神经网络学习语言模式，课程 PPT 用 word vectors、RNN encoder-decoder、LSTM 和 NMT 展示这条过渡。
LLM 阶段把 language model 的 next-token prediction 放大到大规模数据和模型上，并带来 ChatGPT 之后的 generative AI 浪潮。

能说清楚 NLP 的四个历史阶段：early explorations、hand-built symbolic systems、StatNLP、deep learning/LLMs。
能解释为什么 word vectors 是从符号词项到神经表示的重要转折。
能把 RNN encoder-decoder、LSTM、NMT 和 LLM 放到同一条历史线上理解。

CS224n 的主线不是“学会调包做 NLP”，而是理解现代 NLP 模型为什么长成现在这样。

第 1 讲导论 PPT 里给出的学习目标可以概括为：

所以后面的每讲都在回答一个递进问题：

词义怎么表示？
句子怎么建模？
上下文怎么长期保存？
注意力为什么取代 RNN？
模型为什么要预训练？
模型怎么变成助手？
模型怎么检索、调用工具、推理和评测？

NLP 的起点之一是 machine translation。早期研究者希望把一种语言自动翻译成另一种语言。

这个阶段有两个特点：

Dartmouth AI 之后，AI 和 NLP 都经历了早期乐观时期。但机器翻译很快暴露出语言复杂性：词义、句法、世界知识和上下文都不是简单替换表能解决的。

1970-1992 左右，很多 NLP 系统依赖 hand-built symbolic rules。

这类方法把语言看成符号结构，强调：

优点是可解释，能表达明确结构。缺点是：

1990s 开始，NLP 大量吸收 speech recognition 和 electrical engineering 中的概率建模思想。

核心变化：

从人工规则 -> 数据 + 概率 + 学习算法

语言问题开始被写成预测问题：

这一阶段的关键是 annotated data、probabilistic prediction 和 machine learning。

Deep learning 进入 NLP 后，一个关键转折是 distributed representation。

词不再只是离散 ID，而是向量：

banking -> [0.286, 0.792, ...]

这让模型可以表达相似性和连续变化。RNN encoder-decoder、LSTM、NMT 等模型进一步把整个句子也变成神经网络可处理的表示。

PPT 把 LLM 放在语言模型历史中理解：language model 的核心是 next-token prediction。

大语言模型把这个目标扩展到：

ChatGPT 之后，LLM 不只是 NLP 模型，也成为通用 AI interface。

不要把历史当背景八卦。历史告诉你每个模型在解决什么旧问题：