跳转至

01. NLP 导论与历史

官方 PPT 来源

核心问题

  • NLP 的研究范式为什么会从早期规则、手工系统,转向统计学习、深度学习和大语言模型?
  • 现代 NLP 课程要掌握的主线是什么:深度学习基础、预训练、后训练、高效适配、RAG、Agent、评测和推理。
  • 语言既有符号结构,又能被神经网络以向量和概率方式建模;CS224n 的历史梳理就是围绕这条张力展开。

PPT 脉络

  • intro slides 5:课程学习目标强调现代 NLP 中深度学习方法的基础,以及 2025 左右常用的 pretraining、post-training、efficient adaptation 等主题。
  • history slides 3-23:早期 NLP 与机器翻译、Dartmouth AI、McCulloch-Pitts neuron、perceptron、information retrieval 和 1960s NLP。
  • history slides 24-31:手工构建的 symbolic NLP 系统,以及形式语法、unification-based grammar、knowledge representation。
  • history slides 32-37:Statistical NLP 的兴起,核心转向 annotated data、probabilistic modeling 和 machine learning。
  • history slides 38-57:深度学习、word vectors、RNN encoder-decoder、LSTM、NMT、LLM 和 generative AI。

关键概念

  • 早期机器翻译是 NLP/Computational Linguistics 的重要起点,但 ALPAC report 之后,纯机器翻译热潮受到冲击。
  • Symbolic AI 强调语言结构、规则和知识表示;它能表达复杂结构,但手工构建和覆盖真实语言现象很困难。
  • Statistical NLP 把语言问题改写成概率预测问题,依赖标注数据、统计建模和学习算法。
  • Deep Learning for NLP 让模型通过向量表示和神经网络学习语言模式,课程 PPT 用 word vectors、RNN encoder-decoder、LSTM 和 NMT 展示这条过渡。
  • LLM 阶段把 language model 的 next-token prediction 放大到大规模数据和模型上,并带来 ChatGPT 之后的 generative AI 浪潮。

复习清单

  • 能说清楚 NLP 的四个历史阶段:early explorations、hand-built symbolic systems、StatNLP、deep learning/LLMs。
  • 能解释为什么 word vectors 是从符号词项到神经表示的重要转折。
  • 能把 RNN encoder-decoder、LSTM、NMT 和 LLM 放到同一条历史线上理解。

自学讲义

1. 这门课到底学什么?

CS224n 的主线不是“学会调包做 NLP”,而是理解现代 NLP 模型为什么长成现在这样。

第 1 讲导论 PPT 里给出的学习目标可以概括为:

  • 掌握 deep learning applied to NLP 的基础方法。
  • 理解 word vectors、neural networks、RNNs、attention、Transformers。
  • 进入现代 NLP/LLM 的关键方法:pretraining、post-training、efficient adaptation 等。

所以后面的每讲都在回答一个递进问题:

词义怎么表示?
句子怎么建模?
上下文怎么长期保存?
注意力为什么取代 RNN?
模型为什么要预训练?
模型怎么变成助手?
模型怎么检索、调用工具、推理和评测?

2. 第一阶段:早期探索与机器翻译

NLP 的起点之一是 machine translation。早期研究者希望把一种语言自动翻译成另一种语言。

这个阶段有两个特点:

  • 对语言规则和逻辑抱有很强信心。
  • 计算资源和数据都很有限。

Dartmouth AI 之后,AI 和 NLP 都经历了早期乐观时期。但机器翻译很快暴露出语言复杂性:词义、句法、世界知识和上下文都不是简单替换表能解决的。

3. 第二阶段:手工符号系统

1970-1992 左右,很多 NLP 系统依赖 hand-built symbolic rules。

这类方法把语言看成符号结构,强调:

  • 语法规则。
  • 逻辑表示。
  • 知识库。
  • 推理规则。

优点是可解释,能表达明确结构。缺点是:

  • 规则很难覆盖真实语言。
  • 新领域需要大量人工适配。
  • 模糊、歧义、例外现象太多。

4. 第三阶段:统计 NLP

1990s 开始,NLP 大量吸收 speech recognition 和 electrical engineering 中的概率建模思想。

核心变化:

从人工规则 -> 数据 + 概率 + 学习算法

语言问题开始被写成预测问题:

  • 给定前文预测下一个词。
  • 给定句子预测标签。
  • 给定源语言句子预测目标语言句子。

这一阶段的关键是 annotated data、probabilistic prediction 和 machine learning。

5. 第四阶段:深度学习与词向量

Deep learning 进入 NLP 后,一个关键转折是 distributed representation。

词不再只是离散 ID,而是向量:

banking -> [0.286, 0.792, ...]

这让模型可以表达相似性和连续变化。RNN encoder-decoder、LSTM、NMT 等模型进一步把整个句子也变成神经网络可处理的表示。

6. 第五阶段:大语言模型

PPT 把 LLM 放在语言模型历史中理解:language model 的核心是 next-token prediction。

大语言模型把这个目标扩展到:

  • 更大模型。
  • 更多数据。
  • Transformer 架构。
  • 更强生成能力。
  • post-training 后的助手行为。

ChatGPT 之后,LLM 不只是 NLP 模型,也成为通用 AI interface。

7. 学这门课的正确心法

不要把历史当背景八卦。历史告诉你每个模型在解决什么旧问题:

  • Word vectors 解决 one-hot 无相似性。
  • RNN 解决 fixed-window 无长历史。
  • Attention 解决 RNN bottleneck。
  • Transformer 解决 recurrence 的并行和长路径问题。
  • Pretraining 解决标注数据规模不足。
  • Post-training 解决语言模型不等于助手。

自测题

  1. 为什么早期机器翻译很难靠词典替换解决?
  2. 符号系统和统计 NLP 的核心差别是什么?
  3. 词向量为什么是深度学习 NLP 的关键前置步骤?
  4. RNN encoder-decoder 和 NMT 在历史线上解决了什么问题?
  5. LLM 为什么可以被看成 language model 路线的延伸?