跳转至

10. 基准测试与评测

官方 PPT 来源Lecture 11 官方 PPT:Evaluation

这一页对应站点第 10 个正式课堂主题,来源是 CS224n Winter 2026 的官方 Lecture 11。不要把“评测”理解成课后算一个分数,它实际上决定了模型研究会朝哪里走:谁上榜、谁被认为更强、谁拿到更多关注,往往都由 benchmark 和 metric 塑造。

0. 这一讲要学会什么

学完这一讲,你应该能回答五个问题:

  • 为什么 benchmark 和 leaderboard 能推动 NLP 进步,也会很快失效?
  • 一个好的 benchmark 需要满足哪些条件,为什么“题多”不等于“题好”?
  • 为什么很多模型会在 benchmark 上“答对但理由错”?
  • BLEU、ROUGE、BERTScore、人类评测、LLM-as-a-judge 分别适合什么,不适合什么?
  • 为什么数据污染、Goodhart's law 和 prompt formatting 会让 LLM 评测变得不可靠?

PPT 的整体脉络可以压缩成一句话:

评测不是给模型贴标签,而是在定义我们希望模型优化什么。

Benchmarks and leaderboards drive progress

1. Benchmark、Metric、Leaderboard 不是一回事

先把三个词分清:

  • Benchmark:一组任务和数据,用来测某类能力。比如阅读理解、自然语言推理、多学科问答、数学推理、开放生成。
  • Metric:把模型输出变成分数的规则。比如 accuracy、F1、BLEU、BERTScore、人类偏好胜率。
  • Leaderboard:把很多模型在同一个 benchmark 和 metric 下的结果排序。

这三者会互相影响。一个 leaderboard 一旦有影响力,研究者就会优化它;优化久了,benchmark 会被模型“吃透”,分数会饱和,甚至可能被训练数据污染。PPT 用“benchmark 爆炸式增长、保质期变短、人类不再是性能天花板”来概括最近 LLM 评测的变化。

对初学者最重要的判断是:一个分数只说明模型在某个数据、某个提示格式、某个评分脚本下表现如何,不自动等于模型真正理解了任务。

2. 从 GLUE 到 HLE:benchmark 越来越难,也越来越脆弱

PPT 先回顾了一批常见 benchmark。它们不是同一种东西,而是在不同阶段被用来回答不同问题。

2.1 GLUE 和 SuperGLUE:标准化语言理解

GLUE 和 SuperGLUE 把多个已有语言理解任务重新整理成统一评测。SuperGLUE 包含 BoolQ、MultiRC、CB、RTE、COPA、ReCoRD、WiC、WSC 等任务,覆盖常识推理、词义消歧、指代消解、文本蕴含等能力。

GLUE and SuperGLUE tasks

这类 benchmark 的贡献是“标准化”:大家终于能在同一组任务上比较模型。但它的局限也很明显:任务本身仍然是有限的,模型刷高分后,不代表它拥有开放世界的可靠推理能力。

2.2 MMLU:从语言理解到多学科知识

MMLU 把评测扩展到 57 个学科任务,难度覆盖高中到大学水平。它不再只是问模型能不能理解一句话,而是问模型是否掌握大量学科知识。

MMLU as a broad knowledge benchmark

这也是为什么 MMLU 常被用于观察预训练和后训练阶段的模型能力变化。不过,知识类 benchmark 的风险是:题目公开后,训练语料可能包含测试题,模型高分可能来自记忆,而不是泛化。

2.3 GPQA 与 HLE:把题目推向专家难度

GPQA 强调 graduate-level 和 Google-proof,也就是研究生级别、不能靠简单搜索直接回答的问答。PPT 提到,GPQA 在 2023 年发布时看起来很难,但到 2024 年已有模型达到很高表现。

HLE,Humanity's Last Exam,则进一步把评测推向更高难度的知识和推理题。这个趋势说明:当模型越来越强,benchmark 必须持续更新,否则很快失去区分度。

Good benchmark desiderata

3. 好 benchmark 的三个核心要求

PPT 对高影响力 benchmark 的要求可以整理为三类:覆盖、难度、质量。

3.1 Scale and diversity:要覆盖你声称要测的现象

如果 benchmark 声称评测“阅读理解”,就不能只测短句里的词面匹配;如果声称评测“数学推理”,就不能只测模板化加减乘除。复杂能力通常由很多子能力组成,所以样本需要足够多、类型需要足够多样。

规模不是越大越好。规模大的坏数据只会让分数更稳定地误导我们。真正有价值的是:样本覆盖了关键现象,并且每类样本足够多,能让模型不能靠一个捷径过关。

3.2 Difficulty:对人类足够清楚,对模型足够困难

一个题目如果人类专家也无法判断正确答案,它不适合做可靠 benchmark。一个题目如果最弱的模型都能轻松答对,它也没有区分度。

所以好 benchmark 需要一个平衡:对人或专家来说答案明确,对当前强模型来说仍有挑战。

3.3 Quality:答案必须真的对,不能靠伪相关取胜

质量问题包括:

  • 标准答案是否真的正确。
  • 题目是否存在多种合理答案却只接受一种。
  • 数据是否包含标注者习惯造成的表面线索。
  • 模型是否可以不理解任务,仅靠词面重叠、位置、否定词、实体替换等捷径得分。

PPT 的提醒很尖锐:AI 可能“考试做对了,但原因完全错了”。评测设计如果不检查这种情况,就会把虚假的能力当成真实进步。

4. SQuAD 的例子:大数据集也会有捷径

SQuAD 1.0 是经典阅读理解 benchmark,包含十万级人工问题,答案是文章中的文本 span。SQuAD 2.0 加入了不可回答问题,让模型不仅要找答案,还要判断“文章里没有答案”。

SQuAD and SQuAD 2.0

SQuAD 的创新很重要:它让阅读理解评测更大规模、更标准化,也让 span-based 评测成为主流。但 PPT 随后说明,即使 SQuAD 这样成功的 benchmark,也会出现 spurious bias。

5. Spurious Bias:模型会学会“题目里的小抄”

Spurious bias 可以翻译为伪相关偏差。它指数据里存在一些与答案相关但不是任务本质的线索。模型可能利用这些线索得高分,却没有学到真正能力。

5.1 Lexical overlap bias:词面重叠捷径

在阅读理解中,众包标注者看到段落后写问题,往往会复用答案句里的词。结果是:包含答案的句子和问题之间词面重叠很高。模型于是可以学到一个捷径:找与问题重叠词最多的句子。

Lexical overlap bias in reading comprehension

Jia and Liang 的 adversarial distractor 研究展示了这个问题:只要给文章加一句很像问题但答案错误的干扰句,模型准确率就会大幅下降。这说明模型原本可能不是在读懂文章,而是在做匹配。

5.2 Position bias:答案常在开头

Wikipedia 风格段落常把关键信息放在前几句。模型如果发现“答案经常在开头”,就可能过度依赖位置,而不是理解问题和上下文。

这类偏差很隐蔽。因为在正常测试集上,模型看起来分数很高;只有当我们构造打破这种规律的新样本时,模型才暴露问题。

5.3 Annotation artifacts:标注方式本身留下线索

PPT 还提到不可回答问题中的 artifacts。例如标注者为了把问题改成不可回答,可能插入否定词,或者替换实体。模型可能学到“看到某类否定或实体替换,就猜不可回答”,而不是判断文章是否真的支持答案。

这就是为什么评测不能只看最终 accuracy,还要问:模型是凭什么答对的?

6. HANS:专门诊断 NLI 的句法捷径

HANS 是一个 diagnostic test set,用来检查自然语言推理模型是否依赖简单句法启发式。

HANS syntactic heuristics

它测试三类常见捷径:

  • Lexical overlap heuristic:如果 hypothesis 的词都出现在 premise 里,就猜 entailment。
  • Subsequence heuristic:如果 hypothesis 是 premise 的连续子序列,就猜 entailment。
  • Constituent heuristic:如果 hypothesis 是 premise 的一个成分,就猜 entailment。

这些启发式在部分样本上有效,但不是逻辑蕴含的定义。HANS 的价值在于,它不是只给一个总分,而是问模型是否真的掌握了某类能力。

7. Adversarial 与 Dynamic Benchmark:让数据跟着模型变

如果 benchmark 是固定的,模型和研究者迟早会过拟合它。PPT 因此介绍了 adversarial 和 dynamic benchmark。

7.1 ANLI:model-in-the-loop 数据收集

ANLI 的思路是把模型放进数据收集流程:人类写样本,模型尝试回答,人类专门构造能骗过模型的例子,再验证并进入下一轮训练与评测。

Adversarial NLI model-in-the-loop

这样做的重点不是“为难模型”,而是暴露模型当前不会的能力。静态 benchmark 更像一次考试,adversarial benchmark 更像不断更新的训练场。

7.2 Dynabench:benchmark 可以动态演化

Dynabench 进一步把 model-in-the-loop 扩展成动态平台。人类不断发现模型失败样本,模型不断更新,benchmark 也随之更新。

Dynamic benchmarks

这类方法能延长 benchmark 的寿命,但也带来新的复杂度:数据收集更贵,版本更多,跨版本分数比较更难。

7.3 Behavioral benchmarks:评测模型行为倾向

LLM 不只是答题机器,它还会表现出某些行为倾向。PPT 提到 sycophancy、honesty、people-pleasers、opinions 等 behavioral benchmarks。

Behavioral benchmarks

这些 benchmark 关心的是模型是否迎合用户、是否诚实、是否在没有根据时表达观点。这类能力很难用单一正确答案评测,因此后面会引出 reference-free、人类评测和 LLM-as-a-judge。

8. 先看答案类型,再选 metric

PPT 很强调一点:不是所有任务都能用同一个 metric。答案形式越开放,评测越难。

Answer types determine evaluation complexity

8.1 Multiple-choice QA:最容易自动评分

多选题只需要判断选项是否正确,accuracy 就很直接。GLUE、MMLU、TruthfulQA、GPQA Diamond、HLE 的选择题部分都可以这样评。

它的缺点是:模型可能靠选项模式、排除法、格式偏差取胜;而且多选题不能完全代表真实生成能力。

8.2 Short-answer QA:需要处理等价表达

短答案可能是文本 span、数字、公式或表达式。SQuAD、AIME、FrontierMath、HLE 的短答案部分属于这一类。

如果答案是数字,exact match 比较可靠;如果答案是自然语言 span,就要考虑大小写、标点、同义表达、别名和实体格式。

8.3 Sentence 或 Long-form answer:没有唯一标准答案

翻译、摘要、改写、图像描述、长文写作、开放对话都没有唯一正确答案。一个输出可能和参考答案词面不同,却更准确、更自然;另一个输出可能词面很像,却事实错误。

因此,生成任务评测的核心困难是:我们真正关心的是语义、事实性、有用性和风格,但很多自动指标只能看表面。

9. 经典 model-free metrics:快、可复现,但容易看不懂语义

PPT 把 BLEU、ROUGE、METEOR、CIDEr、TER、WER 放在一起讲。它们的共同点是:不依赖一个大型 judge 模型,通常用字符串、n-gram、编辑距离或统计权重来算分。

Classical metrics and BLEU

9.1 BLEU:以 precision 为核心的 n-gram overlap

BLEU 最初主要用于机器翻译。它问的是:生成文本里的 n-gram,有多少也出现在参考答案里?

PPT 给出的形式是:

\[ \mathrm{BLEU}=BP \cdot \exp \left(\sum_{n=1}^{N}w_n\log p_n\right) \]

其中 \(p_n\) 是 clipped n-gram precision:

\[ p_n = \frac{ \sum_{\text{n-gram}\in c} \min(\mathrm{Count}(\text{n-gram}, c), \mathrm{Count}(\text{n-gram}, ref)) }{ \sum_{\text{n-gram}\in c} \mathrm{Count}(\text{n-gram}, c) } \]

\(BP\) 是 brevity penalty,用来惩罚过短输出:

\[ BP = \begin{cases} 1, & |c|>|r| \\ \exp(1-|r|/|c|), & |c|\le |r| \end{cases} \]

通常 \(N=4\),且 \(w_n=1/N\)

BLEU 的直觉是:好的翻译应该和参考翻译有很多短语重合,同时不能通过输出很短的常见词来骗高分。

9.2 ROUGE、METEOR、CIDEr、TER、WER

  • ROUGE 更偏 recall,常用于摘要,问参考答案里的内容有多少被生成文本覆盖。
  • METEOR 引入 stemming 和 synonymy,比纯 BLEU 更接近人类语义判断。
  • CIDEr 用 TF-IDF 权重衡量多个参考描述之间的共识,常用于图像描述。
  • TER 衡量把模型输出改成参考答案需要多少编辑操作。
  • WER 是 ASR 中常见的 word error rate。

这些指标的优点是快、稳定、可复现。缺点也很清楚:它们主要看表面形式,很难理解事实、逻辑和语义等价。

9.3 n-gram overlap 的根本问题

PPT 用例子说明,n-gram 指标没有真正的 semantic relatedness。两个语义等价的回答可能词面完全不同,分数很低;两个语义相反的回答可能词面相似,分数反而高。

N-gram metrics fail on semantics

这不是 BLEU “写得不好”,而是它的设计目标决定的:它只知道 token overlap,不知道世界知识、否定、事实一致性和语用含义。

10. Model-based metrics:让模型帮我们比较语义

为了超越词面匹配,PPT 转向 model-based metrics。核心思路是用模型表示句子或 token 的语义,再比较相似度。

10.1 BERTScore:BLEU/ROUGE 的软匹配版本

BERTScore 用 contextual embeddings 表示 reference 和 candidate,然后用 cosine similarity 做软匹配。

BERTScore formula

它的 precision 形式是:

\[ P_{\text{BERT}} = \frac{1}{|C|} \sum_{c_j\in C} \max_{r_i\in R} \cos(c_j, r_i) \]

recall 形式是:

\[ R_{\text{BERT}} = \frac{1}{|R|} \sum_{r_i\in R} \max_{c_j\in C} \cos(r_i, c_j) \]

再组合成:

\[ F_{\text{BERT}} = 2 \cdot \frac{P_{\text{BERT}}R_{\text{BERT}}} {P_{\text{BERT}}+R_{\text{BERT}}} \]

直觉上,BLEU 要求词面完全匹配,BERTScore 允许语义相近的词或短语匹配。因此它更适合处理同义表达。

10.2 其他 model-based metrics

PPT 还提到:

  • Word Mover's Distance:把词嵌入之间的移动成本看成距离,类似 Earth Mover's Distance。
  • BLEURT:训练一个模型去模仿人类评测。
  • Vector similarity:直接比较句向量或文本向量。

这些方法比 n-gram 更懂语义,但它们不是免费午餐。

Concerns of model-based metrics

主要风险包括:

  • metric 模型自身有偏差和能力上限。
  • 对 factual error 或 hallucination 可能不敏感。
  • 跨领域不一定校准。
  • 计算成本更高,可复现性更差。
  • 可能偏爱更长、更流畅的输出。
  • 与人类判断不一定稳定一致。

所以 model-based metric 的正确用法不是“模型说好就好”,而是把它当成比词面匹配更强但仍需验证的工具。

11. 信息论指标:用 entropy、divergence 看多样性和分布差异

PPT 还介绍了 information-theoretic metrics。它们不是直接问单个答案是否正确,而是看一批样本的分布性质。

11.1 Shannon entropy:平均惊讶程度

Shannon entropy 衡量一个离散分布的不确定性:

\[ H(X)=-\sum_{i=1}^{n}p_i\log p_i \]

如果一个模型总是生成同一种回答,entropy 低;如果它能生成很多不同回答,entropy 高。理论上可以用 entropy 衡量 diversity,但实际中生成文本是高维连续对象,不容易直接定义概率分布。

11.2 Von Neumann entropy 与 Vendi Score

PPT 用 Von Neumann entropy 处理样本间相似度矩阵。先把相似度矩阵 \(K\) 归一化:

\[ \hat{K}=K/\mathrm{tr}(K) \]

再看其特征值的 entropy:

\[ S(\hat{K})= -\mathrm{tr}(\hat{K}\log\hat{K}) =-\sum_i \hat{\lambda}_i\log \hat{\lambda}_i \]

Vendi Score 定义为:

\[ \mathrm{Vendi}=\exp S(\hat{K}) \]

直觉是:如果样本彼此很像,有效多样性低;如果样本覆盖很多方向,有效多样性高。

Entropy and diversity metrics

Vendi Score for diversity

11.3 KL divergence 与 MAUVE

KL divergence 衡量两个分布的差异:

\[ D_{\mathrm{KL}}(P\|Q)= \sum_i p_i \log \frac{p_i}{q_i} =H(P,Q)-H(P) \]

理论上,我们可以用它比较 LLM 生成语言和人类语言的分布差异。但实际问题是:文本分布高维、连续、复杂,直接计算不可行。如果两个分布的 support 不重合,还会出现除零或不稳定问题。

MAUVE 的思路是先把文本样本嵌入到神经向量空间,再用 k-means 离散化成 cluster,最后在 cluster 分布上估计 divergence frontier。

MAUVE quantization

这类指标适合比较整体生成分布,比如一个解码算法是否比另一个更接近人类文本,但不适合单独判断某个回答是否正确。

12. Reference-based 与 Reference-free:有没有标准答案

很多传统指标都是 reference-based:给定一个或多个 gold answers,模型输出越接近参考答案,分数越高。

PPT 指出,reference-based evaluation 长期是标准做法,但它会失败:

  • 参考答案质量不高,模型被迫贴近低质量答案。
  • 参考答案没有覆盖所有合理答案,模型的好回答被误判。
  • 模型过拟合参考答案的表面风格,实际质量没有提高。

因此,reference-free evaluation 变得越来越重要。它不依赖 gold answer,而是直接评估输出和输入、事实源、视觉内容或任务要求之间是否一致。

Reference-free metrics

PPT 中的例子包括:

  • COMETKiwi / QE:不用参考译文,直接评估翻译质量。
  • FActScore:把长文本拆成 atomic claims,再用知识源验证。
  • CLIPScore:评估图像和 caption 的视觉文本一致性。
  • SelfCheckGPT:通过同一模型多次采样的一致性检测幻觉。
  • G-Eval:用 LLM-as-a-judge 和 CoT 来评估 coherence、helpfulness 等维度。

reference-free 的优势是能处理开放任务;风险是评分器本身更复杂,也更可能引入不可见偏差。

13. Human Evaluation:理想标准也会出问题

PPT 说,所有 automatic metrics 都有不足,因此 human evaluation 长期被看作 ultimate ideal。新的自动指标如果要证明自己有效,通常需要展示它与人类评测高度相关。

Human evaluation pitfalls

但人类评测也有明显问题:

  • 成本高,扩展性差。
  • 主观性强,不同标注者一致性有限。
  • 不同研究的 human evaluation 不能随便横向比较。
  • 人类会被表面流畅性、看似合理的解释、输出长度等因素影响。

PPT 给出的正确做法是:

  • 明确定义 rubric,比如 correctness、fluency、originality。
  • 和标注者一起过很多例子。
  • 讨论并校准边界情况。
  • 计算 inter-rater agreement。

How to do human evaluation right

因此,人类评测不是“找几个人看一看”这么简单。它本身也是一个实验设计问题。

14. Chatbot Arena:更接近真实用户,但也不是万能榜单

Chatbot Arena 的思路是让用户对两个匿名模型输出做偏好比较,再用大量 pairwise preferences 估计模型排名。

Chatbot Arena pros and cons

它的优点是比很多固定测试集更接近真实使用场景。用户会问各种开放、奇怪、具体的问题,这能暴露模型在真实交互中的表现。

它的缺点也来自这里:

  • 用户问题分布不受控,可能包含大量奇怪或低质量 query。
  • 新模型进入榜单需要时间和大量评价。
  • 只有知名模型更容易被充分评测。
  • 随机网站用户的偏好不一定代表专业任务需求。
  • 用户可能偏爱更长、更自信、更会聊天的回答,而不是更正确的回答。

所以 Arena 排名有参考价值,但不能等同于“模型在所有任务上更强”。

15. LLM-as-a-Judge:把模型变成评卷人

随着开放生成任务越来越多,LLM-as-a-judge 成为常见评测方式。它用一个强模型读取任务、模型输出和评分标准,然后给出分数或偏好。

LLM as a judge

优点很直接:

  • 成本远低于大规模人类评测。
  • 可扩展到大量开放回答。
  • LLM 通常能按 rubric 给出结构化评价。

但 PPT 也列出关键缺陷:

  • Self-preference / nepotism bias:judge 可能偏爱自己或相似模型的输出。
  • Verbosity bias:更长、更像解释的回答可能被高估。
  • Vibe checking 强,细微逻辑错误弱:judge 可能擅长判断“感觉好不好”,但漏掉严谨推理问题。
  • 强 judge 模型成本仍然高。

15.1 怎么把 LLM judge 做得更可靠

PPT 给出的方向是:

  • 给清晰 instructions、examples、rubrics。
  • 让多个 judge 讨论或互相校准。
  • 使用 LLMs as juries,也就是一组多样 judge 组成 panel。
  • 聚合多模型判断,提高 robustness,同时可能用较小模型降低成本。

LLM as a jury

这里的核心思想和人类评测类似:不要相信单个评卷人的直觉,要设计评分协议。

16. Goodhart's Law:当指标变成目标,指标会失真

PPT 引用 Goodhart's law:

when a measure becomes a target, it ceases to be a good measure

意思是:一个指标原本只是能力的代理变量;一旦所有人都直接优化这个指标,它就可能不再代表真实能力。

Goodhart's law

在 LLM 评测里,这会表现为:

  • 模型专门优化 benchmark 格式,而不是通用能力。
  • 训练数据里混入测试题,导致分数虚高。
  • 输出迎合 judge 偏好,而不是更真实、更可靠。
  • 研究目标从“解决真实问题”变成“刷某个榜”。

所以评测体系需要不断更新,也需要多个互补指标,而不是把一个分数当作全部真相。

17. Data Contamination:测试题可能已经进了训练集

大语言模型通常用互联网数据预训练,而 benchmark 题目、解答、讨论、复现代码也可能公开在互联网上。PPT 的问题是:我们怎么知道模型没见过测试集?

Training data contamination

这个问题对闭源模型尤其严重:外部研究者很难知道训练数据里有什么,也很难确认数据清洗是否排除了 benchmark。

17.1 Data de-contamination 怎么做

PPT 提到的实践包括:

  • 用 n-gram overlap 检查训练数据和 benchmark 样本之间的 exact 或 near-exact 重叠。
  • 常见做法会检查 8 到 13 gram 级别的匹配。
  • 有时结合 embedding-based 或 paraphrase-based near-duplicate detection。

Data de-contamination

但这只能降低风险,不能彻底证明没有污染。特别是 synthetic data 也可能把公开 benchmark 内容重新改写后带入训练。

18. Generator-validator gap:会生成不等于会验证

PPT 还提醒,模型能生成答案,不代表它能稳定验证答案。所谓 generator-validator gap,是指模型在生成任务和判断任务上的能力不一致。

Generator-validator gap

这会影响评测设计。比如用一个模型做 judge 时,它可能能写出看似合理的解释,却不一定能发现候选答案中的细微错误。对于需要严格验证的任务,不能只靠流畅解释。

19. Prompt Formatting:评测协议本身也会改变结果

最后,PPT 强调 prompt formatting matters。模型表现可能因为评测提示的细节发生巨大变化。

Prompt formatting matters

会影响结果的因素包括:

  • zero-shot 还是 few-shot。
  • few-shot 给几个例子。
  • 是否使用 CoT。
  • 分隔符、大小写、空格等微小格式。
  • 答案抽取脚本如何从输出中解析最终答案。

这意味着评测论文或报告必须写清楚 prompt、采样参数、答案解析方式和 scoring script。否则别人很难复现,也很难判断分数差异来自模型能力还是评测格式。

20. 从这一讲形成的评测工作流

以后你看到一个 LLM benchmark 结果,可以按这条清单检查:

  1. 任务是什么:它到底测的是知识、推理、指令遵循、对话偏好、事实性,还是安全行为?
  2. 答案类型是什么:多选、短答案、长文本、开放对话,对应的评分难度完全不同。
  3. metric 是什么:accuracy、BLEU、BERTScore、人类偏好、LLM judge 各自意味着什么?
  4. 有没有伪相关:模型能不能靠词面重叠、位置、格式、选项模式得分?
  5. 有没有数据污染:测试题是否公开,训练数据是否可能包含它?
  6. prompt 是否固定且公开:不同 prompt 会不会让排名改变?
  7. 结果是否过度泛化:某个榜单高分是否被错误解释成“模型全面更强”?

21. 本讲复习题

  1. Benchmark、metric、leaderboard 三者有什么区别?
  2. 为什么 GLUE / SuperGLUE 高分不等于模型具备开放世界推理能力?
  3. SQuAD 中的 lexical overlap bias 如何让模型答对但理由错?
  4. HANS 为什么不是普通测试集,而是 diagnostic test set?
  5. BLEU 的 \(BP\)\(p_n\) 分别在惩罚什么?
  6. 为什么 BERTScore 比 BLEU 更懂语义,但仍可能漏掉事实错误?
  7. Reference-based evaluation 在开放生成任务中会遇到什么问题?
  8. Human evaluation 为什么不能直接跨论文比较分数?
  9. LLM-as-a-judge 有哪些偏见?为什么可以考虑 LLMs as juries?
  10. Goodhart's law 和 data contamination 分别怎样破坏 benchmark 的可信度?
  11. 为什么 prompt formatting 是评测协议的一部分,而不是无关细节?