在评估大型语言模型(LLM)在数学能力方面的表现时,RM@N 和 Maj@N 是常用的两个指标,用于衡量模型在多次生成答案时的准确性和一致性。具体解释如下:
-
RM@N(Reference Match at N):
- 定义:RM@N 指的是在生成的前 N 个答案中,是否至少有一个答案与参考答案(即正确答案)匹配的比例。
- 作用:该指标用于评估模型生成多样化答案的能力,以及在多次尝试中包含正确答案的可能性。高 RM@N 值表明模型在多次生成过程中有较高的几率产生正确答案。
-
Maj@N(Majority Vote at N):
- 定义:Maj@N 指的是在生成的前 N 个答案中,通过多数投票(即选择出现次数最多的答案)所得到的最终答案的正确率。
- 作用:该指标用于评估通过集成多次生成结果来提升答案准确性的效果。高 Maj@N 值表明多数生成的答案倾向于正确,从而通过投票机制提高整体准确率。
示例应用:
- 假设一个数学问题的正确答案是 42。
- 模型生成了 5 个答案(N=5):40, 42, 41, 42, 39。
- RM@5:检查这 5 个答案中是否包含 42,结果为是,因此 RM@5 = 1(或 100%)。
- Maj@5:42 出现了 2 次,其余答案各出现 1 次,没有绝对多数,但如果有一个答案出现的次数超过其他所有答案的总和,则该答案被选为多数票。根据具体实现,可能需要设定阈值或处理平局情况。
通过同时使用 RM@N 和 Maj@N,可以全面评估模型在多次生成答案时的稳定性和准确性,从而更准确地衡量其数学问题解决能力。