2026/5/14 3:12:40
网站建设
项目流程
上海集团网站制作,手机网站制作报价表,网站制作公司 云南,做任务反佣金的网站总结
本文的重点是 “答案验证”#xff0c;它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。
传统的验证方法主要使用正则表达式进行简单的字符串匹配#xff0c;或使用通用 LLM 作为决策者。
然而#xff0c;前者需要定制规则#xff0c;缺乏灵活性#xff0c;而…总结本文的重点是 “答案验证”它对于评估 LLM 的性能和设计强化学习中的奖励至关重要。传统的验证方法主要使用正则表达式进行简单的字符串匹配或使用通用 LLM 作为决策者。然而前者需要定制规则缺乏灵活性而后者则需要针对具体任务进行及时调整极易产生错觉和误判。另一个制约因素是缺乏能够全面评估复杂问题和各种解决方案格式的综合基准。为了解决这些问题作者建立了一个名为 VerifierBench 的新评估平台并开发了一个名为 CompassVerifier 的轻量级高精度验证模型。这实现了包括数学、知识和推理在内的多学科答案验证并提出了一个强大的框架不仅能准确识别错误答案还能识别无效答案。建议的方法作者提出的方法包括两大支柱。第一个支柱是 VerifierBench。这是从 50 多个模型和 15 个数据集中收集的 130 多万条回答的基准通过多阶段自动验证和专家注释进行维护。除了正确和不正确的回答外无效回答如不完整、重复或被拒绝的回答也会被清晰标注从而实现比以往更精确的性能评估。第二个是 CompassVerifier。该模型使用 VerifierBench 作为其学习基础并通过三个扩展进行了增强。这些扩展包括(1) 错误模式驱动的对抗扩展以提高对错误分类的复原能力(2) 复杂公式扩展以提高对各种符号的等价判断能力(3) 通用性扩展以提高对不同任务和提示格式的适应能力。这些创新使 CompassVerifier 比传统的基于正则表达式和基于 LLM 的验证器更加准确和稳健。实验在实验中CompassVerifier 在 3B 到 32B 的参数范围内进行训练并使用 VerifierBench 进行评估。与通用 LLM如 GPT-4o 和 DeepSeek-V3以及现有专用验证器 xVerify 和 Tencent-RLVR 进行了比较。结果CompassVerifier 在所有领域都获得了新的 SOTAs。其中32B 模型的准确率超过 90%F1 分数超过 87%明显高于同等规模的 LLM 和现有验证器。此外在按答案形式进行的评估中虽然多选题获得了高分但顺序答案和包含多个小问题的答案难度更大传统模型的 F1 分数只有 40 分或更低而 CompassVerifier 始终保持着较高的准确率。此外CompassVerifier 在强化学习中作为奖励模型的有效性也得到了验证与基于规则的验证器相比使用 CompassVerifier 进行的训练显示出更高的收敛效率和性能改进。这证明该模型不仅可以作为评估平台还可以作为指导学习的奖励信号。