“OpenAI 开源 SimpleQA 新基准,专治大模型‘胡言乱语’”。这篇文章报道了OpenAI为了衡量语言模型的准确性,开源了一个名为SimpleQA的新基准。这个基准旨在衡量语言模型回答简短的事实寻求问题的能力,以解决AI领域中的一个难题:如何训练模型生成事实正确的回答。当前的语言模型有时会生成错误输出或未经证实的答案,这一问题被称为“幻觉”。
文章中提到,OpenAI的目标是使用SimpleQA创建一个具备以下特点的数据集:
- 高正确性:问题的参考答案由两名独立的AI训练师验证,以确保评分的公正性。
- 多样性:SimpleQA涵盖广泛主题,从科学技术到电视节目与电子游戏应有尽有。
- 前沿挑战性:与TriviaQA(2017年)或NQ(2019年)等早期基准相比,SimpleQA更具挑战性,尤其针对如GPT-4o等前沿模型。
- 高效用户体验:SimpleQA问题与答案简洁明了,使操作快速高效,并可通过OpenAI API等进行快速评分。
SimpleQA将是一个简单但具有挑战性的基准,用于评估前沿模型的事实准确性。不过,SimpleQA的主要限制在于其范围,尽管SimpleQA准确,但它只在短查询的受限设置中测量事实准确性。
OpenAI希望SimpleQA的开源能够进一步推动AI研究的发展,使模型更加可信并富有可靠性。开源链接和论文链接也在文章中提供了。
来源:IT之家【阅读原文】
© 版权声明
文章版权归作者所有,未经允许请勿转载。