热门

OpenAI 开源 SimpleQA 新基准，专治大模型“胡言乱语”

Ai资讯2年前更新时间煮雨

7,733 00

“OpenAI 开源 SimpleQA 新基准，专治大模型‘胡言乱语’”。这篇文章报道了OpenAI为了衡量语言模型的准确性，开源了一个名为SimpleQA的新基准。这个基准旨在衡量语言模型回答简短的事实寻求问题的能力，以解决AI领域中的一个难题：如何训练模型生成事实正确的回答。当前的语言模型有时会生成错误输出或未经证实的答案，这一问题被称为“幻觉”。

文章中提到，OpenAI的目标是使用SimpleQA创建一个具备以下特点的数据集：

高正确性：问题的参考答案由两名独立的AI训练师验证，以确保评分的公正性。
多样性：SimpleQA涵盖广泛主题，从科学技术到电视节目与电子游戏应有尽有。
前沿挑战性：与TriviaQA（2017年）或NQ（2019年）等早期基准相比，SimpleQA更具挑战性，尤其针对如GPT-4o等前沿模型。
高效用户体验：SimpleQA问题与答案简洁明了，使操作快速高效，并可通过OpenAI API等进行快速评分。

SimpleQA将是一个简单但具有挑战性的基准，用于评估前沿模型的事实准确性。不过，SimpleQA的主要限制在于其范围，尽管SimpleQA准确，但它只在短查询的受限设置中测量事实准确性。

OpenAI希望SimpleQA的开源能够进一步推动AI研究的发展，使模型更加可信并富有可靠性。开源链接和论文链接也在文章中提供了。

来源：IT之家【阅读原文】

Ai资讯 # OpenAI # SimpleQA

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

100亿美元！孙正义再次对AI下注：聚焦芯片和电力

100亿美元！孙正义再次对AI下注：聚焦芯片和电力

新闻热点 # OpenAI # 孙正义 # 热点资讯

2年前

9,9380

仓颉编程语言官网正式上线，首个公测版本开放下载

仓颉编程语言官网正式上线，首个公测版本开放下载

Ai资讯 # 仓颉

2年前

11,5340

华为原生鸿蒙 HarmonyOS NEXT（5.0）正式发布

华为原生鸿蒙 HarmonyOS NEXT（5.0）正式发布

Ai资讯 # HarmonyOS NEXT # HarmonyOS NEXT（5.0）# MatePad Pro 11

2年前

7,7480

OpenAI、Meta 将用非洲语言训练大模型

OpenAI、Meta 将用非洲语言训练大模型

Ai资讯 # Meta # OpenAI

2年前

10,4860