谷歌DeepMind 开发了 一个人工智能系统 SAFE,旨在对大型语言模型的结果进行事实检查。

在过去的几年里,像ChatGPT这样的LLM模型已经学会了撰写科学论文、回答问题,甚至解决数学问题。然而,此类系统的主要问题是准确性:每个模型结果都需要手动验证正确性,这大大降低了其价值。

在一个新项目中,DeepMind 研究人员创建了一个人工智能应用程序,可以自动检查 LLM 答案的正确性并识别不准确之处。

事实核查LLM结果的主要方法是在Google上搜索支持来源。 DeepMind 团队采取了类似的方法:他们开发了一个 LLM 模型,该模型可以分析 AI 响应中的陈述,然后在 Google 中搜索可用于验证的网站,然后比较两个响应以确定准确性。新系统称为搜索增强事实评估器(SAFE)。

在系统测试过程中,研究团队从多个LLM(包括 ChatGPT、Gemini、PaLM)的回复中验证了大约 16,000 个事实。结果与事实核查人员的发现进行了比较。事实证明,SAFE 在 72% 的情况下与人类的发现相符。在分析 SAFE 与人们之间的分歧时,研究人员发现,76% 的情况下,SAFE 系统是正确的。

DeepMind 团队 已在 GitHub 上发布了 SAFE 代码 ,使任何人都可以使用该系统来提高 LLM 模型响应的准确性和可靠性。

文章原文链接:https://www.anquanke.com/post/id/295213