当前位置:首页-文章-行业新闻-正文

中文大模型评测:国内大模型首超 GPT 3.5

最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE-琅琊榜,目前已经获得有效投票 5.8K。 以下是截至2023年5月29日18点22分的 SuperCLUE 琅琊榜初始排名。 SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEA

最近,来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE-琅琊榜,目前已经获得有效投票 5.8K

以下是截至2023年5月29日18点22分的 SuperCLUE 琅琊榜初始排名。

中文大模型评测:国内大模型首超 GPT 3.5 - 第1张

SuperCLUE-琅琊榜官方唯一地址:www.SuperCLUEAI.com

SuperCLUE 是中文通用大模型综合性测评基准。

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:

  • 这些模型不同任务的效果情况
  • 相较于国际上的代表性模型做到了什么程度
  • 这些模型与人类的效果对比如何?

它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE 是中文语言理解测评基准 (CLUE) 在通用人工智能时代的进一步发展。

中文大模型评测:国内大模型首超 GPT 3.5 - 第2张

在初始排名中,由 Anthropic 公司开发的 Claude 模型以 1215 分暂居第一。在国内模型中,MiniMax 模型以 1188 的高分力压众多国产大模型登顶 SuperCLUE 琅琊榜,暂居国服第一,也是国内大模型首次在公开测评中超过 GPT3.5。

其中,GPT 3.5 以 1171 分排名第三。由清华大学和智谱AI开发的 ChatGLM-130B 则以 8 分微弱差距排名第四,ChatGLM-6B以仅 60 亿参数量的模型跻身前五,表现不俗。香港中文大学和复旦大学同样表现优异,分列 6、7 名,IDEA研究院的姜子牙大模型同样也超过了 1000 分,排名第 9。

相比之下在英文上表现强劲的 vicuna-13b 模型,仅仅排名第 10,在中文能力上明显弱于国内中文大模型。

值得提及的是,在英文对战排名中表现优异的 RWKV,在中文对战表现上稍显不足。RWKV 团队表示正在训练中文基底模型,后续会以中文身份加入对战。

CLUE 团队表示,之后会定期更新 SuperCLUE 琅琊榜排名,同时加入更多具有代表性的大模型。

本文原创,作者:admin,其版权均为一念悟道所有。
如需转载,请注明出处:https://www.jiayezz.com/5720.html