清华大学告诉你中文AI谁最强

来源：网友投稿 2024-04-22 07:50

作者手机内常用的AI软件

AI大模型方兴未艾，国内互联网巨头纷纷下场推出自己的AI大模型，那么谁家大模型最强？

笔者从去年开始使用ChatGPT以及微软edge浏览器自带的bing AI，深感国外大模型对中文的支持以及本地化做的仍然不足，所以十分关注国内厂家的AI产品。很荣幸的是我很早拿到了讯飞星火和百度文心一言的内测资格，实话实说，初期的星火和文心一言比bing AI都难用数倍，之后我对字节系的豆包APP更是常常吐槽。

没想到到了今年年初，悄然发现，我已经很久很久没用国外大模型，除了需要做一些涉外种种工作时会偶尔用到Copilot（原Bing AI，ChatGPT 4 Turbo大模型）外，我已经习惯国内大模型，它们的进化速度令人欢喜鼓舞，但你要问我谁最好，实话实说，个人用起来PC端更习惯星火，移动端偏向豆包（云雀大模型），图画偏向天工（天工大语言模型）。

但这只是基于我自己习惯的主观看法，清华大学用更加严谨和复杂的统计方法，以量化的方式评比出了他们心目中最佳中文AI大模型。

2024年3月，清华大学基础模型研究中心携手中关村实验室发布《SuperBench大模型综合能力评测报告》。

这份报告网罗了目前国内外最具影响的十四个AI大模型。通过综合能力评测，该报告认为百度文心一言是目前（或者说截至今年三月份之前）针对中文语言理解、数学能力等领域最好的AI大模型。

最引人关注的无疑是各大模型对中文的处理能力，也就是中文理解方面。文心一言（文心一言4.0，下同）在推理和语言评测中分数遥遥领先，其他模型与之相比差距较为明显，最令笔者震惊的是，我最习惯使用的讯飞星火竟然挂车尾。要说明的是，在不考虑中文的前提下，语言能力上文心一言降到第三，不及谷歌的Claude-3和GLM4，但仍领先ChatGPT 4的Turbo版和网页版。

所有人都在期待ChatGPT 5的发布

数学能力方面，文心一言与Claude-3并列第一，这一成绩体现了文心一言在数学逻辑和推理方面的强悍实力，并让人眼前一亮。此外，文心一言还在安全方面排名第一。

其它大模型也非吴下阿蒙，它们各有各的强项和优势，比如ChatGPT 4 Turbo版和网页版就分别拿下了代码编写第一、第二；智能力方面Claude-3和ChatGPT 4也是领先对手包揽前三，其中阿里的通义千问2.1是国内表现最好的智能力大模型，文心一言反而排名靠后。

总的来说，国内AI大模型方面基本接近美国水平，可以说和美国组成AI大模型领域的第一梯队，远远甩开其它国家的竞争对手。

不过我们还是要证实差距，美国AI大模型在方向创新上还远远强于我们，比如Meta，又比如ChatGPT 5，我们现阶段仍是在国外大模型背后亦步亦趋，带领行业走出自己的创新道路短时间内仍然艰难，需要从业者们继续努力。

相关阅读

伤病分析博主：萨卡很可能是一级或二级腿筋拉伤

2024-12-22 17:55:59

卡恩：大罗比梅西C罗好得多因扎吉非巨星但对阵我总进球

2024-12-22 17:55:41

斯洛特：也许老板会觉得不买人也行，但切尔西说明买人也能成功

2024-12-22 17:54:46

冠军圣体？马竞12连胜小蜘蛛8球1助攻失去他的曼城12战输掉9场

2024-12-22 17:54:28

67球，希克上升至勒沃库森队史射手榜第6位

2024-12-22 17:51:23

球迷恶搞：李铁在监狱的一天是怎么度过的

2024-12-22 17:51:22

李璇：三镇新帅是陈洋还是外教，要看体育局和原管理层的磨合

2024-12-22 17:50:19

小姐姐脱掉马竞、巴萨衣服露出皇马球衣

2024-12-22 17:50:06

辽粤引援拉胯，莫兰德当控卫，王博滑倒出彩，最佳教练王博最不利

2024-12-22 17:48:08

詹俊：瓜帅的战术理念已和这批球员不配套，希望他能放弃执念

2024-12-22 17:28:52

常用频道

CCTV5 CCTV5+ jrs直播广东体育

清华大学告诉你中文AI谁最强

最新赛程

最新录像/集锦

常用频道

热门直播