如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-22 06:00:14来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 如何评价阿富汗取消与中国的石油开***合同？

下一篇 : 请问照片里这个人是谁呀？

相关文章：

{dede:myad name='右侧广告位'/}

有个漂亮女朋友是种怎样的体验？

谢npy邀，先放图：）当年我随便在知乎发了个根本就没认...
2025-06-22阅读全文 >>
万兆的网络速度有多大意义？

家里正好就是万兆宽带，先上测速：直观感受就是，下载和更...
2025-06-22阅读全文 >>
腰间盘突出能不能治愈？

这病本来就是自限性疾病。意思就是你不作，大概率会自己好。...
2025-06-22阅读全文 >>
count(*) count(1)哪个更快？

团队 code review 时，一位同事把 count(*...
2025-06-22阅读全文 >>
男女对立会在10后里缓和吗？

不会，反倒我会觉得会愈演愈烈。我侄子这两年上高中，他们当...
2025-06-22阅读全文 >>

养花知识本月排行

1如何看待B站一些粉丝数高的UP主更新频率下降，B站高质量***产出断崖式下跌？近期B站发生了什么事情？
Python+rust会是一个强大的组合吗？
微软宣布 5 月 28 日开始下架「Microsoft 远程桌面」应用，背后原因有哪些？
只是突然很好奇，已经造出了三艘航母，为何不能按照这样的模板，批量建造航母呢?
如何评价《灵笼 2》第六集？
已经有了东风41，那么东风31AG存在意义是什么呢？
央行行长潘功胜首次在公开场合谈及稳定币，稳定币是什么？有何深意？
北京日报点名批评“苏超”过度娱乐化，它是否管的太宽了？为什么无良媒体不会被查封取缔？
如何看待CCTV13批评“L2.999智驾”等误导性宣传，若导致事故车企可能需要担责？
新买的移动硬盘该格式化为 NTFS 还是 exFAT？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐