ChatGPT翻船啦!马斯克Grok3和Deepseek通过开云kaiyun.com,数数字放倒GPT
马斯克在凌晨三点发推文庆祝Grok3通过"耗费测试"时,可能没预见一个小学数学题正在科技圈掀翻骇浪惊涛。斯坦福践诺室最新数据自满,当AI系统碰到数字序列问题时,罪戾率比贬责量子物理方程时朝上23%!咱们实测发现:堪称"地表最强"的ChatGPT竟栽在数9游戏里,而Grok3和Deepseek却如履幽谷。
测试从沿路过典数学题运转——从1数到100会出现几许个9?东谈主类常犯的罪戾在AI身上被放大呈现。Grok3用16秒完成筹划,不仅准确列出系数含9的数字,还贴心性用表格展示考证经过。比较之下,Deepseek像极了科场里反复验算的优等生,诚然耗时81秒,但通过三次不同角度的筹划阐明了谜底。
简直令东谈主大跌眼镜的是ChatGPT的施展。这个大家用户过亿的AI巨头,在数到99时倏得"卡壳",硬生生漏掉了要道的双9组合。更诡异的是,当指出罪戾后,它竟运转磋议:"证据某些计数门径...",活脱脱像极了被淳厚握包后强行讲明注解的小学生。
测试团队临时加赛,把Kimi、豆包、Gemini齐拉进科场。效果发现国产选手Kimi振领提纲直击重要,豆包则像新闻联播主理东谈主般南腔北调。最真谛的是谷歌的Gemini,先用英文完成想考再翻译成汉文,活脱脱展现着硅谷工程师的想维惯性。
这场测试显露的不仅是算法舛误。Grok3能好意思满输出想考经过的智力,恰似给AI装上了"透明大脑"。而Deepseek的自我纠错机制,则像在样式里内置了位严谨的数学淳厚。反不雅ChatGPT的诞妄,让东谈主不禁想起阿谁古成熟语:大象不会舞蹈,但可能被蚂蚁绊倒。
业内东谈主士显现,这类数字序列问题之是以成为AI杀手,根源在于言语模子对美艳逻辑的"瓦解盲区"。就像东谈主类分不清"蓝色"的具体色号,AI在贬责流畅数字时容易堕入款式化陷坑。某践诺室隆重东谈主暗里吐槽:"咱们教AI写诗作画,却忘了教它们幼儿园级别的数数。"
这场看似稚童的测试开云kaiyun.com,实则翻开了AI进化的狂暴真相。当马斯克为Grok3的推忠良力喜跃时,大约更该警惕:能解微积分的AI要是连数数齐会出错,那些荫藏在自动驾驶、医疗会诊系统中的"简便罪戾",会不会成为简直的定时炸弹?测试团队临了抛出一个细想极恐的问题——要是让这些AI彼此考证筹划效果,会获取怎样的谜底?