AI榜单“变天”了！马斯克发布Grok 41盲测排名登

发布时间：2025-12-10 19:02

　　·情感智能（Emotional Intelligence）为评估模子正在个性取人际互动方面的进展，xAI对Grok 4。1进行了EQ-Bench3测试。用于评估模子正在自动情感智能、理解力、洞察力、共情能力和人际技术方面的表示。

　　Grok 4。1的发布，无疑是马斯克正在AI竞赛中投下的一枚主要棋子。但正在这场“仙人打斗”的牌局中，谁能笑到最初，还远未可知。（易句）？。

　　·Grok 4。1的“非推理模式”（代号：tensor）无需利用“思虑词元”（thinking tokens），可当即生成回覆，并以1465 Elo的成就排名第二。

　　更主要的是，谷歌（Google）正正在预备发布Gemini 3。0，这可能会成为迄今为止最强大的模子。

　　就正在方才，这是对现有Grok 4模子的严沉升级，并已正在X平台以及iOS和Android使用向所有用户全面。。，新版本正在创意表达、感情互动和协同交换方面表示尤为凸起，而且呈现的概率仅为此前模子的三分之一。

　　·Grok 4。1的“思虑模式”（代号：quasarflux）以1483 Elo的成就位列总榜第一，领先所有非xAI模子31分。

　　·更夸张的是，Grok 4。1的“非推理”模式表示，跨越了所有其他模子正在“完整推理模式”下的公开排行榜成就。

　　就正在OpenAI发布GPT-5。1，大谈“情商”之际，埃隆·马斯克（Elon Musk）也带着他的xAI，火速插手了这场“AI体验”之和。

　　为了验证这一点，xAI不只正在实正在的出产流量中进行了评估，还利用了FActScore——一个包含500道关于人物列传问题的公开基准测试。

　　LMArena是一个开源东西，用户能够通过并排、盲测的体例，比力分歧狂言语模子的表示。正在这个合作最激烈的“斗兽场”里，Grok 4。1取得了惊人的成就？。

　　按照xAI的说法，Grok 4。1呈现的概率是此前模子的三分之一，这使其成为xAI迄今为止的最佳版本之一。

　　为了优化模子的气概、人格和有用性，xAI操纵前沿的代办署理型推理模子（agentic reasoning models）做为“励模子”，正在大规模中自从评估并迭代模子的回覆。

　　更惹人瞩目的是，正在一个公开的“盲测”竞技场（LMArena）上，Grok 4。1的“思虑模式”版本已悄悄登顶总榜第一，以至其“非推理”的快速模式，都击败了所有敌手的“完整推理”模式。

　　·创意写做能力（Creative Writing）xAI同样丈量了Grok 4。1正在Creative Writing v3基准测试中的表示。正在该测试中，模子需要按照32个分歧的写做提醒，正在3次迭代中生成回覆。

　　xAI本次发布了两个Grok 4。1模子：Grok 4。1（非推理模式）和Grok 4。1 Thinking（思虑模式）。这两个模子均可免费利用，但付费用户面对的更少。

热门资讯