谷歌将让顶级AI模型在实时象棋锦标赛中一较高下

芝麻开门

芝麻开门(Gateio)

注册芝麻开门享最高$2,800好礼。

币安

币安(Binance)

币安是世界领先的数字货币交易平台,注册领100U。

周二,谷歌将举办一场国际象棋锦标赛,让顶尖AI模型同台竞技,直接测试机器的推理能力

此前埃隆·马斯克周一宣称,其聊天机器人Grok展现出”卓越的推理“能力。

这场赛事是新成立的Kaggle游戏竞技场首秀,该平台旨在实时竞技环境中测试通用AI智能体。



首届锦标赛将每日上演六款主流语言模型间的象棋对决:ChatGPT、Gemini、Claude、Grok、Deepseek和Kimi。

谷歌声明指出,与标准基准测试不同,该形式通过评估模型在压力下的思考、适应和恢复能力,公开展示AI策略。

谷歌表示希望该赛事能揭示其他基准测试难以捕捉的推理能力差异。此前谷歌已采用雅达利游戏、AlphaGo和AlphaStar等游戏基准测试AI推理。

今天我们宣布推出@Kaggle游戏竞技场,这个新基准平台让AI模型在策略游戏中直接对抗,首战便是国际象棋️。

为何选择游戏?🤔 游戏是AI评估的绝佳场景,能帮助我们理解模型如何应对… pic.twitter.com/XoZAk6hAou

——Google AI (@GoogleAI) 2025年8月4日

“我们将采用贝叶斯评分系统进行排名,该系统持续更新,支持严格的长期评估,”谷歌表示。

贝叶斯系统通过概率计算,根据选手与其他竞争者的对战表现动态调整技能评级。

揭幕战对阵为:OpenAI的o4 mini对决DeepSeek-R1,Gemini 2.5 Pro对阵Claude Opus 4,月之暗面Kimi K2 Instruct迎战OpenAI的o3,以及Grok 4 vs Gemini 2.5 Flash。

隆重推出Kaggle游戏竞技场:这个开放的基准平台让顶级AI模型在直播对战中角逐复杂策略游戏。我们正在开拓可信AI评估的新疆域,首站选择国际象棋——这个检验系统智能的经典试金石。pic.twitter.com/OHBWbnnQtn

——Kaggle (@kaggle) 2025年8月4日

国际象棋长期作为AI的试验场

1997年历史性对决中,IBM深蓝击败俄罗斯国际象棋特级大师、前世界冠军加里·卡斯帕罗夫。谷歌新赛事延续这一传统,但主角换成了语言模型。

比赛将通过YouTube直播,采用四局三胜制,胜者进入单败淘汰赛。最终前两名将展开金牌争夺战。

“游戏是AI评估的理想选择,它们能帮助我们理解模型如何处理复杂推理任务,”谷歌在X平台写道。”许多游戏可模拟现实技能,测试模型在战略规划、适应性和记忆等领域的表现。”

观众将能查看每个模型的行棋推理过程。谷歌表示,这种透明度对评估模型是在真正思考问题,还是仅仅模仿训练数据至关重要。

但在Kaggle游戏竞技场讨论区,关于大语言模型开赛后的表现仍存疑问。

“如果模型在耗尽所有重新思考机会后仍建议非法走法,具体会怎样处理?”一位用户问道。”是立即判负,跳过回合,还是某种形式的取消资格?”

“这让我不禁思考:我们看到的究竟是真正的推理,还是基于模式的猜测?”另一位用户提出。

谷歌表示计划在未来将Kaggle游戏竞技场扩展到国际象棋之外。目前,这场首秀赛事将作为公开压力测试,检验当今最先进模型处理实时战略决策的能力。

“游戏始终是AI有效的试验场,包括我们在AlphaGo和AlphaZero上的工作,”谷歌DeepMind联合创始人兼CEO德米斯·哈萨比斯在X平台写道。”随着竞技场增加更多游戏和挑战,我们期待见证这一基准推动的进步——预计将看到快速提升!”

谷歌未立即回应《Decrypt》的置评请求。


GG 通讯

获取最新web3游戏资讯,直接聆听游戏工作室和领域意见领袖的声音,并获得合作伙伴的赋能。
您的邮箱
获取!
获取!

© 版权声明

相关文章