谷歌将让顶级AI模型在实时象棋锦标赛中一较高下

周二，谷歌将举办一场国际象棋锦标赛，让顶尖AI模型同台竞技，直接测试机器的推理能力。

此前埃隆·马斯克周一宣称，其聊天机器人Grok展现出”卓越的推理“能力。

这场赛事是新成立的Kaggle游戏竞技场首秀，该平台旨在实时竞技环境中测试通用AI智能体。

首届锦标赛将每日上演六款主流语言模型间的象棋对决：ChatGPT、Gemini、Claude、Grok、Deepseek和Kimi。

谷歌声明指出，与标准基准测试不同，该形式通过评估模型在压力下的思考、适应和恢复能力，公开展示AI策略。

谷歌表示希望该赛事能揭示其他基准测试难以捕捉的推理能力差异。此前谷歌已采用雅达利游戏、AlphaGo和AlphaStar等游戏基准测试AI推理。

今天我们宣布推出@Kaggle游戏竞技场，这个新基准平台让AI模型在策略游戏中直接对抗，首战便是国际象棋️。

为何选择游戏？🤔 游戏是AI评估的绝佳场景，能帮助我们理解模型如何应对… pic.twitter.com/XoZAk6hAou

——Google AI (@GoogleAI) 2025年8月4日

“我们将采用贝叶斯评分系统进行排名，该系统持续更新，支持严格的长期评估，”谷歌表示。

贝叶斯系统通过概率计算，根据选手与其他竞争者的对战表现动态调整技能评级。

揭幕战对阵为：OpenAI的o4 mini对决DeepSeek-R1，Gemini 2.5 Pro对阵Claude Opus 4，月之暗面Kimi K2 Instruct迎战OpenAI的o3，以及Grok 4 vs Gemini 2.5 Flash。

隆重推出Kaggle游戏竞技场：这个开放的基准平台让顶级AI模型在直播对战中角逐复杂策略游戏。我们正在开拓可信AI评估的新疆域，首站选择国际象棋——这个检验系统智能的经典试金石。pic.twitter.com/OHBWbnnQtn

——Kaggle (@kaggle) 2025年8月4日

国际象棋长期作为AI的试验场。

1997年历史性对决中，IBM深蓝击败俄罗斯国际象棋特级大师、前世界冠军加里·卡斯帕罗夫。谷歌新赛事延续这一传统，但主角换成了语言模型。

比赛将通过YouTube直播，采用四局三胜制，胜者进入单败淘汰赛。最终前两名将展开金牌争夺战。

“游戏是AI评估的理想选择，它们能帮助我们理解模型如何处理复杂推理任务，”谷歌在X平台写道。”许多游戏可模拟现实技能，测试模型在战略规划、适应性和记忆等领域的表现。”

观众将能查看每个模型的行棋推理过程。谷歌表示，这种透明度对评估模型是在真正思考问题，还是仅仅模仿训练数据至关重要。

但在Kaggle游戏竞技场讨论区，关于大语言模型开赛后的表现仍存疑问。

“如果模型在耗尽所有重新思考机会后仍建议非法走法，具体会怎样处理？”一位用户问道。”是立即判负，跳过回合，还是某种形式的取消资格？”

“这让我不禁思考：我们看到的究竟是真正的推理，还是基于模式的猜测？”另一位用户提出。

谷歌表示计划在未来将Kaggle游戏竞技场扩展到国际象棋之外。目前，这场首秀赛事将作为公开压力测试，检验当今最先进模型处理实时战略决策的能力。

“游戏始终是AI有效的试验场，包括我们在AlphaGo和AlphaZero上的工作，”谷歌DeepMind联合创始人兼CEO德米斯·哈萨比斯在X平台写道。”随着竞技场增加更多游戏和挑战，我们期待见证这一基准推动的进步——预计将看到快速提升！”

谷歌未立即回应《Decrypt》的置评请求。

GG 通讯

获取最新web3游戏资讯，直接聆听游戏工作室和领域意见领袖的声音，并获得合作伙伴的赋能。
您的邮箱
获取！
获取！

行业资讯 # AI # 国际象棋 # 推理能力 # 机器学习 # 语言模型 # 谷歌

文章版权归作者所有，未经允许请勿转载。

Tornado Cash案审理生变：Roman Storm律师团队考虑申请无效审判

行业资讯 # Tornado Cash # 以太坊 # 加密货币诈骗

12个月前

870

本周加密游戏动态：《Off the Grid》代币登陆Solana 多款游戏停运

行业资讯 # Avalanche # NFT # Solana

12个月前

860

以太坊逼近历史新高，2.5亿美元空头仓位遭重创

行业资讯 # ETF流入 # ETH价格 # 以太坊

11个月前

1130

布莱恩·阿姆斯特朗计划在10月前实现Coinbase半数代码由AI编写

行业资讯 # AI编程 # Coinbase # 人工智能

10个月前

730