越过人类知识的边界：AlphaGo 十周年回望与认知革命

2016 年 3 月，在韩国首尔的一间酒店套房内，一场改变世界的对决正在上演。对阵双方是拥有 18 个世界冠军头衔的传奇围棋大师李世石，以及基于神经网络和强化学习的 AI 系统 AlphaGo。经过七天鏖战，李世石在棋盘上放下两枚棋子示意认输，最终比分定格在 4 比 1。

距今整整十年，AI 领域发生了翻天覆地的变化，大型语言模型崛起，蛋白质折叠等科学难题被攻克。但在播客主持人汉娜·弗莱教授，以及 DeepMind 科学家索雷·格雷佩尔和普什米特·科利看来，这场现代 AI 革命的真正起点，正是首尔的那块木制棋盘。

围棋规则极简，却衍生出了比国际象棋高出数个数量级的复杂性。

国际象棋一局大约只需推理 60 到 70 步，而围棋不仅每一步的候选选项极多，整局所需的推理步数也极长，整体游戏状态呈指数级增长。

在深蓝超级计算机解决国际象棋后，围棋成了 AI 界的终极未解之谜，当时学术界普遍认为机器在短期内绝无可能将其攻克。

面对指数级的搜索空间，AlphaGo 通过模拟人类下棋的直觉，结合了快思考与慢思考。

人类棋手扫一眼棋盘，就能立刻评估局势对哪方有利，并凭直觉锁定少数几个有希望的候选步，而不会去穷举全部 200 到 300 种可能性。AlphaGo 利用深度学习技术复现了这种直觉：价值网络负责评估当前棋盘状态的优劣，策略网络则根据人类专业棋手的习惯对候选步进行概率排序。这种快思考随后与老派的博弈树搜索这种慢思考相结合，向后推演局势。

作为一名前业余围棋手，索雷·格雷佩尔在 DeepMind 上班的第一天，就被同事戴维·西尔弗拉去与还没被命名为 AlphaGo 的早期版本对弈。在后来著名的 AlphaGo 替子代表（也就是大家熟知的人肉机械臂）黄士杰博士的监督，和 DeepMind 首席执行官德米斯·哈萨比斯的围观下，索雷为了不犯错采取了保守策略。然而，这个用人类专业对局训练出来的早期版本极擅长应对常规下法。索雷最终以微弱劣势落败，以一种极其谦卑的方式，成为了历史上第一个正式输给该程序的员工。

随着系统迭代，团队邀请了当时的欧洲围棋冠军樊麾来办公室进行 10 场测试赛。赛前，索雷坚信 AI 还没强大到能击败职业冠军，并与戴维·西尔弗打赌：如果 AlphaGo 能 10 比 0 完胜，索雷就穿上古代日本围棋大师的传统服饰去公司上班。结果 AlphaGo 横扫樊麾，索雷愿赌服输穿了一整天的和服。这让团队信心大增，决定向围棋界的费德勒李世石发起挑战。

李世石根据樊麾的对局记录，赛前坚信自己会赢，却不知道 AlphaGo 在不断进化。当这群 DeepMind 的电脑极客带着纪录片团队抵达首尔时，立刻被成群的摄影师包围。尽管团队拥有计算等级分和对比旧版本的精密评估系统，但面对李世石这座高山，他们依然极其紧张，直到最后一刻都在权衡提升性能与保持系统稳定的风险。

在第一局前半段，所有人都以为李世石占优。索雷旁边坐着一位美国职业棋手，甚至嘲笑 AlphaGo 下了一步绝对不能教给学生的蠢棋。但到了收官清算领地时，大家震惊地发现 AlphaGo 占据了优势。赛后，那位曾嘲笑 AI 的棋手彻底折服，感叹能见证机器达到如此水平是人生幸事。

真正的震撼发生在第二局的第 37 手。AlphaGo 在第五线走了一步肩冲，计算出人类下出这一步的概率仅为万分之一。担任英语解说员的美籍九段棋手迈克·雷蒙甚至以为摆错了棋子。在人类传统中，三四线被认为是实地与外势的平衡点，但 AlphaGo 认为，即便在第五线将大量实地让给对方，换取向棋盘中央的影响力依然是有利可图的。这一步曾被认为是系统的幻觉或失误，但几十步后却成了制胜关键。它证明了 AI 不仅能模仿人类，更能扩展人类知识的边界。

在前三局连败后，李世石在第四局展现了震撼人心的韧性。他在中盘腹地激战中下出了著名的第 78 手。在围棋术语中这一步被称为挖，后来被棋界和大众广泛赞誉为神之一手或神之一挖。这一招彻底搞晕了 AlphaGo，导致其随后下出连业余棋手都看得出极其糟糕的无理手。尽管 DeepMind 团队对丢掉一局感到失落，但他们对李世石充满了崇高敬意。这位将一生奉献给围棋的大师，在机器完美重压下死命挣扎，最终代表人类找到了系统的脆弱之处。最终比分定格在 4 比 1，围棋界从最初的无法相信，逐渐转变为全面拥抱，大量基于 AlphaGo 原理的程序开始被用于围棋教学。

AlphaGo 向 AI 界证明了模型可以跨越训练数据的分布边界，但随后的 AlphaZero 在科学上迈出了更具颠覆性的一步。

AlphaZero 没有输入任何人类棋谱，仅凭规则从零开始自我博弈。令人惊叹的是，它在进化中先是重新发现了人类的定式，但紧接着因为找到了更好的解法，将人类几千年的智慧结晶毫不留情地抛弃了。索雷回忆，AlphaZero 后期的下法简直像外星人，极度奔放，完全不符合人类为了方便理解而建立的结构化逻辑，但 30 手之后一切又水到渠成，展现出了令人战栗的远见。

纪录片剧组的一个未消音麦克风，意外捕捉到了德米斯·哈萨比斯和戴维·西尔弗在赛后收拾东西时的私下对话：如果我们能解决这个，那我们现在绝对可以去解决蛋白质折叠了。

德米斯深信 AI 是理解世界底层逻辑的工具，并以此说服了当时在微软研究 AI 编程的普什米特·科利加入。DeepMind 开始将科学问题转化为类似围棋的搜索空间。

以计算机科学的底层核心矩阵乘法为例，自 1969 年德国数学家沃尔克·施特拉森提出施特拉森算法后，50 年来人类毫无寸进。DeepMind 打造了 AlphaTensor，将寻找最高效乘法算法的过程变成了一场以最少步骤准确算出结果的游戏，最终成功打破了半个世纪的记录，在算法发现领域重现了第 37 手时刻。同样的方法也被 AlphaDev 等智能体用于寻找数据中心调度和网络路由的最优解。

当 AI 在无限的算法空间中探索时，它常常会发现人类科学家未曾察觉的对称性，从而给出极度反直觉的极速算法。但这也引出了一个致命问题：我们怎么知道它不是大模型的幻觉？

普什米特指出，核心在于建立验证器，这暗合了科学哲学家卡尔·波普尔猜想与反驳的理论。AI 负责生成猜想，人类用硬性标准（如代码能编译通过或数学证明在逻辑上可被验证）来证伪。对于开放性科学问题，最终的验证器则是物理实验。

此外，AI 的逻辑往往与人类不同。在 AlphaGo 的收官阶段，它经常表现出看似拙劣的退让。原因是人类习惯最大化胜利的目数余量，而 AlphaGo 优化的唯一目标是最大化胜率，对它而言赢半目和赢 10 目毫无区别。

如果未来 AI 给出了一个完全正确但人类智力根本无法理解的答案怎么办？

索雷提出了一个深刻的观点：解释本质上是介于现象本身的复杂性和接收者的智力容量之间的一座桥梁。就像在 YouTube 上给 12 岁小孩解释量子力学一样，未来的 AI 系统可能不得不把自己的推导过程降维，提炼成人类这种有限理性心智能够消化的简化版。

在这样的未来，人类数学家和科学家非但不会失业，反而变得更加核心：他们不再是寻找答案的解题者，而是提问者，负责精准界定问题、设定系统的奖励函数，并将天书般的 AI 方案翻译回人类的知识大厦。

今天，大型语言模型似乎成了通向智能的捷径，它们通过挖掘互联网上积累的海量结晶智能来运作。但这将 AI 困在了现有人类知识的语料库里，无法产生真正的新颖性。为了再次跨越已知边界，AI 界正在重新引入 DeepMind 早期的理念：将智能体放入环境中，通过强化学习去探索人类未曾涉足的领域。

十年前首尔的那场对决，不仅是一场游戏的胜负，它不可辩驳地证明了：跨越并超越人类智能，不再是几十年后的科幻想象，而是我们当下正在经历的现实。

您的支持是我持续输出的动力

🟡 币安 Binance 返 20%注册 →

邀请码: SRXT5KUM合约: 416378774

⚫ 欧易 OKX 返 20%注册 →