
硅谷25岁的科技新星Dwarkesh Patel最近在播客里抛出个历害问题:AI的下一代捕快法子会是什么?这位TIME100 AI榜单上的年青主握东说念主,采访过Ilya Sutskever、扎克伯格等一众大佬,发现前沿实验室齐在押注"RLVR"——也即是让AI在能自动判对错的任务里反复试错。代码和数学题即是典型例子,谜底对错一验便知,还能把捕快环境复制几千份让AI同期刷题。但Patel历害指出,光考证对错还不够,关节得能像游戏副本雷同无穷重开、批量刷领导。

为什么AI操作电脑的施展比写代码慢得多?名义看,下单得手与否也能考证,可问题在于没法像数学题那样批量复制环境。你念念捕快AI订会议室?总不行真把所有Office 365系统克隆几千次吧。更别说创业、竞选这些真实场景——宇宙无法重置,变量指不胜屈,哪能像解方程雷同反复重来。Patel用大口语说透了:AI卓越快的界限,本色齐是能"刷副本"的界限,而执行宇宙偏巧是个单机版游戏副本。

果真的破局点藏在"把学习写回权重"里。当今的大模子天然会临时平时不烧香,但会话一次序就"失忆"。Patel打了个接地气的譬如:好比新职工责任半年变庄重,不是靠死记每封邮件,而是把领导熬成职场直观。他提到的OPSD技能,即是让"老油条"模子当导师,把实战领导蒸馏回基础模子——就像淳厚傅带门徒,把十年踩坑心得浓缩成三句话真经。这种才气搬动,大约才是AI果真走进菜阛阓、办公室的关节一步。