在生成式AI热潮涌动三年后的今天,业界正处于一个微妙的转折点。Cohere首席AI官Joelle Pineau深度剖析AI目前最尖端的三大挑战,揭示从"聊天工具"到"全能代理"的进化路线图。
观看完整视频业界正处于解决模型底层局限的关键期,Transformer架构虽强大,但远非终点。
AI的下一个跨越集中在记忆、世界模型与推理三大核心命题上。
出于安全和可测试性考虑,AI模型必须保持"静态",不能实时在线学习。
真正的推理需要像人类一样进行分层规划,在不同粒度间灵活切换。
AI代理必须能够预测行动对世界造成的改变,无论是物理空间还是数字空间。
实验室的"超级智能"与企业实际部署之间存在巨大鸿沟,隐私和多语言是关键痛点。
Joelle Pineau结合其在Meta和Cohere的经验,明确指出AI研究远未枯竭,目前正处于解决模型底层局限的关键期。
Joelle既是麦吉尔大学的教授,也曾领导过Meta著名的FAIR实验室。她的背景极具代表性:既有学术深度,又有工业界的实践经验。
在访谈伊始,她回击了关于"模型能力进入平台期"的担忧。她认为,现有的Transformer架构虽然强大,但远非终点。
她将当前的研究重点划分为两个维度:一是寻找模型目前无法解决的正确问题(如长时记忆和复杂推理);二是验证能够突破这些瓶颈的科学假设(如新型架构或学习机制)。
AI的下一个跨越将集中在更高效的信息选择(记忆)、预测行动后果(世界模型)以及分层规划(推理)上。
机器可以存储海量信息,但真正的难题在于"何时抽取何种信息"。Joelle指出"注意力机制(Attention)"并非万能,模型需要学会在不同时间尺度和粒度上进行推理。
这是构建AI代理(Agents)的核心。模型必须能够预测行动对世界造成的改变。无论是在物理空间(机器人)还是数字空间(财务决策),这种因果关系的预测能力是必不可少的。
目前的推理方法多基于前向搜索,但Joelle认为我们还处于"推理的Transformer时刻"之前,模型在跨粒度规划上仍有很大欠缺。
尽管模型需要进化,但出于安全和可测试性的考虑,目前的AI模型多采用离线更新而非在线持续学习。
Joelle对"持续学习(Continual Learning)"持谨慎态度。她认为,虽然让ChatGPT在对话中实时学习很诱人,但这会带来巨大的安全风险。
一旦开启在线学习,模型可能会极快地偏离人类价值观。她提到了微软当年的Tay机器人案例,证明了不受控的实时学习会导致灾难性的行为。
目前的解决策略倾向于扩大上下文窗口(Context Window),但这只是物理上的增加容量,而非逻辑上的"智慧记忆"。真正的挑战在于如何在海量数据中进行高质量的检索排名(Ranking)和压缩(Embeddings)。
主持人分享了测试Gemini查找多年前第一封邮件失败的例子,Joelle解释这通常涉及数据访问权限、信息压缩损耗以及检索算法的排序偏差,而非模型本身"笨"。
推理不仅仅是预测下一个词,而是能够像人类一样进行"分层规划"。
Joelle利用"旅行规划"形象地解释了分层规划(Hierarchical Planning):人类会先定大方向(季节、地点),再细化方案,遇到堵车或酒店满员时会跳回高层重新规划。
目前的LLM在单一粒度(如预测下一个Token)上表现惊人,但在这种上下跳跃的逻辑重构上很吃力。
Joelle认为训练代码对提升推理能力至关重要。代码自带层级结构(库、函数、变量),模型通过学习代码,可以潜移默化地推断出这种结构化的思考逻辑。
世界模型赋予AI理解"因果"的能力,使其能成为在不确定环境中采取行动的代理。
Joelle区分了物理世界模型(重力、碰撞)和数字世界模型(银行系统规则)。两者都需要因果理解,但应用场景完全不同。
模型通过观察大量视频习得重力感,但它可能在模拟月球重力时出错,因为它从未见过。这揭示了纯数据驱动方法的盲点。
在复杂的企业场景中,世界模型不需要百分之百完美。AI可以汇总信息、诊断问题并提出建议,由人类进行最终的逻辑校验和行动执行。这种模式能将传统半小时的任务缩短至20秒。
AI实验室中展现的"超级智能"与企业实际部署之间存在巨大的"能力冗余(Capability Overhang)"。
虽然实验室有超大模型,但付费客户往往更看重"性能与效率的平衡"。他们宁愿使用更小、更快的模型。
很多企业现有的业务流程并不适应AI代理的介入。改变流程比改变技术更难。
Joelle解释了为什么各大实验室的技术水平如此接近——因为思想无法被关在盒子里。人才的流动(Ping-ponging back and forth)让顶尖洞见在行业内迅速循环。
Cohere将赌注押在"隐私安全"和"多语言能力"上,这是企业在生成式AI时代的真正痛点。
理财顾问需要调取海量的私人客户数据、市场趋势和内部合规文档,AI可以快速生成个性化方案,且数据绝不离开内网。
初级员工是否会被取代?Joelle认为,能熟练使用AI的初级员工将跳级成长为全能分析师,他们的产能将放大10倍。真正的风险在于那些拒绝接触新技术的资深员工。
AI正在变成一种"沟通技术"。领导者不再需要10个助手写备忘录,而是可以直接通过AI快速生成原型。
未来不会只有一个"超级大脑",而是会有无数个专门化的AI代理通过协议互联,形成"AI主权"下的生态系统。
Joelle不相信单一的通用人工智能(AGI)。她认为未来有的代理懂重力,有的代理懂银行,它们会像团队成员一样互相协作。
主权不仅意味着国家拥有自己的模型,还意味着企业对核心技术的控制权。企业需要备份方案,防止因单一供应商断供或涨价而陷入瘫痪。
我们仍处于商业化的极早期阶段。大多数企业还在探索阶段,真正的规模化应用尚未到来。
模型将不再只是回答问题,而是学会分解复杂任务并自我纠错。分层规划能力将是下一代AI的核心标志。
代码不仅仅是为了编程,更是教会LLM逻辑层级和结构化思考的最佳教具。代码训练将直接提升推理能力。
企业落地AI的瓶颈不在技术,而在流程的现代化和对隐私的掌控。80%准确率+人工校验往往更可行。
AI不会取代初级职位,但会极大地提高"入行门槛"。快速原型设计能力将成为未来各层级管理者的核心技能。
无论是国家还是个人,对AI底层能力的自主掌控权将是未来最重要的数字资产。企业需要多云或多供应商策略。
当AI能够接管大部分信息的筛选、汇总和初步决策时,人类的"核心价值"将如何被重新定义?Joelle的答案偏向于"高层级的判断力"和"对复杂环境的理解力"。