OpenAI 通过一系列在 AI 技术和产品上的突破,引爆了通用人工智能(AGI)的发展,被微软 CEO 萨提亚 · 纳德拉称为“堪比工业革命的技术浪潮”。OpenAI 趟出来的以大语言模型为主的 AGI 技术路线,也基本上宣告了其他 AI 技术路线的终结,这样以一己之力改变整个领域航道的,在技术史上也是空前绝后。一个区区两三百人(在去年底推出 ChatGPT 时,OpenAI 团队大约 270 人)的创业公司,何以在众多巨头逐鹿多年的 AI 竞技场一路披荆斩棘,摘得通用人工智能的圣杯?无论在硅谷,还是在国内,很多人都在问:
为什么 AGI 这样史诗级的革命,背后的核心推手竟然是 OpenAI 这样的创业公司?OpenAI 到底做对了什么?
我自从 2016 年开始一直追踪研究 AI 领域的产业发展,每年筹办全球机器学习技术大会(ML-Summit)的工作原因,陆续和很多来自 OpenAI 的专家、包括 Ilya Sutskever(首席科学家)、Lukasz Kaiser(Transformer 共同发明人)、Andrej Karpathy(联合创始人)、Ian goodfellow(GAN 之父)等经常接触和交流。很早就注意到了 OpenAI 这个在 AI 领域特立独行的“异类”。
如果回看 AI 产业的发展历史,和 OpenAI 历史道路上的诸多关键选择,我几乎惊叹地发现,作为一家创业公司,OpenAI 在每一次关键的岔路口上,都毫不犹豫地选择了“难而正确”的决定。回顾 OpenAI 发展历史上这些“难而正确”的选择,我觉得对于我们今天很多 AI 领域的同行者会有重要的启发。
愿景和使命:剑指通用人工智能
「我们的目标是以造福全人类的方式推进人工智能。今天的 AI 系统虽然令人惊叹,但很多表现又不免差强人意。但在未来,AI 极有可能在几乎所有智力任务上达到人类的表现。这项事业的结果是不确定的,工作是困难的,但我们相信我们的目标和结构是正确的。」
这段话是我摘抄自 OpenAI 在 2015 年 12 月刚成立不久创始团队发表的“愿景和使命”博客中的一段文字。八年后的今天读来,感受仍然是真诚和激荡的。
OpenAI 能够在 2015 年整个 AI 领域被各种迷雾笼罩的时候,就提出“通用人工智能”这一强大的“愿景和使命”,是建立在创始团队对人工智能的坚实信仰、深刻理解和现状研究基础之上的,我将这些合称为对通用人工智能的“愿力”。这样的“愿力”,帮助 OpenAI 此后在人工智能的发展道路上一次次守正出奇。
“愿景和使命”在今天浮躁的创投圈,很容易被异化为“忽悠 VC 和给员工画饼”。但如果研究人类科技发展史,你会发现在一个领域提出强大的“愿景和使命”,是成为一个领域拓荒者的鲜明特征。反过来说,但凡革命性的事情,都有极大的难度,没有强大的“愿景和使命”指引,遇到困难就很容易放弃和溃散。因此,对于那些坚定信仰的创业者,我鼓励大家大声讲出你的“愿景和使命”。我也希望我们的创投界、媒体界对于创业者的“愿景和使命”要鼓励支持、而非奚落鞭挞。
我时常在想如果将时间拉回到 2015 年,如果 30 岁的 Sam Altman 和 29 岁的 Ilya Sutskever 这两位毛头小子在我们的某个创投活动上讲出上述“愿景和使命”,是不是会被一众“大佬”唾沫星子淹死?事实是 OpenAI 在成立时就获得了大约 1 亿美金的捐赠,彼时 OpenAI 还是以非赢利性组织的方式成立的。
技术路线一:无监督学习
OpenAI 刚成立不久,就在 Ilya Sutskever 的领导下下注“无监督学习”这条道路。熟悉 AI 研究领域的朋友都知道,今天这个看起来无比正确的决定,在 2015-2016 年,绝对不是那么显而易见。因为彼时的人工智能领域,通过标注数据方法的“监督学习”大行其道,在很多垂直领域比如推荐系统、机器视觉等,效果也更好。
而“无监督学习”在理论突破和工程技术上彼时都非常不成熟,效果也大打折扣,属于典型的“非主流”。但无需人工标注数据的“无监督学习”具有强大的普适性、且易扩展,通过大规模的数据预训练,模型就能学到数据中蕴涵的人类丰富的知识,从而在各类任务中大显身手。对于“通用人工智能”这一目标来说,“无监督学习”显然具有“任务的普适性”和依据海量数据进行快速“scale(扩展)”的能力。
今天来看,很多“监督学习”方法都被 OpenAI 的“无监督学习”大幅甩开,但在当时选择“无监督学习”显然属于“难而正确”的决定,这样的关键道路选择和 OpenAI 对 AGI 的愿景是密不可分的。
技术路线二:生成式模型
当 2016 年,各种“识别”类任务(如视觉识别、语音识别等)大行其道时,OpenAI 在 2016 年 6 月发表《生成式模型(Generative Models)》中开篇就引用著名物理学家费曼的名言“What I cannot create, I do not understand. 如果不能创造,就无法理解”。也将 OpenAI 的研究重心放在生成式任务上。
而彼时虽然有 Ian goodfellow 发明的 GAN(生成式对抗网络)的惊艳时刻,但它的不可解释性,以及相较于识别类任务的“有用”,总体上,主流的人工智能业界其实对于生成式模型的判断是“难度大,但用处不大”。
但通读《生成式模型(Generative Models)》文章中,可以看出 OpenAI 团队对于生成式模型是“AGI 必经之路”的坚定,就能体会出 OpenAI 团队卓尔不群、坚定自我的特质。
技术路线三:自然语言
虽然在 2012 年深度学习进入工业界成为主流方法之后,机器视觉很快成为更为成熟、效果更好、变现能力也更强的领域。虽然 Ilya Sutskever 也是通过 AlexNet 参加 ImageNet 大赛拔得头筹而在机器视觉领域一战成名,但 OpenAI 在做了一些尝试之后并没有选择视觉作为主攻方向,而是选择了押注更难、更险的“自然语言”。
相对视觉、语音等领域,自然语言处理长期被认为是相对落后的领域,因为自然语言任务具有巨大的复杂性和解空间,很多方法在某一个单一任务上可以,但放到另一任务上就表现很差,起伏不定。业界也有说法,自然语言处理是人工智能领域的“圣杯”。
在尝试 OpenAI Gym(开源强化学习平台)和 OpenAI Five(使用强化学习打 Dota2 游戏)的同时,OpenAI 在使用无监督学习来进行自然语言的任务上走的越来越远。特别是 2017 年通过生成式方式来预测 Amazon 评论的下一个字符,取得了很棒的效果。
为什么 OpenAI 选择押注自然语言?套用著名哲学家维特根斯坦“ 语言的边界就是世界的边界”。如果用 Ilya Sutskever 的话来说 “语言是世界的映射,GPT 是语言的压缩”。就人类智能而言,自然语言是核心中的核心,而其他视觉、语音等都不过是自然语言的辅助佐料。
正是有了对自然语言通向 AGI 道路信仰般的押注,等到 2017 年 6 月 12 日 Google 的 Transformer 奠基性论文《Attention is All You Need》一发布,用 Ilya Sutskever 的原话说论文发表的第二天,他看到论文后的第一反应是“就是它了”。Transformer 模型从理论上颠覆了前代 RNN、LSTM 等自然语言处理方法,扫清了 OpenAI 团队苦苦探索自然语言领域的一些关键障碍。
然而遗憾的是,Transformer 这一理论模型并没有在 Google 内部得到足够的重视,反倒让 OpenAI 团队如获至宝。这一幕像极了 1979 年乔布斯参观施乐 PARC 研究院的 Alto 电脑上的图形界面(GUI)和鼠标后,回到苹果就开始押注图形界面并开启了轰轰烈烈的个人电脑时代,而施乐 PARC 的领导层却迟迟看不到 GUI 向普通大众释放的巨大计算潜力。而亲自打造 Transformer 的七位共同发明人后来也陆续离开 Google,有的加入 OpenAI(包括我们 2021 年全球机器学习技术大会的 keynote speaker、OpenAI 研究科学家 Lukasz Kaiser),有的在硅谷 VC 支持下创办新一代人工智能公司。很有点当年硅谷仙童半导体“八叛徒”的昨日重现。
技术路线四:解码器
在 Transformer 打开了大语言模型的理论窗口之后,大语言模型发展出了三种路线。第一种,以 Google BERT、ELECTRA 为代表的 Encoder-Only(编码器)路线;第二种,以 Google T5、BART 为代表的 Encoder- Decoder(编解码器)路线;第三种,以 OpenAI GPT 为代表的 Decoder-Only(解码器)路线。
这三种路线,Encoder-Only 路线适合理解类任务,很难应对生成式任务,也不具有好的扩展性和适应性,虽然被 Google BERT 在个别子领域一度带火,但现在几乎处于被主流抛弃的地步。Encoder- Decoder 路线适合特定场景任务,但通用性和扩展性也比较差。Decoder-Only 路线首先非常适合生成类任务,同时对各类任务都具有很好的通用性,在工程上也具有很高的可扩展性(scale),非常适合将模型规模做大。
基于这些特点来看,要以 AGI 通用人工智能为目的地的话,那么 Decoder-Only 路线显然是不二选择。从上面的大语言模型进化树来看,可以看出 GPT 选择的 Decoder-Only 路线显然引领了大语言模型的发展和繁荣。
技术路线五:从强化学习到对齐
通过以上的无监督学习、生成式模型、自然语言、解码器这几个关键的技术岔路口选择之后,GPT 模型显然已经奔赴在通往 AGI 的康庄大道上了。但是 GPT 的强大也引入一些新的隐忧,它的强大会不会为人类带来危险、破坏人类价值观、帮助作恶、扰乱社会秩序、甚至威胁人类的生存?
这是严重违背 OpenAI 的愿景和使命的。如何将强大的 GPT 模型与人类价值观和社会规范对齐?强大之后如何变得“对人类有用”?技术的问题要靠技术来解决。这时候 OpenAI 在早期训练 Dota 游戏智能代理时积累已久的强化学习功底就派上用场了。通过在预训练之后加入基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)来教导 AI 做一个对人类有益的“好的 AI”,设立护栏,防止被用来做恶。这方面,OpenAI 想得很远,投入的也很大,配得上它的“愿景和使命”。
工程智慧:Scale Law
如果回顾 OpenAI 在历史上做的一系列技术选择,我们会发现几乎所有的选择都是围绕“是否有利于通用人工智能 Scale”的原则进行的,而与该技术在当时“是否能快速变现”、“是否主流”、“是否容易上手”、“是否效果立竿见影”完全无关。
做过技术架构,或者商业战略的人也都知道,“快速易扩展”是好的技术架构或者商业模式的“铁律”。这一铁律同样适用于通用人工智能的发展。OpenAI 的团队显然是洞悉这一点的。他们甚至在 2020 年发表了一篇著名的论文《Scaling Laws for Neural Language Models》来总结模型参数、训练数据集大小、算力投入(FLOPs 每秒浮点操作)、网络架构之间的扩展法则。
其实除了模型的 Scale Law,OpenAI 对于迈向 AGI 道路上的各种 Scale 力量都有非常深刻的洞见和睿智的选择。
产品智慧:从超级应用到生态平台
从 2018 年 OpenAI 推出 GPT 1.0 到 2020 年 GPT 发展到 3.0,OpenAI 这时已经拿到大语言模型这样一张王牌,但怎么出牌也很重要。历史上握着一手技术好牌,但是打得稀烂的也比比皆是。以 OpenAI 强大的“通用人工智能”愿景来说,不做平台型公司是很难的。但是科技史上一上来就做平台的公司,大部分都折戟沙场。反观那些成功的平台型技术公司,绝大多数都是先从建立“超级应用”开始的。
历经硅谷顶级孵化器 YC 总裁的锻炼,OpenAI 的另一位灵魂人物 CEO Sam Altman,当然是产品战略高手中的高手。OpenAI 选择先从 ChatGPT 这一“超级应用”入手,通过短短几个月的时间,积累了上亿的用户、海量的交互数据、和极强的品牌号召力,才有后面的 ChatGPT API, Plugins 等一系列大手笔的平台布局。以目前各种渠道的消息来看,OpenAI 在产品上还有很多大招,让我们拭目以待。
顺便提一下,我在前面《AGI 时代的产品版图和范式》文章中,也更深入地谈了很多我对 AGI 时代产品创新的思考。
股权设计:限制盈利公司
OpenAI 最早是以非盈利组织的方式成立,初期资金以捐赠的方式募集。但显然创始团队低谷了发展 AGI 需要的硬件和人才投入,也高估了捐赠的兑现(早期承诺的捐赠后来其实很多没到位)。因此到 2019 年 3 月,OpenAI 重新设计公司治理架构,改为“限制盈利”的公司,接受微软 10 亿美金投资。
“限制盈利”规定向 OpenAI 投资的股东,未来从 OpenAI 能够获取的利润分配最多到投资额 X100 倍的上限。超出部分将由非盈利组织 OpenAI Nonprofit 控制。
这一精妙的股权设计既能吸引 OpenAI 所需要的投资,又防止了 AGI 过于强大而攫取巨额利润。平衡了发展 AGI 需要的商业支持和 AGI 造福全人类这一宏大愿景之间的矛盾。我觉得若干年后回看历史,这一股权设计也是商业史上一个伟大的发明。创始人兼 CEO Sam Altman 不拿股权,不求商业回报,一心追求 AGI 改变世界的胸怀也让人心生敬意。
战略设计:合纵连横
如果将 OpenAI 比作 AI 时代的一只小恐龙,那么在 AI 领域长期重兵投入、市值万亿的 Google 和微软显然是 AI 时代的两只大恐龙。OpenAI 这样的“搅局者”如果被两只大恐龙中的任何一只盯上,都会惹火烧身。而 OpenAI 对于 ChatGPT 这样的“爆款应用”推出所引起的 AI 战国纷争显然有充分的预判和精妙的战略设计。
OpenAI 首先通过和微软这只大恐龙的战略合作,既拿到百亿美金量级的宝贵发展资金,同时又通过 GPT 赋能微软 Bing 搜索、半路拦截 Google 这只大恐龙,还顺带将 GPT 赋能到自己一时半会照顾不到的 B 端市场(Azure 云服务、Office 365 等)以获取适当利润,而自己却可以集中精力、以 C 端市场为切入点、在构建 AGI 时代的生态平台上蒙眼狂奔。
这一巧妙利用巨头“创新者窘境”的合纵连横,让一家人数仅有 300 多估值不过 300 亿美金的创业公司,同时撬动两家市值万亿美金、员工近二十万的科技巨鳄的战略布局,放眼整个商业史,空前绝后,蔚为大观。
团队架构:学术 + 工程 + 产品 + 商业
读到这里很多朋友可能会问,OpenAI 到底什么来头、何德何能如此彪悍?秘密无他,科技公司最贵的就是人才。OpenAI 有着足以笑傲 AI 江湖的联合创始团队组合。
一号位 CEO Sam Altman 20 岁从斯坦福辍学创办 Loopt,于 2012 年将公司以 4300 万美金出售。于 2014 被大自己二十岁的 YC 创始人、硅谷创业教父格雷厄姆说服接替他担任 YC 总裁。格雷厄姆很早就看到 Sam Altman 的卓越才华,在他眼里,Sam Altman 就是硅谷未来的乔布斯。Sam Altman 在硅谷的创业和 YC 的经历锻造了他在产品模式、商业战略、投融资方面的顶级才能。
二号位首席科学家 Ilya Sutskever 是深度学习之父 Geoffrey Hinton 的关门弟子,从 ImageNet 大赛一战成名,后来加入 Google 大脑,发明 Seq2Seq 大幅改善机器翻译,参与 TensorFlow 和 AlphaGo 的研发。是深度学习学术领域当仁不让的“开山功臣”。
总裁 Greg Brockman 之前创立著名支付公司 Stripe 并担任 CTO,具有极强的工程技术能力和从零到一搭建技术团队的经验。是 OpenAI 长期的工程技术支柱。除此之外,像 Andrej Karpathy、John Schulman、Lukasz Kaiser 等灿若群星的汇聚,使得 OpenAI 在 AI 人才密度上放眼全球,都属顶流之列。OpenAI 的团队结构也反应 OpenAI 的 AGI 创业观:学术、工程、产品、商业,四大支柱缺一不可,而且各个都很强。
除了自己聚焦 AGI 还不够,OpenAI 和 Sam Altman 还投资了众多核聚变、量子计算、加密货币等公司,围绕能源、算力、财富分配等未来变革进行大手笔布局。这些每一个都剑指 AGI 的未来。
综上所述,OpenAI 无论是在技术的多个岔路口上的关键选择,还是在产品、工程、股权、战略、团队上,都打得一手好牌, 是一家非常值得研究和重视的公司,也是我们窥视 AGI 时代的一扇窗户。
【活动分享】 由我 2017 年发起的全球机器学习技术大会(ML-Summit)将于 2023 年 10 月 20-21 日在北京金茂威斯汀大饭店举办。此次大会的 slogan 是“拥抱 AGI 变革时代”,聚焦工程实践,共八大主题:「大模型前沿技术演进,大模型系统工程实践,大模型应用开发实践,AIGC 与机器视觉,AIGC 行业应用与实践,AIGC 赋能软件工程变革,ML/LLM Ops 大模型运维,AI Infra 大模型基础架构」。详情参考官网:http://ml-summit.org
原文链接:https://www.bilibili.com/read/cv24769631/