2023年1月29日星期日

这实际上是一篇关于OpenAI的文章

@Murph丶璇

这实际上是一篇关于 OpenAI 的文章

一个公司的创始人,对每个具体业务的理解大概率都是不如下属的,为什么投资人却无比重视创始人本身的特质和素质呢?原因之一是创始人能够提供两个只有 TA 才能提供的价值:远见和信仰。而这两个东西,才是一个公司真正的价值所在,因为它们才是最 distinctive 的,真正独特的东西。

什么是远见(Vision)?就是看到尚未发生但大概率会发生的那个未来,知道世界正在往什么方向演化,以及演化的速度如何。

什么是信仰(Belief)?就是无条件的相信,在考验面前,在困难面前,风雨无阻。

唐僧之所以是唐僧,不仅因为他知道我要去西天取经,这就是他看到的那个未来。更在于他无比的坚定,即使这一路上有无数的妖怪都想吃了他。孙悟空可以没有,但唐僧不能没有,因为没有唐僧,孙悟空即使有,也早就放弃了取经回花果山找紫霞去了。

让我们举两个例子,当然,无论举多少例子,都是极小概率的幸存者偏差,因为创业成功本身就是小概率事件。创业需要运气,但也绝对不是仅有运气就可以成功的。最后我们再来讨论幸存者偏差的问题。

一个比较遥远的例子,张一鸣在创立字节跳动的时候,只有一个远见,就是推荐比搜索好。让机器把一个用户想要的信息推给她,比让她每天自己去搜索要更符合人性。所以这就是一个尚未发生但大概率会发生的那个未来,世界正在向这个方向演化。

但问题是,推荐系统在 2012 年还是非常小众的技术,当时机器学习和后来的深度学习远远不像 2016 年 AlphaGo 之后那样风靡全球。所以当时整个中国懂这项技术的人才非常少。如何才能找到他们呢?找到孙悟空呢?

当时做了非常多的尝试,我只举两个比较有趣的例子。第一,当时一鸣找来了宿华,也就是现任快手的创始人之一。宿华之前在谷歌工作,他所在的张栋的团队是当时国内极少数懂推荐系统的团队,因为当时只有谷歌这样的公司在研究这样的技术。当一鸣的团队听完宿华给他们讲推荐系统时惊为天人,后来一鸣想给 5% 的股份让宿华加入字节,但宿华没同意。后来宿华加入了程一笑创建的快手并成为大股东,帮助快手完成了技术上的飞跃,才超过了一众短视频平台,有了今天的地位。第二,当时有一本即将出版的书,是项亮写的《推荐系统实践》。一鸣在看了文稿之后又力邀项亮加入,但还是被拒绝了,毕竟当时的字节实在太小了。

而我们知道,今天的字节跳动已经是国内甚至全世界最懂推荐系统的公司了,抖音和 TikTok 的大杀四方就是证据。这一切都始于一个远见,和更重要的,一个在困难面前,风雨无阻的信念。

第二个例子,是我真正写这篇文章的目的,就是 OpenAI,因为对 AI 这个领域来说,一切才刚刚开始。

OpenAI 的创始人 Sam 的远见是什么?就是 AGI,通用人工智能。他对 AGI 的定义是,第一,在大多数任务上 AI 的表现都超越人类;第二,可以创造出新的知识,帮助人类进步。

Sam 是这么想的,也是这么做的。让我们从一篇著名的论文聊起。

2017 年,在咱们微博中反复出现的论文 Attention is all you need 横空出世。之前人们在处理自然语言模型 NLP 时,都用 RNN - 循环神经网络,然后再加入注意力机制 - Attention Mechanism。所谓注意力机制,就是让 AI 拥有理解上下文的能力。比如苹果手机的“果”,和苹果的“果”,是拥有不同含义的,前一个和微软更接近,后一个和香蕉更接近(所以我建议我的好友在创业时一定要取名为香蕉,都决定创业了,怎么能不相信玄学呢?)。在注意力机制诞生之前,AI 无法区分这两个“果”的含义。

但 RNN + Attention,会让整个模型的处理速度变得非常非常慢,因为 RNN 是一个词一个词处理的。所以这篇论文就说,我们不要 RNN,只要 Attention,于是就有了题目:Attention is all you need!而这个没有 RNN 只有 Attention 的自然语言模型就是 Transformer - 变形金刚。论文的作者都来自谷歌,他们后来全部去创业了,心疼谷歌一秒,毕竟写出这样的论文,投资人早就把他们家都给拆了。

这个只有 Attention 的模型不再是一个词一个词的处理,而是一个序列一个序列的处理,可以并行计算,所以计算速度大大加快,一下子让训练大模型,超大模型,巨大模型,超巨大模型 …… 成为了可能。

于是 OpenAI 在一年之内开发出了第一代 GPT,Generative Pre-Training 生成式预训练。不用管什么是预训练,关键在于生成式。

GPT 的目标只有一个,就是预测下一个单词。比如输入 i love,它就会输出 Murph,然后自己再把 Murph 当做输入,继续输出下一个单词,比如 Me,然后是 too,然后是 We all are!所以后来大火的 GPT-3 和 ChatGPT 都可以生成大段大段的文字,就像和我们在对话一样。

当然,这篇文章不是写 OpenAI 的发展史哈,写这个 ChatGPT 比我厉害多了。而是要讲远见和信仰的故事。远见已经讲了,创始人 Sam 的远见就是 AGI,通用人工智能。那么信仰呢?信仰只有在考验和困难面前才能彰显力量。考验马上就来了。

看到 GPT 之后,谷歌的人又不淡定了,爆肝两个月做了一个比 GPT 大四倍,拥有 3.4 亿个参数的大模型,就是著名的 BERT,几乎在所有表现上碾压了 GPT。一方面是模型更大,数据量更多,另一方面,是 BERT 用了一个更简单的训练方法,也就是完形填空式的方法。比如输入是 i love Murph. ____, too. We all Are!然后输出是 Me;

显而易见,完形填空比生成式的预测下一个单词要容易的多。所以即使是同样大的模型,同样多的数据,BERT 的训练效果也要比 GPT 好的多。由于碾压级别的表现,BERT 的论文引用量是 GPT 的十倍。

OpenAI 蒙了,被人碾压了,怎么办?抄,还是不抄?这是一个问题。

但别忘了,OpenAI 的远见是做 AGI - 通用人工智能。而 AGI 必须是生成式的,会做完形填空的 AI 能通往 AGI 吗?

(这里要解释下哈,BERT 和 GPT 都是预训练模型,也就是说训练的方法和最终的应用可以是不同的。如果要具体讨论,就不可避免的要加入很多例如 embedding 这样 “书呆子” 才会懂的词汇。不要误解哈,“书呆子” 是这个时代最值钱的人。这里我们只需要知道,如果模型训练时的目标和最终的应用是一样的,那么效果当然会好的多。所以用生成式的任务训练出来的 GPT,当然在生成式的应用上就会效果更好)

所以在 BERT 大火(论文引用量是 GPT 的十倍)的情况下,坚持做生成式模型就成了考验,因为训练一个生成式的模型,它真的很难。面对巨大的不确定性,OpenAI 怎么办?加大投入!收集更多的数据,做更大的模型,期待大力可以出奇迹。

于是就有了后来大火的 GPT-3 和 ChatGPT,那个可以帮我们写论文,写代码,进行多轮对话,能完成各种各样只要是以文字为输出载体的任务的神奇 AI,是当前人类对于 AGI 最大胆的一次尝试。有人估算光训练 GPT-3 就花了 1200-1500 万美金。而在拿到微软 100 亿美金的投资之后,Sam 又可以继续自己改变世界的使命了。

事后来看,这似乎是势所必然的,毕竟砸了这么多钱进去,大力出奇迹。但在事前,没人知道生成式 AI 这条路能否超越 BERT,能否进步到今天这个样子。毕竟如果这么简单就可以判断,那么做出 ChatGPT 的就不是 OpenAI 这家创业公司,而是那些市值万亿美金的大公司们了。毕竟让 OpenAI 这家创业公司砸 1500 万美金需要的勇气和让苹果、谷歌砸 1500 万美金所需要的勇气是完全不同的。

在不确定性面前,是创始人需要做出那个充满了信仰力量的一跃,因为 TA 想实现 TA 所看到的那个未来。这是最让我喜爱 OpenAI 和 Sam 的地方。

本来还想写三件事:

第一,远见到底是如何产生的?因为曾教授说的「没有远见就没有战略」,是我最喜欢的有关战略的一句论述,所以研究战略,关键在于研究如何产生远见,如何看到那个尚未发生但未来大概率会发生的未来。

第二,即使举再多的例子,也不过是极小概率的幸存者偏差。即使拥有了远见和信仰,就能成功吗?这是一个人生哲学的问题,我很想聊一聊呢。

第三,Sam 的另一个远见是多轮对话式的生成式 AI 一定会代替 Google 搜索这种产品形态,我 120% 赞同,哈哈,但要讲清楚为什么还要从商业模式和用户价值这两个维度做深入的讨论。

但这篇文章的字数已经太多了,还是下次再聊吧 ^. 




没有评论:

发表评论