0°

李翔x李丰:为什么今天出现了ChatGPT?往后还会发生什么?

  这篇专栏出自李翔和李丰在「高能量」播客的一次深度对话。李翔是《详谈》丛书主理人,得到App总编辑。

  对话发生在4月中旬,负责数据基础制度建设的国家数据局成立一月有余,科技巨头间的AI竞赛日趋白热化。

  在此背景下,李翔和丰叔畅谈一个多小时,从文本信息数据化说起,以数据化为线串起了互联网的过去三十年,并试图解答关于ChatGPT的一些热点问题:

  为什么现在出现了ChatGPT?往后还会发生什么?

  在ChatGPT这个链条上会有哪些重要公司?创业公司还有机会吗?

  还有机会做出中国的OpenAI吗?

  第一波人工智能浪潮兴起后,有留下什么好的“遗产”吗?

  医疗、自动驾驶领域如何实现数据化?未来会变成什么样?

  Web3和区块链热潮之后,沉淀了什么?

  对话过去已逾半月,据第一财经5月6日消息,包括百度、阿里、华为、商汤以及科大讯飞等在内,中国目前有40多家企业布局了大模型。胶着竞争下,谁能成为这一链条的关键公司?

  / 01 /

  在ChatGPT这个链条上,

  会“长”出哪些重要的公司?

  李翔:从你的视角来看 ,在ChatGPT这个链条上,会有哪些重要的公司?只从新闻来看,它可能有OpenAI这样的开发模型公司,也可能有英伟达这样提供芯片跟算力的公司。

  李丰:今天来看肯定还是这三类:数据、算法和算力。但是最终,他们在应用层会演化成不同的东西,应用层的东西通常比提供基础设施的要更大一些,垄断效应更强一些。

  大模型做好做大不容易,如果有的话肯定会是好的应用,但它们其实作为生产力工具,更容易在垂直领域被结合出来,尤其是需要用对话流加上博览群书的专业抽象内容来提供服务的公司。

  比如说,我们投资了专注做在线心理咨询服务的Glowe阁楼,线上的心理咨询师通过和用户聊天,为用户提供基础的心理咨询服务。这大概就是通过博览群书的对话流专业服务来解决问题。

  又比如说可以做金融服务,因为这里需要非常专业的理财师,跟用户进行无微不至的谈话,一段时间之后才把用户隐藏需求比较具象地挖掘出来。

  它会不会出现像搜索引擎,但又不是搜索引擎,并且提供广义文本信息、供需匹配更高效率的商业模式?也许会有,如果有了,就具有绝对优势。

  李翔:微软必应也在做这样的尝试。

  李丰:对。有个有意思的话题,从搜索引擎到头条到抖音,本质上都是文本数据的供需匹配。

  但是头条能做成的最大原因,是交互形态的改变和新设备的大规模普及,使输入和使用场景都跟上一代(如PC、笔记本电脑)有极大的差别。上一代的人没转过来,百度当时转慢了,才给了头条这个机会。

  这个“新”是指用户交互方式的变化、屏幕的变化、物理键盘的消失、移动场景下多窗口切换以及输入不方便等。所有这些因素造成了用户使用拖拉或点选的方式,而不是用键盘输入关键词,来进行了信息筛选。

  在此基础上,一个新的文本信息供需匹配的商业模式出现了(我们会在下文详细展开在互联网发展的过程中,由新变化带来的新的商业模式)。如果要再做一个,下一个应该不会以相同的搜索形态出现。

  / 02 /

  还有机会做出中国的OpenAI吗?

  李翔:现在越来越多的大公司入局,也会有一些比较成功的创业者想要做中国的OpenAI,这些创业公司还会有机会吗?

  李丰:这其中存在几个关键要素是变量。

  第一个变量是,会不会有好版本的开源?

  硬币有两面。在巨头激烈竞争的时候,反而会有更多更好版本的开源模型出现,这个时候,应用就会变得更突出一些。

  不做激烈的模型竞争,把开源的模型拿过来,站在巨人肩膀上,在自己专业领域范围经过适当调整、训练和加工,把它变成专业服务劳动力中的一个生产力工具,并不能完全把人替代掉。

  我们还需要考虑的是,在非算法逻辑的认知逻辑上,有没有加新的“一小跳”的东西?

  这一小跳通常是一层窗户纸。回过头来看,搜索框就是当时的一小跳,它将当时已经成熟的用户习惯和设备,结合当时的算力和算法,相对准确地匹配用户和需求。

  比如Alphafold,能够根据人们“投喂”的数据,智能预测蛋白质的结构。对于Alphafold来说,除了要考虑分子热力学模型之外,还要基于生物、化学、物理等层面的内容,来理解分子的结构。

  在算法层面之外,Alphafold这个模型在认知层面有了迭代,能够更好地近似和模拟分子结构。现在大家对Alphafold提供的预测结果瞠目结舌,因为它接近于发现了人们未曾发现过的蛋白质结构。

  李翔:打个比方,你说电动车到底难不难,你说它不难,很难解释说特斯拉之前就一直没有人把这个事情证明是可行的、靠谱的。你说它很难,你也解释不了特斯拉之后,中国出现了“蔚小理”。

  李丰:这个例子也合适,虽然它更像是物理科技。这里边需要有非常多的非算法知识和某些抽象层面的认知逻辑进到了算法里并且融合成算法,使它进步。这些事情非常跨领域、跨知识,需要灵感,要求非常高。

  / 03 /

  人工智能的浪潮后,

  有留下什么好的“遗产”吗?

  李翔:2016年前后有一波人工智能浪潮,很多资金投入到这个行业,也出现了很多优秀的人工智能创业公司。今天来看,大量资金投入后,有留下什么好的遗产吗?

  李丰:在技术出现新的投资浪潮时,我们简单把它总结为两波,第一波叫“值钱的时候不赚钱”,第二波叫“赚钱的时候不值钱”。

  我们以大数据行业为例。2012-2013年,不管是在美国还是在中国,大数据都是超级热的投资概念。今天大数据已经不时髦了,但经过这10年的发展,大数据行业具有了一定规模,并且有些公司比较赚钱,存活下来了。

  一个新技术发生并且变成投资热潮的时候,往往是它不赚钱的时候。等它嵌到应用场景里,这个技术的普及性就提高了,变成了某种意义上的生产力工具,就值钱了。比如最早发明电的时候,大家可以无限想象,但当时很难落地。爱迪生发明出电灯泡后,当它赚很多钱且普及开来的时候,电灯泡已不是令人激动的技术创新了。

  李翔:单纯就GPT和大模型而言,投资界对它的态度是什么样的?

  李丰:一部分投资人对之赋予了巨大的热情和信任,还付诸了行动;一部分投资人对之持整体偏保守和冷静的态度;还有一部分比较积极且缜密地在看,但是还没有到说服自己过投资门槛的程度。不同态度的投资人可能差不多各占1/ 3。

  / 04 /

  从数据化这个维度来看,

  为什么今天出现了ChatGPT?

  往后还会发生什么?

  李丰:我们在投资时,经常会关注“为什么是今天”、“为什么发生了”以及“往后还会发生什么”。那么GPT是如何一路走到今天的?

  从谷歌开始用搜索关键词为用户寻找对应的内容,到ChatGPT通过对话为人们梳理内容,人工智能在理解和认知文本上已经获得了巨大进步。

  我们可以从信息数据化这个维度,来理解近几十年,与互联网相关的各种商业模式和以后可能会出现的变化。

  过去30年,互联网最大贡献之一,是把大量的文本信息变成了文本数据。

  文本数据化过程中,最大的赢家和贡献者是微软。微软借助鼠标加键盘加图形化操作系统,让足够多的人把文本变成数据。

  下一步,怎么满足人们对于信息的需求?这方面的赢家就是门户网站,国外最成功的公司之一就是雅虎。雅虎将已经被数据化的文本信息,用人工的方法进行编辑、分类。

  上网的人越来越多,贡献文本数据的人也越来越多,在这个基础上就出现了BBS。论坛在中国尤为典型,大家在更小的版面内进行内容生产和内容消费。

  当互联网上文本数据太多了之后,搜索排序排得不好时,甚至要在十几页后,用户才能找到想要的信息。

  这种情况下,从文本数据化供需关系上来看,社交网络的出现,提供了另外一个解决方案,就是提供了用户想要的某类信息。比如海外的Facebook、Twitter,本土的人人网、新浪微博等平台,为用户提供了海量、个性化的信息。

  再后来,文本数据化的程度、总量和规模到非常大时,人工分类越来越难、越来越低效。这时就要机器介入,给有需求的人匹配最合适的内容。

  迭代的过程无非是这三件事,上层是数据,中间是算法,底下是算力。被算法学习调教的主要对象——数据开始大量增长,于是就给算法提升的训练空间越来越大。

  在算法层面,典型的比较成功的应用就是Google。Google 作为搜索引擎,有两个非常有意思和重要的贡献。

  第一个贡献是搜索框,它让你把想要的东西抽象成一个词或几个词,计算机得到了需求,再寻找所有现存的文本数据来匹配。

  第二个贡献是排序。在算法层面,可以找到各种各样的词,但哪个是跟你相关的、重要性高的?它引入了一个合理的认知逻辑就是相关性排序。它这个相关性最早的时候跟科学论文一样。

  李翔:是论文的引用次数。

  李丰:对,相当于网页的链接次数。这种排序其实是有意思的进步,和应用贴合得很紧。

  我们从最早的那个逻辑线开始,是先完成了数据化,在某种意义上开始进入自动化加部分的智能化。跳到今天的GPT,现在文本信息已经有超高的比例和量被做成了文本数据,跟 20 年前相比是巨大的量级飞跃,所以它训练出来的模型非常智能。

  这件事还会再进化吗?

  会的。这个过程中还有一个跟 Google 类似的变迁节点——注意力模型的引入。简单来讲,可以把注意力模型理解为关注到特定部分,而不是整体,给予它不同的优先级或者资源支持。

  在先解决数字化,再解决部分意义上机器的自动化、智能化的过程当中,除了算法本身的数理逻辑演进外,如果在这个过程中还有新的认知逻辑被引入,加上底层算力的持续进步,再加上更海量数据的不停训练,它就会产生出跳跃的小台阶。比如我们之前提到的Alphafold,不仅有算法层面的革新,还引入了生物、物理、化学等多领域知识。

  李翔:我想提供另外一种视角,来理解文本数字化的演进过程。无论是从内容生产,还是内容分发而言,我整个职业生涯都受到了文本数字化的冲击。

  从内容生产角度,与纸媒相比,最开始门户时代的内容生产者仍然是人,网站编辑把已经生产出来的文本内容数字化后,搬到网页上。

  往后演进,生产这一端就出现了大的变化。互联网把内容生产门槛降低了,用户开始生产内容。这个时候也对应出现了博客等新形态的内容形式,门户网站也开始把博客内容整合起来。AIGC出现之前,内容生产仍然是机构和个人。

  分发方面,搜索把内容重新组织,然后分发。又出现了通过社交关系分发,也就是分发逻辑变成社交网络,然后出现了社交媒体的说法,如微博、 Twitter。之后,变成了机器分发,出现了今日头条、抖音等。

  如今内容生产端又出现了一个特别大的跃迁,就是ChatGPT。它让AI生产的内容不再“小儿科”,不少人说它在很多方面输出的内容已经不输本科生了。这种先进的内容生产方式,再跟先进的内容分发方式结合起来,可能会出现非常先进的商业模式。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论