2018年,google在做bert大模型的时候,openai坚持用gpt,就是说,坚信所有的问题都可以归结为从上一句预测下一句,简化整个流程。思想非常简单,但是它把这个东西推向一个高度,即不断增加模型的大小,增加数据。这个过程中,它发现了一种涌现能力。
“openai是按一定的节奏释放,它会管理世界对它的预期。我担心的是,实际上已经有更伟大的技术。而且,如果下一代的范式不是这样的呢?那我们永远就这样被动地抄吗?所以更主要的是范式,就是要有一种新的研究范式,而不是被动地抄作业,这个我觉得需要更多的顶层设计。”
【编者按】2023全球人工智能开发者先锋大会期间,澎湃科技在上海临港中心会场开设“凯发国际娱乐官聊天室”。2月26日下午,算法竞赛大神、《机器学习算法竞赛实战》作者王贺(鱼佬),小冰公司工程副总裁王宝元与上海市人工智能行业协会秘书长钟俊浩,探讨了对chatgpt的冷静思考、自然语言大模型带来的启示和aigc的实际应用,并展望了通用人工智能(agi)的实现路径。以下为对话实录,有删减。
最大启示:结构性创新,模型的统一
钟俊浩(上海市人工智能行业协会秘书长):chatgpt的表现不仅在外界看来是惊艳的,甚至也在其研发团队的意料之外,你怎么看这个问题?
王宝元(小冰公司工程副总裁):这个问题很有意思。如果你站在科研人员的角度看,我想他们一定有意料之中的部分,但同时有一些惊喜。意料之中的是,我们看openai过去五六年的发展历史,从gpt-1、gpt-2、gpt-3、gpt-3.5到现在呼声很高的gpt—4,它整个思想一脉相承。2018年,google在做bert大模型的时候,openai坚持用gpt,就是说,坚信所有的问题都可以归结为从上一句预测下一句,简化整个流程。
思想非常简单,但是它把这个东西推向一个高度,即不断增加模型的大小,增加数据。在数据模型大小指数级增加的同时,对算力的要求提升到极致。这个过程中,它发现了一种涌现能力。就是说,涌现出一些连设计人员当初都没有想象到的能力,这部分就叫意外惊喜。
简单来说,首先我们还是对这帮人非常敬仰,他们在坚持做一件事情,非常有韧性,坚持自己的理念,逐步往前推进。那么当你的能力跨越一定阈值的时候,就会发现出现了一个特别的能力,可能有意外惊喜。
王贺(算法竞赛大神、《机器学习算法竞赛实战》作者):像人机对话其实早些年就已经有了,但没有像现在这么智能,能够叠加这么多问题,回答得比较细致,或者说好像发现不了有什么问题。其实还是蛮让我们意外的。
你让它去debug(排错)一个代码,它可以帮你。你只要有一个自己的想法,然后让它去实现代码,它可以快速实现。同时你也可以在这个基础上让它不断优化,或者我们可以给它灌输一些思想。这是之前人机对话所无法达到的。包括让它去制作一个表格,它都可以很出色地完成。
钟俊浩:但学界也有一些声音说,chatgpt只是表现惊艳,从整个技术的底层逻辑来讲,chatgpt到现在为止没有太多的改变,只是基于把数据堆大的暴力计算。
王宝元:对,我也听说过很多这样的观点,特别是研究人员。像著名的教授盖瑞·马库斯 (gary marcus),他几乎天天在twitter上喷deep learning(深度学习)这个框架没有任何新意。包括mit(麻省理工学院)的教授,像诺姆·乔姆斯基(noam chomsky),他天天说gpt对自然语言本身的理解贡献是零。但是这不妨碍chatgpt、gpt-4可以做出伟大的系统。所以一个主流的观点认为,现在ai研究在工程化。
然而我认为,大家显然低估了这个庞大系统开发的难度。人们往往用一个单点技术去评价这场革命,但它往往不是一个单点,而是一个结构性的创新。比如说算法有突破吗?当然有,基于人类反馈的强化学习算法。工程上有创新吗?必须有。一个模型有1750亿参数,在这之前没有一个系统能把这么大参数量的模型装载,都不要说做训练。所以我觉得可能很多人只是站在一个很窄的维度去看待它,批评它。
当然它现在有很多回答不了的问题,或者会捏造一些事实。但我觉得随着技术的突破,这种问题逐步会被解决。我觉得从某种角度上讲,盖瑞·马库斯其实对deep learning有正面的贡献,他通过批评辅助大家找出这些系统的漏洞,所以我自己觉得还是很了不起的。我觉得openai当然是值得国内的很多企业去学习,为什么他们能做出这样的创新。
钟俊浩:我们刚才讲到它的暴力计算,同时我们还不能回避的就是2017年谷歌推出的transformer,今时今刻所有的语言类模型,都建立在transformer的基础上。能不能把这个点再讲一讲?
王宝元:transformer确实是一个非常了不起的发明。因为不光是nlp(自然语言处理),比如说我们做cv(计算机视觉)内容的生成,很多任务也已经全面转向transformer。
我觉得这里面不是一个单点突破,而是逐步的,有了transformer才有了gpt,有了bert,有了gpt-1,慢慢有了gpt-2,包括像cv里的diffusion model (扩散模型)也很热门。aigc(人工智能生成内容)里,我们看到关于文本内容生成,甚至视频内容生成,或者三维的几何mesh(网格)的生成,基本上它的底层结构都是transformer。因为有这么一个底座的模型,然后继续在上面添砖加瓦,发明一些新的技术。所以它的伟大之处就在于改变了一个范式。
神经网络当然在一些任务上依然还是很方便,但是如果问我若干年以后还是transformer吗?有可能不是。比如山姆·奥特曼(openai首席执行官sam altman)认为transformer这个结构有其伟大之处,但是依然有很多问题。所以我觉得它一定会逐步被一些很聪明的人迭代掉。
钟俊浩:从谷歌所走的技术路径来讲,它是先有一个底层的通用模型,然后再在上面长出很多小模型去应用于各项应用。而像chatgpt就直接走到了另外一个路径,直接就是叫agi(通用人工智能),不是一个大模型再去支撑小模型,而是要一个大模型去解决通用人工智能的问题。
王宝元:我觉得你讲了一个很有趣的点,就是agi。我们在讨论agi的时候,每个人心里对它的定义不见得在一个尺度上。所以当我们在讨论一个还没有到来的东西,或者说我们没法定义清楚究竟是什么的时候,这个是有难度的。但我觉得openai的目标显然不是说做一家三四年的公司,它一定是有非常长远的愿景,要做成能够带给世界agi能力的一家公司。目前看chatgpt,它叫agi吗?在我的认知里,它肯定不是。它只是展示出了比gpt出来之前所有你可能接触到的ai模型更强大的一种能力。但是这种能力在agi是什么阶段,我自己说不清楚。
钟俊浩:如果我们具象一点说,chatgpt或gpt-3.5,它带给我们最大的启示是什么?
王宝元:我觉得第一点就是模型的统一。原来大家都是小模型,现在它证明了用一个深层次的大模型,就是从左预测右这个领域,可以统一几乎所有的任务,原来是为每个领域的每个子问题设计一个专门算法。
钟俊浩:它是仅仅局限在,比如一问一答的nlp领域,还是涵盖到知识类的所有内容?
王宝元:我觉得总结起来一句话,它展示了用自然语言作为交互,就是所有任务都可以通过这个语言描述去表达。这可能是一个非常伟大的,原来没有出现过的从零到一的突破。这就是我刚才说的它统一了。
第二,它展示了强大的可扩展性,可以直接泛化去解决一个没有训练过的新任务。但是带来的问题是,针对原来的很多子任务会不会是大炮打苍蝇?比如说我要判断一句话涉不涉及敏感内容,就是对这句话做个分类任务。这样的任务可能比较简单,用不着一个1750亿参数的模型才能算出。
所以我觉得它下一步应该是考虑对各种应用有什么办法,因为已经有了这个大模型,那我解一些小模型、小任务的时候,可以有一个更好的方式。我觉得这个具体方式还是要先观察。如果从经济上来算的话,全部走大模型肯定代价有点大了。
钟俊浩:那么从你的这个逻辑而言,大模型在落地应用中,还是更偏向于原先在transformer基础上面,大模型叠小模型更合适一些。
我以前的理解是,人工智能还是需要和行业的know-how(技术诀窍、专业知识)结合,去熟悉人家的行业,才能改变这个行业原先用人效率不高、高度重复性、准确率不高的问题。但这一次,有了chatgpt以后,我倒有点困惑了,让我感觉它啥事都能干了,那这个行业的know-how到底还要不要?今天听王博士这么一说,一个通用大模型上还是得知道行业的know-how。
王宝元:对。即便对openai来讲,它也是讲,底座是通用的,上面要alignment(对齐),就是说我具体要做这样的任务还是要有各种指令。另外,我觉得cv目前还没有一个能够放之四海皆准的通用大模型,人脸模型依然是一个特解,在通解和特解之间,在cv领域我还没有看到一个确定的结论。
王贺:chatgpt基于全网的一些数据,很多数据来源于开源。但要钻进某一个比较小的领域,比如像金融或一些制造业,它数据非常少,在解决这个问题的时候就可能会面临一些困难,或者说初期可能泛化性比较差一些。所以我觉得还是需要去结合一些领域内的知识。如果让用户体验更好一些,就需要把用户本身的数据信息和推荐系统结合在一起,去定制化做出一些推荐。
2月26日,在澎湃科技“元宇宙聊天室”,三位嘉宾就chatgpt的启示和aigc的实际应用展开交流。从左向右依次为上海市人工智能行业协会秘书长钟俊浩、小冰公司工程副总裁王宝元、算法竞赛大神王贺(鱼佬)。
要多语言训练,不能只用中文
钟俊浩:今年,大家把chatgpt的出现比喻成iphone的出现。能不能从实际体验讲讲,它有没有让你感觉,像iphone曾经颠覆了对手机的认知?
王贺:我感觉现在其实还没有大规模应用起来,更多还是做一些测试或者辅助一些问题的解决,比如准备一个发言稿。
之前很多人会问,人工智能会不会慢慢替代ai开发者?我觉得这可能需要一定过程。现在更关键的是,它不断跟开发者起到互补作用。就像深度学习,它可能就像一个黑盒,有监督的训练肯定比无监督的更好一些。就像我们去开发一个软件,还是需要开发者加上一些策略和规则才能让它更好适应环境,学习得更好一些。
王宝元:我补充一点。我自己在微软工作了十几年,我离开微软之前知道github上的copilot(编程工具),就是辅助开发人员去写code(代码)的。微软ceo最近的一些演讲,实际上就在说这个东西已经极大帮助到了开发人员,提高了至少百分之30%的效率。就是说它不见得完全替代,但是可以辅助,提升效率。比如原来完成一个模块的功能需要一个小时,现在可能20分钟。那么客观来讲,很多开发人员的工作就可能减少了,或者轻松了。
可能确实是在早期尝试阶段,但是我的判断是这个趋势势不可挡。它是一个新的人机交互范式,这是不是要重构所有已知的应用程序?第一,交互界面需要变。第二,它会不会重构整个ai在各个领域的应用程序?
钟俊浩:我自己先做个预判,一定要重构了。未来整个体系一定会在一个新的秩序和状态下产生。
王宝元:我比较认同这个看法,我觉得这里面其实很多东西才刚刚开始。比如谁来统一负责完成ai化或者“chatgpt化”,它的模式是怎么样的?在整个版图中,每家公司的定位在哪里?比如说openai跟微软结合,这个定位非常明确,就要做底层的能力,那么它当然是希望所有人用openai,不要重复造轮子,可别人也造不了。
钟俊浩:回到最初的问题,chatgpt的出现会带来智能手机跟功能手机之间这么大的一个跃迁吗?
王宝元:我想2007年iphone横空出世的时候,也没有人能够预测它带来的影响会那么大。现在可能就是说我自己没有能力预判chatgpt会不会带来这种影响,但我总体是非常乐观的。
钟俊浩:之前我们说数字鸿沟,现在我发现我跟chatgpt有鸿沟。跟chatgpt聊得很好,需要能够用它的语言模式交流。我觉得还没有特别掌握怎么跟chatgpt交流和沟通,这也是有鸿沟的。
王宝元:我觉得这个要分开讲,chatgpt只是openai放出的一个demo(演示),我们不能以一个demo的体验来评判将来产品的可能体验,所以我们更多是说这个demo展示出的底层技术能力让我们非常佩服。
如果要真正解决这个鸿沟问题,我觉得反而是人工智能应该要尝试的,比如它的交互界面更加方便,让老人更容易使用。我很期待真正基于chatgpt背后底层技术的产品,看看它能创作出什么了不起的产品去解决鸿沟问题,让更多的人去接近它。
钟俊浩:都说做中文版chatgpt要比做英文版的难多了,中文说同一个词但用不同口气表达出来含义就完全不同。由于本身数据不够优质,是不是中文版chatgpt的交流和交互势必会比英文的更困难?
王贺:我觉得势必是比较困难的。包括我们对话的时候其实需要考虑的点非常多,所以不仅要理解它本身的潜台词,可能还有一些方言,又或者一些反话,这些都给人机交互增加了很多难度。
王宝元:如果我们看openai这些模型,它当然并没有专门针对中文,肯定是多语言以英文为主。但我们发现它在中文上的泛化能力也很不错。可能还是要多语言训练,不能只用中文。
可能更难的问题是隐喻,就是中文里蕴含的一些更深层次的,比如反讽这样理解难度比较大的问题。从理论上讲,它就是碰巧匹配了数据库中类似的信息,应该不具备隐喻能力,这种问题目前看来还是比较难解的。中文版chatgpt我相信一定要借助英文。
理论上,虽然世界上的语言有几百种,但是人类的智慧、表达思想的方式其实有很多共性,只是最后那个词的写法不一样。所以多语言放在一起,我觉得能学到更多人类的先验知识。这样的知识有一定的共性,所以才有大模型的跨语言迁移能力。我自己觉得,如果我国机构要做类似的,那肯定是要用英文。而且可能英文的训练质量也蛮高的,有各种高质量的书籍等。一定不能只用中文。
openai会管理世界对它的预期
钟俊浩:从chatgpt往前推人工智能技术,一直说它其实就是统计学,但今天在chatgpt呈现的形态上来说,好像它已经具备了逻辑。这听上去是两件事儿,一个用的是数据和关联性,另一个是在交流过程中看起来带着思想,具备一定的逻辑性。怎么看待这个问题?
王宝元:从本质来讲,给大模型注入数据的量以及注入方法,实际上极大促成了它看起来像有推理能力。比如以我在大模型上做思维链(cot)为例,cot实际上是一个人发明的针对大模型特性的一种trick(戏法)。就是它不是什么特别复杂的数学公式,统计上的某个原理,它实际上就是一个人类的直觉,但这个直觉是定制化给大模型的。
比如当大模型大到一定程度,因为要把海量的数据压到一个模型里,势必要强迫它学出一些规律。就像从左预测右,其实复杂程度很高。根据很长的历史记录去判断下一个字很有可能是哪个字,这其实就是一个纯粹的统计概率问题。那么找到这个模式就会令这个模型看似有推理能力,为什么呢?因为人类讲一句话,写一篇文章,都是有逻辑的。
另一个就是显式地注入一种逻辑,比如说chatgpt背后的技术叫instruction(指示学习,instruction learning)。怎么看起来具有逻辑呢?就是当你问我问题的时候,我要给你专家的这种有逻辑的答案。比如你要列出上海有哪些五a级景区,那答案就要写abcd几个,写得非常专业,有逻辑性,有条理性,有结构性。这样的数据是要标的,只是这个标的量跟预训练相比几乎可以忽略。但一定要给它这样的任务,让它输出有条理有逻辑有结构的答案,然后让大模型学出来。
钟俊浩:可能这样只是让一个小孩学会了大人的聊天方式,慢慢让它成长,它持续往后再去成长的话,或许也能达到一个专家的水平吧?
王宝元:我觉得现在大家可能把它想得太强大了。我们看到它的能力大部分还是研究人员赋予它的一种规则。只是现在这个能力大模型学会了,学会给的这个指令,然后让可能不在这个领域的人比如用户觉得有逻辑。但在我们看来的话,它就应该要这样,研究人员教了这些。
钟俊浩:如果现在要chatgpt跟一个小孩聊天,也可以聊得挺好,是这个意思吗?
王宝元:这个完全能做到,现在如果给我一堆小孩聊的语料,就是说小孩喜欢问什么样的问题,讲话风格是什么,等等。只要给我这样的语料,现在是已经能做到了。
只是现在chatgpt没有做这么细,它只是一个demo。比如我们公司做ai being(类似虚拟人的概念),我们要求每个ai being有自己的persona(性格特性),比如是一个18岁的少女还是某个游戏里面的角色,还是某个真人的数字孪生。要让别人感知到这个persona,需要有相应的语料。
钟俊浩:chatgpt未来会不会持续成长,而不是说一定要教给它这种专家逻辑,让一个小孩学会大人讲话?
王宝元:我觉得不会,它要持续学习的话,得有一种教它怎么learn(学习)的机制,这个机制是要人类设计。
钟俊浩:chatgpt的参数已经达到1750亿,我们还能不能再以指数级这种速度往前走?
王宝元:这个一定要考虑背后的工程代价和经济代价,这会是极大的资源消耗。
钟俊浩:持续加大算力,继续用工程化的思维解决问题,它会不会越来越聪明,越来越接近于人脑?
王宝元:我觉得这个问题有点理想化,即资源是不设限的。如果让我站在这个位置,我可能不会去做这样的事,我觉得应该有更有价值的事情,比如在现有基础上怎么去落地。因为它已经展示出很强大的能力,已经能够解决很多现实场景的应用。那么有没有可能赶紧去铺大量的应用,用大量的应用反哺模型,这会不会带来新的发现?这个是科学和工程上要一起验证的假设。
钟俊浩:最后,能不能从应用角度展开讲一讲chatgpt到底给我们带来了什么?
王贺:比如写论文,另一个角度就是我们还需要辨别论文是不是用chatgpt写的。我们用它,它其实就是一个辅助的作用,就像一台电脑一样,能够帮我们快速搜索,帮我们完成一些简单的事情。但是在应用的时候,我觉得还是需要我们去赋予一些思想,一些逻辑。不是说完全不用写代码了,它写的代码我们一定要去用吗?其实它也是给我们一种思路,或者和我们进行一些对比。核心点还是辅助,然后提高整体做事情的效率。
王宝元:我很同意,首先肯定是一个效率提升的问题。就是它会辅助人类做一些事情,极大地提升效率,这个一定会在各行各业很快开花结果,这是我觉得它最大的价值。
我们应该以什么样的心态去拥抱它?我觉得就像自动驾驶,很多资本现在推自动驾驶已经推了十年了,它最大的社会价值就是要解放人的双手,难道真的有人喜欢一直开车吗?这个提升人类生活质量的体验是非常正向的,那我们要拥抱它。
开车或者说之前被打字替代的写字,就是一项技能,随着技术演进,它是不是应该随着技术发展?我觉得还是应该积极面对,应该把人类引到做非重复、有创造力、需要激发灵感的事情上。那么我觉得这些工具反而会助力人类创造力,或者人类发现新知识。像ai for science也是这个目的,用新的人工智能工具让我们提高发现知识的效率和频率,以及成功率。
所以我总体来讲还是非常乐观。就是这个过程中需要政府出台相关的法规,降低可能的负面影响。就像剑是双刃的,换脸可以做非常正面的应用,也可以做坏事儿,那是另外一个层面的问题。
钟俊浩:像chatgpt已经把标杆竖在这儿了,可能中国学界或业界大家都挺着急的,它做出来了我们怎么办。有一些人说,不用着急,用这些基础数据、基础逻辑,应该这半年就能赶上。另一种理论说,赶不上了,三年都不可能做得到。两位怎么看这个问题?
王宝元:问题非常好,大家都在思考这个问题。我觉得我们还是要把技术跟产品分开看。不能讲谷歌、meta没有这样的技术。技术本身也是一个有时候线性、有时候非线性的发展过程。而且我觉得openai并没有藏着掖着,至少大的思想层面大家都知道,更多的可能是系统层面,就是所有东西放在一起的能力。
如果抄作业,就是人家做了什么我们去抄,那多多少少抄个50分、30分、70分,有没有这样的可能性?当然有。但我更担心的是整个研究范式的迁移。
大家思考为什么openai可以持续不断做出这样的东西,而且它放出的东西是两年前的。chatgpt公开几个月,新必应就马上集成进去了,就是说这些大模型在内部早就训练好了。openai是按一定的节奏释放,它会管理世界对它的预期。我担心的是,实际上已经有更伟大的技术。而且,如果下一代的范式不是这样的呢?那我们永远就这样被动地抄吗?比如说现在要百分之百复刻chatgpt,一定不是几个月的时间。如果到那个阶段,你以为你达到了,可是人家用一种新的方式甩开了。
所以更主要的是范式,就是要有一种新的研究范式,而不是被动地抄作业,这个我觉得需要更多的顶层设计。
王贺:对,这个并不是一蹴而就的,而是沉淀了很久。其实目前国内很多企业,包括我了解到,一些很小团队的经营人被领导要求去做这件事情,这种企业非常多。它们并不太担心,或者说这个和它们并没有太大关联,只是把这个技术应用于场景、应用于业务。可能有一些大企业会担心这件事情,它们想快速做出来或者说不掉队。