为什么数位ai科学家离开了meta-凯发国际娱乐官

产业

为什么数位ai科学家离开了meta

过去半年,为了追赶openai的研发脚步,科技巨头meta公司(前facebook)接连发布免费开源大语言模型llama、llama 2以及编程模型code llama等,引发了一场关于开源与闭源模型优劣的广泛热议。

meta参展2022年在上海举行的进博会(来源:钛媒体app编辑拍摄)

过去半年,为了追赶openai的研发脚步,科技巨头meta公司(前facebook)接连发布免费开源大语言模型llama、llama 2以及编程模型code llama等,引发了一场关于开源与闭源模型优劣的广泛热议。

但对于一些参与llama大语言模型研发的meta 科学家们来说却不这样想,普遍认为这款大模型来的太晚了,团队精英 ai 人才流失太高了。

据the information近日报道,今年2月发表的llama原始研究论文的14位作者中,包括fair巴黎团队负责人antoine bordes在内的超过一半(7人)ai科学家离开了meta,其中几位跳槽或创办了 ai 初创公司,或是到大公司,原因与内部算力资源斗争有关

同时,opt、esmfold等多个项目也同时解散,员工合并重组,影响超过数十人,其中opt研究论文的19位作者中,已经约有一半已不在meta工作,近10位ai领域核心研发人员。

实际上,过去10多年来,马克·扎克伯格(mark zuckerberg)一直将 ai 当作meta新发展的重要起点,而且挖来了 ai 学术领域重要的科学家,如图灵奖得主、meta首席 ai 科学家杨立昆(yann lecun)等,但持续性团队内斗影响了meta ai对于研究资源的分配。

而随着全球经济衰退加剧、紧急追赶chatgpt,经历一段时期的人员波动和内部整合、超过1万名员工被裁掉。最终,meta选择商业化的 ai,放弃纯科学性ai技术。

超半数llama团队愤然出走,因与opt团队内部算力争夺有关

meta在人工智能(ai)领域的核心研究,主要来源2013年成立的fair(facebook ai research)。

团队组建之初,meta聘请了图灵奖获得者、法国科学家杨立昆担任 ai 研究负责人,整个fair的研究任务是将 ai 用于翻译语言,推进ai医疗等场景。同时,fair团队大手笔在美国加州门洛帕克、纽约、蒙特利尔、巴黎、伦敦和西雅图六地设立实验室。

据报道,fair在巴黎的团队主要研发了llama大模型,而fair美国团队则研发opt模型,两个团队主要向meta基础al研究负责人joelle pineau汇报。据悉,pineau不仅是meta ai研究副总裁,而且还是麦吉尔大学教授,主要研究新的模型和算法。

meta基础al研究负责人joelle pineau(来源:meta ai凯发国际娱乐官官网)

早在2022年5月,chatgpt发布之前,meta美国团队就公开发布了opt-175b。当时meta声称该模型比openai的gpt-3训练所需能源更少,而这两个模型用于训练的参数规模相同。据两位知情人士称,几个月后,该团队已经开始研究媲美谷歌palm的一款大模型。

与此同时,巴黎fair团队已经开始研究另一种独立的大模型,最终被称为llama,该模型参数比opt小,团队认为较小模型在推理(即对问题生成响应的过程)方面会更有效,尤其llama需要的算力资源低于opt模型。

不过,由于meta的算力资源有限,内部分配一直不合理。而这种算力争夺加剧了团队之间的紧张关系。

据报道,meta内部每月做出一次算力分配决定,与不同业务部门、不同优先事项,以及项目发布时间等因素有关。而如果fair的员工提出争议,这些争议就会升级,交由pineau做出决定。

pineau回应称,llama和opt团队在算力分配的问题上“有些紧张”,称“尽管我们不保证每个人都会得到想要的,但我们一直试图在平衡各方需求”。

2023年开始,随着chatgpt对话 ai 模型风靡全球,两个团队内斗紧张局势达到了顶峰。

今年2月,meta fair发布了llama开源模型,并获得研究使用许可,而且多个团队使用llama开发了vina等其他开源大模型,广受好评。

但在发布会前一周,fair团队联合创办人兼巴黎团队负责人antoine bordes却离开了meta公司,报道称,其主要与美国团队的内斗让bordes精疲力尽。bordes拒绝置评。

同时,自去年11月起,扎克伯格开始了meta全公司范围的裁员,涉及超过1万名员工,fair团队也未能幸免。今年2月,meta成立了一个新团队,专注于开发生成式 ai 技术,团队负责人是苹果前高管ahmad al-dahle。随后很多fair、llama 2开发团队都加入其中,又一次进行了团队洗牌。

而meta这种人员变动、整合,让fair团队只能研究code llama。因此,更多llama、opt等项目的研究人员感受到了更大的内部斗争氛围,愤然离职。

据报道,目前,llama原始研究论文的14位作者中,超过7人已从meta离职。而2022年5月公布的opt原始研究论文的19位作者中,约有10名 ai 大牛已经从meta离开。the information提到了其中四位的去向:

fair巴黎分部负责人antoine bordes已离职,加入了军工 ai 公司helsing llama论文作者、fair研究总监armand joulin,今年5月离职,随后加入了苹果公司。 llama论文作者timothee lacroix和guillaume lample已离职,共同创立了 ai 初创公司mistralai llama论文作者marie-anne lachaux已离职,加入了mistralal

另外,今年8月有报道称,meta为了降本增效,裁掉了对标谷歌deepmind alphafold、利用 ai 大模型实现蛋白质预测的生物科学esmfold项目团队。此前,该团队研发出了150亿参数、预测超6亿个宏基因组蛋白质序列大模型esmfold,ai 的速度比 alphafold 快 60 倍。不过如今,该团队已解散,负责人已辞职创业。

英国《金融时报》认为,fair实验室内部的学术文化是meta迟迟在 ai 大模型竞争中获得领先的原因,而随着chatgpt的爆发,如今meta试图调整目标“genai”,并重新配置其fair团队的研究方向,转向 ai 模型的商业化。

扎克伯格表示,随着开发者不断改进模型,meta可以将这些改进融入其广告和消费产品中。看起来,扎克伯格从llama看到了以开源在ai竞争中打开局面的可能性。

joelle pineau坦言,留住和吸引优秀人才是公司花费大部分时间的原因。如果没有优秀的研究人员,她什么也做不了。

“由于 ai 领域发展如此之快,我们正在共同思考,fair应该拥有哪个项目?gen ai 应该拥有哪个项目?我们应该持续关注两个团队的工作成果。”pineau表示。

算力不足下,meta仍计划明年发布对标gpt-4的大模型

meta ai 研究团队这一内斗、核心人员离职案例,可以从两个角度解读。

一是大公司创新能力随着内部问题不断下降,资本和大科技公司创新鸿沟加深。(详见钛媒体app前文:《全球经济巨变下,资本和科技创新之间的冲突与平衡》)

此前,谷歌也做了类似的事情,deepmind研发 ai 技术多年,诞生出了alphafold、alphago等行业顶级技术,但难以盈利,2018年-2020年总亏损额超过17亿美元。因此在今年4月,谷歌母公司alphabet ceo sundar pichai (皮猜)宣布,将谷歌大脑和deepmind 两大团队合并,组成“google deepmind”部门,研发任务之一是多模态 ai 模型,而此前谷歌大脑、deepmind内部竞争颇多。

另外在阿里内部也产生一定的竞争。近日,阿里达摩院m6大模型带头人杨红霞、阿里云ai大牛贾扬清、机器学习科学家金榕等 ai 大牛也纷纷离职,有消息称,阿里大模型研发时经过内部的竞赛流程,金榕和杨红霞团队技术产生竞争,最终诸多因素下才最终选择杨红霞的模型技术,从而诞生通义千问,不过最终两位技术负责人均从阿里辞职。

搜狗创始人、百川智能创始人兼ceo王小川告诉钛媒体app,“资本是逐利的,所以不是投自动驾驶就是安防。对大厂来说,当时投钱创新是有巨大风险的。对企业的一号位来说,想的更多还是业务上的东西,花钱最后没出成果,算谁的?”

另外一方面是meta的算力资源不足。

随着openai用微软云的算力、谷歌则自行购买gpu(图形处理器)芯片,多家科技巨头加大算力基础设施布局。而meta没有自己的庞大云算力储备,因此在生成式ai的赛道上明显“掉队”。

2022年的一场5个小时会议上,meta的基础设施负责人当时表示:“我们在开发ai的工具、工作流程和程序上存在显著差距,我们必须得投入大笔投资。”而随着chatgpt的发布,全球 ai 训练、推理算力需求加剧,meta似乎只能追赶。

据报道,gpt-3使用10000张gpu a100显卡、花了30天才训练完了1750 亿参数,单 gpu 计算性能为12tflops,消耗的总算力为每天每秒3640petaflop,gpu-4数据更高。即便是利用3584 个英伟达最新 h100 芯片,gpt-3大模型训练任务也需要11分钟。而openai尚未透露gpt-4的大小,但估计参数为1.5万亿。

庞大的数据量需要大量的算力支持。因此,meta依然需要购买大量英伟达产品,补足算力缺口,例如meta llama模型已经在微软云平台azure上提供。

meta cfo susan li在今年2月坦承,meta投入给生成式ai的算力相当有限,基本上所有的ai算力都投向了广告、信息流和短视频项目。

即便是算力不足,扎克伯格仍希望尽力追赶,并且打造更多的大模型产品落地应用。

据外媒9月11日报道,meta正在开发一种新的 ai 大语言模型(llm),超越llama 2,性能比肩gpt-4。报道称,预计meta将在2024年初开始训练这一大模型。

(本文首发钛媒体app,作者|林志佳)

关键词

24快报
元宇宙的喜与忧
2024年2月23日 10:28
json抓取失败
网站地图