首页 > 资讯 >

当前快报:深度好文 | AI大模型众生相:被迫追逐、技术信仰和烧钱游戏

2023-04-30 15:00:04 来源:富途牛牛

每一个大模型都是一台昂贵的“碎钞机”,这已经成为各路AI观察家们津津乐道的常识。


【资料图】

大模型训练成本有一个简单的比例:训练费用跟参数量的平方成正比。比如OpenAI训练1750亿参数的GPT-3费用大概是1200万美元,训练5000亿参数(业界预估)的GPT-4成本就飙升至1亿美元。

成本大都来自GPU使用时长。Meta训练650亿个参数的LLaMA模型耗费100万个GPU小时;HuggingFace(号称机器学习届的Github)训练Bloom模型耗费了超过两个半月的时间,使用的算力相当于一台装有500 个 GPU的超级计算机。

Google在训练5400亿参数的PaLM模型时,在6144 块 TPU v4 芯片上训练了 1200 小时,然后又在在 3072 块 TPU v4 芯片上训练了336小时,总共消耗了2.56e24 FLOPs的算力,折合成Google云计算的报价,大概在900~1700 万美元左右。

但是……几百上千万美金的训练费用和几亿美金的硬件投入,相比AIGC开启的浪潮,真的算贵吗?

微软2022年的净利润是727亿美金,Google是600亿美金,Meta则是230亿美金,在OpenAI花费460万美金训练GPT-3之前,这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新方向”。

微软迄今为止向OpenAI投入了100多亿美金,这个数字看起来很多,但要知道微软当年收购LinkedIn就花了262亿美金,而在更早的时候收购诺基亚手机业务花了71.7亿美金,基本等于打了水漂。

Meta则花了更多“冤枉钱”来寻找第二曲线。2021年扎克伯格把Facebook的名字改成了“Meta”,投入巨资All in元宇宙,2022年元宇宙部门亏损137亿美元。在ChatGPT问世之前,Meta甚至一度准备把2023年的20%预算投入到元宇宙中去。

Google对AI一向重视,不仅收购了“前GPT时代”的明星DeepMind,还是Transformer这一革命性模型的提出者,但Google并没有像OpenAI那样孤注一掷地“死磕”大语言模型,而是在多个方向上“撒胡椒面”——总投入并不少,但效果加起来都不如一个ChatGPT。

拉开视野来看,全球科技巨头——包括国内的大型互联网企业在移动互联网渗透率见顶之后,展开了惨烈的“存量博弈”,卷算法推荐、卷短视频、卷Web3、卷本地生活……投入的资金远远超过OpenAI在ChatGPT诞生前烧掉的10亿美金。

发现新大陆的费用,跟旧大陆的内耗向来不在一个数量级。欧洲人在哥伦布发现新大陆之前内卷了1000年,而发现新大陆只花了西班牙王室投资的200万马拉维迪(大约14000美元)——跟新大陆给世界带来的变化相比,这点儿钱其实微不足道。

事实上,“资金”从来都不是启动本轮AI浪潮的核心因素。真正核心的因素是另外两个字:信仰。

蛮力的神迹

ChatGPT走红后,好事儿的媒体跑去采访了Google旗下的DeepMind创始人Demis Hassabis。

被OpenAI抢去了所有风头的Hassabis言辞有点儿不客气:“面对自然语言这一挑战,ChatGPT的解决方案如此不优雅——仅仅是更多的计算能力和数据的蛮力,我的研究灵魂对此倍感失望。”

这句话听起来很“酸”,然而他接着话锋一转:“但这的确是获得最佳结果的方式,所以我们(的大模型)也以此为基础。”意思就是虽然不太认同,但OpenAI的“蛮力”真的很香,我们也不得不去学。

Hassabis身段灵活,但早期对“蛮力”这件事的态度,让Google和OpenAI有了致命的分野。

2017年,谷歌在论文中公开了革命性的Transformer模型,业界逐渐意识到这个模型对于构建AGI(通用人工智能)的意义。然而,基于同样的Transformer,谷歌与OpenAI却走上了两条不同的两条路。

OpenAI旗帜鲜明地从Transformer构建大语言模型,疯狂堆参数,2018年6月发布GPT-1,参数1.17亿;2019年2月发布GPT-2,参数15亿;2020年5月发布GPT-3,参数1750亿,在蛮力的道路上“一条路走到黑”。

而Google虽然也地祭出BERT(3亿参数)、T5(110亿参数)和Switch Transformer(1.6万亿参数),表面上跟OpenAI斗的有来有回,但光从模型的名字就能看出来:Google总在更换模型搭建的策略,而OpenAI的策略更单一更专注。

比如GPT-2和GPT-1相比,OpenAI没有重新设计底层结构,而是将Transformer堆叠的层数从12层增加到48层,并使用了更大的训练数据集,而GPT-3进一步把层数增加到了96层,使用比GPT-2还要大的数据集,但模型框架基本上没有改变。

另外,基于Transformer的大模型演化有三个分支:Encoder Only,Encode-Decoder,Decoder Only。OpenAI一直坚持只用Decoder Only方案,而Google则变来变去:BERT模型使用Encoder Only,T5模型又改成了Encode-Decoder。

等到OpenAI突破后,Google匆忙转向Decoder Only方案(PaLM模型),时间已经错失了至少一年半。

在跟OpenAI的军备竞赛中,Google却总沉浸在一些貌似炫酷,但实则对AI缺乏信心的产品上——比如2022年发布的Gato。Gato的思路是先做一个大模型底座,然后再灌不同的数据,以此生成出大量小模型——每个小模型都有特定的能力。

这么做的目的是让单个AI具备尽可能多的功能,更加通用。做一个简单的类比:谷歌路线相当于让一个上完九年义务教育的12岁小孩儿,去参加钢琴、写作、编程、舞蹈等一系列专业技能培训班,靠着“1+1+1...”培养出一个多才多艺的“全才”。

Gato能执行604种不同的任务,包括给图片配文、玩雅达利游戏、操作机械臂搭积木。不过,Gato虽做到了“通才”,但实用性却相当堪忧:其中近一半功能,还不如便宜小巧的“专才AI”好使,有媒体评价:一个平庸的人工智能。

“万能”但又不那么万能的Gato

相比之下,OpenA更热衷于让AI“做好一件事”,即像人类一样理解自然语言——这是通向AGI的必经之路。

在所有站在Transformer模型肩膀上的团队中,OpenAI是把“蛮力”发挥到最淋漓尽致的一个,算力不够就买算力,数据不够就找数据,别人的牛逼技术我直接拿来用,反正就是要把规模堆上去。终于,在“暴力美学”的指引下,奇迹出现了。

从成立第一天起,OpenAI就把创造接近甚至超越人类的AGI(通用人工智能)作为几乎唯一的目标。而且相比Google的迟疑不定,OpenAI发起人们(包括马斯克)是真的相信AI可以成为一个18岁的成年人,而不是永远停留在12岁上打转。

黄仁勋在今年3月对谈OpenAI联合创始人Ilya Sutskever时,问了一个问题:“在这个(GPT研发的)过程中,你一直相信,扩大规模会改善这些模型的性能吗?” Ilya回答道:“这是一个直觉。我有一个很强烈的信念,更大意味着更好。”

这是一场蛮力的胜利,但更是一种信仰的胜利。大模型回报给“信仰”的礼物,也远超想象——随着参数量的暴力提升,研究人员突然有一天发现大模型出现了令人惊喜,但又难以解释的能力飙升。

他们找了一个老词来形容这种现象:Emergence(涌现)。

虔诚的回报

Emergence(涌现)这个词,常见于哲学、系统学、生物学等领域,其经典的定义是:当一个实体被观察到具有各个部分单独存在时不具备的属性和能力时,这种现象就被称之为“涌现”,早在古希腊时代,这种现象就被亚里士多德研究过。

后来,英国哲学家George Lewes在1875年第一次发明了Emergence这个词,用来专门形容上述现象。1972年,诺贝尔物理学奖得主Philip Anderson撰写了一篇名叫“More is Different”的文章,用一句经典的金句来给“涌现”做了解释:

当一个系统的量变导致质变时,就称之为“涌现”。

“涌现”被引入到大模型中,可以说是相当贴切:AI工程师们观察到一个现象,随着模型的参数量越来越大,当超过某个阈值或者“临界点”的时候——比如参数量达到100亿,模型会出现一些让开发者完全意想不到的复杂能力——比如类似人类的思维和推理能力。

比如,Google大模型测试基准BIG-Bench里有一项任务:给出4个emoj表情符号,让模型回答代表什么电影。简单和中等复杂度的模型都回答错了,只有参数超过100亿的大模型会告诉测试者:这是电影Finding Nemo(海底总动员)。

2022年,来自Google、DeepMind、斯坦福和北卡莱罗纳大学的学者分析了GPT-3、PaLM、LaMDA等多个大模型,发现随着训练时间(FLOPs)、参数量和训练数据规模的增加,模型的某些能力会“突然”出现拐点,性能肉眼可见地骤然提升。

这些“涌现”能力超过了137多种,包括多步算术、词义消歧、逻辑推导、概念组合、上下文理解等。这项研究给大模型的“涌现”下了一个定义:如果一项能力只有在大模型中存在,在小模型中观测不到,这项能力就是“涌现”出来的。

微博博主tombkeeper做过这样一个测试:在ChatGPT刚诞生时,他将发表于2018年的一篇充满隐喻的微博——“对微博上的佩奇来说,今天是黑暗的一天——她们的摩西杀死了她们的加百列”,交给ChatGPT理解,但ChatGPT回答失败了。

来源:微博tombkeeper

而等到2023年3月OpenAI推出了GPT-4,tombkeeper再次将这个问题扔给AI,回答基本接近满分。

来源:微博tombkeeper

Google在训练大模型PaLM时,也发现随着参数规模的增加,模型会不断“涌现”出新的能力。

当最终把PaLM的参数堆到5400亿时,模型就具备了区分因果关系、理解上下文概念、解释冷笑话等能力。比如像前文一样根据4个emoj表情符号来猜电影名字。

对于大模型“涌现”的背后逻辑,现在几乎没有科学家能彻底讲清楚。这让人想起了1950年阿兰·图灵在《计算机器与智能》这篇论文中论述过一个观点:“学习机器有一个重要的特征,即它的老师往往对机器内部运行情况一无所知。”

当然,有人对此欣喜若狂,有人则会觉得毛骨悚然。不过无论是哪一派,都不得不承认那句老话:大力真的能出奇迹。“大力”背后就是信仰——人类一定可以用硅基来模仿大脑结构,最终实现超越人类的智能。而“涌现”告诉我们:这一刻越来越近了。

信仰的充值

有信仰,就要对信仰充值。中世纪基督徒用的是赎罪券,新世纪AI信徒用的则是晶体管。

文心一言面世之后,李彦宏的一段采访曾冲上热搜——李厂长直言“中国基本不会再诞生一家OpenAI”,这似乎有点儿不太给王慧文面子。但这一观点确实有理有据:大模型军备竞赛,大概率会比曾经烧掉数十亿美金的网约车战争还要惨烈。

如果按照业界预估的成本,GPT-4训练成本大约在1亿美金左右,GPT-3的训练费用也要1200万美元。先不说昂贵的人才团队费用,王慧文的5000万美元光是投入到GPU购买或租赁上,都显得捉襟见肘。

大模型发展的三要素:算法、算力、数据。其中算力是数字时代的“石油”,未来的缺口一定会越来越大。自2012年开启黄金时代后,AI对算力的需求开始呈现指数级增长。从2012年的AlexNet,到2017年的AlphaGo Zero,算力消耗足足翻了30万倍。

训练大模型需要专门的GPU集群,传统数据中心的用场不大。微软为了“迎娶”OpenAI,曾特地配备了一台拥有数万块A100与H100 GPU的超级计算机,光硬件入场费就花了近10亿美金。

即便如此,据相关机构测算,由于ChatGPT与GPT-4的访问量仍在增长,10亿美金的超级计算机马上又要不够用了。要么进一步扩大算力,要么只能尽力控制成本,继续采用限流等手段。

对此,贴心的卖铲人英伟达推出了AI超算云服务:租赁8块旗舰版A100,每月只需37000美元,童叟无欺。若要达到训练GPT-4的算力(一万块A100)月租金需4600万美元左右——每月净利润不足一个小目标的企业,的确可以洗洗睡了。

跟用神经网络来模仿大脑一样,AI算力的昂贵也跟人脑的属性保持一致。

一个人的大脑大约有860亿个神经元,每个神经元平均跟其它7000个神经元相连接,所以大约有6000万亿个连接。尽管大脑的重量只占人体的2%左右,但当无数神经元连接工作的时候,它们每天需要消耗人体总能量的20%~30%。

因此,即使是碳基生物的“智能”,也是一种暴力堆砌神经元后的“涌现”,对能量的消耗巨大。而相比经过上亿年进化的碳基神经元,晶体管构建的神经网络离“低功耗”相距甚远——比如柯洁功率是20w,而跟他下棋的AlphaGo功耗是他的5万倍。

因此,人类要想做出真正的AGI,还需要继续给信仰来充值。

对全人类来说,这种充值显然是无比划算的。仔细算一算,OpenAI烧掉的10亿美金,不仅给全球的科技公司找到了一片“新大陆”,还给愈发内卷的全球经济点亮了增量逻辑。在美元泛滥的当下,还有比这10亿美元性价比更高的项目吗?

当“新大陆”被发现后,全世界都会蜂拥而至。比尔·盖茨虽然现在是AI的狂热鼓吹者,但早在微软第一次投资OpenAI时,他是强烈的怀疑者,直到去年年底看到GPT-4的内部演示才对外表示:It’s a shock,this thing is amazing。

比尔·盖茨在未来可能拥有人工智能领域最雄伟大厦的冠名权,但OpenAI的创始人们、以及更多连接主义学派的人工智能先驱,值得人们在广场上树立雕像。大模型的炼丹之路,信则灵,不信则妄,跟风的投机主义者不配留下姓名。

最后,人类通往地狱或者天堂的道路,一定是由AI虔诚的信徒用一颗颗晶体管铺就的。

编辑/phoebe

标签:

当前快报:深度好文 | AI大模型众生相:被迫追逐、技术信仰和烧钱游戏

每一个大模型都是一台昂贵的“碎钞机”,这已经成为各路AI观察家们津津乐道的常识。大模型训练成本有一...

2023-04-30

天天最新:恒生电子(600570):1Q23符合预期 看好AI+金融行业机遇

恒生电子(600570):1Q23符合预期看好AI+金融行业机遇

2023-04-30

中消协发声:酒店民宿单方违约应依法赔偿 环球热文

今年“五一”假期,有些地方出现了民宿、酒店“涨价风”,有的价格甚至比平时大涨5倍至7倍。部分民宿经...

2023-04-30

外国媒体人对比中美从苏丹撤侨:中国使馆坚守岗位VS美国外交官先撤离

安柏然28日在视频分享平台上发布的一段视频,展示了中国和美国在此次撤侨行动中的不同之处:美国总统拜登已

2023-04-30

环球热讯:和谐平安金条价格今天多少一克(2023年04月30日)

金投网提供和谐平安金条价格今天多少一克(2023年04月30日),和谐平安金条价格最新消息(2023年04月30日)

2023-04-30

五一去哪儿丨去“一园两中心” 呀,那里可是心灵的栖息地

“五一”假期,益阳市中心城区“一园两中心”花木葱茏,别具一格的建筑掩映在丛绿中。亲近自然,放飞心...

2023-04-30

环球要闻:5月五场重要天象 观星赏月好戏连台

记者从北京天文馆获悉,5月,浩瀚星空将发生5场比较重要的天象景观。月初有半影月食,中途有金星合M35星团

2023-04-30

环球最资讯丨湖里区“原创音乐创造营”启动 假期文旅生活更闪亮

音你精彩假期文旅生活更闪亮湖里区“原创音乐创造营”昨启动,为音乐人提供更大舞台音乐人在“唤醒夏日D...

2023-04-30

如何排八字大运_如何排八字

熟悉天干地支的阴阳五行属性五阳干甲丙壬庚戊;五阴干乙丁癸辛己六阳支子寅辰午申戌;六阴支丑卯巳未酉亥熟

2023-04-30

苏丹东部加达里夫州宣布进入紧急状态_天天看点

苏丹东部加达里夫州宣布进入紧急状态

2023-04-30

真假羊肉卷鉴别_怎么鉴别真假羊肉-环球热闻

1、看颜色:假羊肉卷是鲜红色或血红色,真羊肉卷是粉色或浅粉色。2、看质地:假羊肉卷质地粗糙,切片后瘦肉

2023-04-30

杨幂养小鬼的明星_杨幂养小鬼送不走

1、这种说法是很不科学的,我们应该相信科学,杨幂怎么会养小鬼呢?这种传说中伤人伤己的东西没几个人敢试

2023-04-30

冰轮环境:接受太平资产管理有限公司等机构调研-环球热头条

冰轮环境(SZ000811,收盘价:14 8元)发布公告称,2023年4月29日,冰轮环境接受太平资产管理有限公司等机

2023-04-29

我是传奇2西瓜影音 我是传奇2什么时候上映

今天来聊聊关于我是传奇2西瓜影音,我是传奇2什么时候上映的文章,现在就为大家来简单介绍下我是传奇2西瓜

2023-04-29

wps怎么做ppt背景图片_wps怎么做ppt背景图片-每日看点

wpsppt背景图的制作方法是:1 首先打开ppt软件。2 在ppt的页面上点击右键,然后选择“背景”。3 在“填充

2023-04-29

画粽子简笔画又可爱又简单_画粽子简笔画又可爱_天天速读

你们好,最近小活发现有诸多的小伙伴们对于画粽子简笔画又可爱又简单,画粽子简笔画又可爱这个问题都颇为感

2023-04-29

西海岸开启海上嘉年华五一“欢乐游”:弧形裸眼3D、威尼斯水上演艺等安排上了 全球热点评

青岛日报社/观海新闻4月29日讯今日,青岛西海岸新区2023海上嘉年华“欢乐游”第一季五一档活动精彩启幕...

2023-04-29

网红西安又出大招 来安仁坊当一天“唐潮人”

古城精彩不停,西安不止一面。随着五一”小长假来临,西安再次跻身最受关注的国内旅游目的地之一,海内...

2023-04-29

当前讯息:微软总裁称否决收购不利于英国 政府回应:没有事实依据

近日,英国政府回应了微软总裁的相关言论。英国首相里希·苏纳克的发言人通过路透社发表声明,称布拉德...

2023-04-29

环球微头条丨“五一”期间,大庆市这些网点停办业务!

注意啦大庆市热力集团发布供热服务大厅放假通知大庆市热力集团供热服务大厅,于2023年4月29日—2023年5月3

2023-04-29

龙大美食:预制菜业务稳步增长 2022年净利增长111.45%

中证网讯(记者张鹏飞)4月28日晚间,龙大美食披露2022年年报。报告显示,2022年公司实现营业收入161 16亿元

2023-04-29

每日视点!布衣天子朱元璋

1、《布衣天子朱元璋》是2019年当代世界出版社的图书,作者是清风明月。2、《布衣天子朱元璋》主要讲述的是

2023-04-29

世界新动态:「过去的未来之声」德国非洲音乐厂牌Analog Africa成立十周年纪念

机翻自唱片官网,粗校对。十年来,SamyBenRedjeb开创性厂牌AnalogAfrica一直在挖掘来自非洲的爆炸性“foot-

2023-04-29

如何取消word上的分页符(word文档如何取消分页符)

1、双击打开word文档,点击菜单栏上方的,点击“页眉”选择“第一条”2、按住“ctrl+h”调出查找替换框...

2023-04-29

市场监管总局开展2023年涉企违规收费整治工作

今年将聚焦政府部门及下属单位、金融、公用企业三大重点领域,坚持问题导向和目标导向,采取本地检查、交叉

2023-04-29

Brave宣布剔除必应搜索API,实现100%独立运营 天天热头条

刚买回来红枫怎么种植 红枫种植方法

热议:百家拳之董海川电影_百家拳系列电影

文化大展助力乡村振兴,首届“爱莲杯”全国书法大展在珠海斗门举行

当前快讯:外贸领航网采购商信息准吗_外贸领航网

指导价42.78-53.13万元 全新奔驰GLC正式上市

世界简讯:史上最挤五一档,来了!

北京港澳通行证旅游签注非京籍可以在自助签注机上办理吗

实时焦点:科沃斯:公司及其控股子公司对外担保总额折合人民币约1584.14万元

全球动态:股票行情快报:宁波远洋(601022)4月28日主力资金净卖出179.01万元

国联水产:4月28日召开董事会会议-每日报道

结构力学求解器下载步骤_结构力学求解器下载

黄山旅游2023年一季度进山游客同比增312.13% 董事长章德辉:没想到恢复得这么快 天天热推荐

天天微资讯!“五一”果蔬预定火热 拱北海关助力供澳“菜篮子”抢鲜提速

黄河防总:黄河中下游今夏降水较常年同期增多 防汛形势依然严峻_世界快消息

当前信息:南京高科: 南京高科关于2022年度利润分配方案的公告

每日热闻!快活的近义词是什么_快活的意思

廊坊广电·关注丨【撸起袖子加油干 风雨无阻向前行】“廊坊——塔什干”中亚班列开通 我市国际货运班列再添新线路|当前看点

天天时讯:“五一”出行高峰将至 这份电车出游充电贴士一定收好!

微信电子请帖怎么做的_微信电子请帖怎么做-天天看点

使用IPVS代理模式在Kubernetes中实现负载均衡和服务发现

动态:2023年1-3月中国原木进口数据统计分析:进口量同比下降7.0%

漫步在武侠世界百度百科_漫步在武侠世界 观点

银保监会:财政补贴性农险的附加费率不得高于25% 其他产品的上限可适当提高

横琴国际仲裁中心、横琴国际商事调解中心揭牌

Copyright @  2015-2022 太平洋家电网版权所有  备案号: 豫ICP备2022016495号-17   联系邮箱:93 96 74 66 9@qq.com