“做通用大模型, 5000万元只够看一次‘烟花’,这是一次的训练成本。”
“现在大模型应用的数量远远不够,企业基本是有很模糊的需求,但又把期望值放得很高。”
“给做AI应用创业的公司两个建议,一是第一笔钱最好来自客户而不是VC(投资人),二是六个月内最好打平你的成本,然后可以赚钱。”
(资料图片)
ChatGPT爆红之后,大模型点燃的人工智能新一轮热潮还在继续,近日,OpenAI宣布即将推出能够理解语音和图片的新版本ChatGPT,另有消息称,OpenAI或赶在谷歌发布Gemini之前推出同为多模态大模型的GPT-vision,而微软也推出了全新的Copilot平台。
从国内发展情况来看,百度创始人李彦宏在9月初称,亿级参数的大型语言模型,国内已经发布了超过70个。 360创始人周鸿祎更是直言,现在是“百模大战”,未来很有可能演化为“万模群舞”。
绝大部分已发布大模型的企业认为,目前许多行业的关键环节都值得用大模型改造一遍,也有人将大模型比作移动时代的操作系统,号召创业者们在大模型的基础上开发出足够多的AI应用。只是与发布企业的火热相比,普通大众尚未感知到大模型的“魅力”,一些To C端(用户端)的应用在发布后仅带来短暂的热度。
国内是否需要这么多基础大模型?当互联网大厂的大模型还没找到清晰的商业模型,创业公司的出路在哪里?现阶段大模型的火热有没有泡沫?企业客户和个人用户的使用感受如何?近日,澎湃新闻记者采访了多位大模型方面的从业者、创业者、使用者试图寻找答案。
创业公司更大的机会在“中间层”“应用层”?
“国外大模型我们在用Open AI 的GPT-4,有的客户会有私有化部署的要求,所以国产大模型我们基本也跑了试试,上亿级的模型进步很快,但与GPT-3.5还有差距。分类来看,BAT等大厂自带场景、数据,是认真在做,创业公司里智谱AI、MiniMax、百川智能等头部公司也做的不错,拿下了一部分客户。但业界确实有些公司,更多是为了融资造势,拿了部分垂类的行业数据,根据自己的资金实力,找一个开源的模型训一下,就说自己做了大模型。”基于大语言模型的自动化平台公司澜码科技CEO周健在接受澎湃新闻记者采访时说。
周健曾在谷歌、阿里云、弘玑RPA等公司工作,也曾是“AI四小龙”依图科技的第10号员工,今年2月,周健创立了澜码科技,并与金山办公等多家上市公司和独角兽企业达成战略合作。在周健看来,因为大模型的“幻觉问题”和权限问题,终端用户或者甲方企业客户很难和大模型直接合作,需要像澜码科技这样的中间厂商,这也是创业公司的机会。
在基础大模型与用户端需要“中间厂商”,OpenAI的首席执行官山姆·奥特曼(Sam Altman)也曾作出这样的判断。奥特曼表示,将来只会有一小部分基础大模型,会有一批新的创业公司采用已有的大模型,并对其进行调整,创造更多价值,“他们有独特的数据飞轮,随着时间的推移不断改进,我认为中间那一层会创造很多价值。”
周健告诉澎湃新闻记者,除非大资本支持,大部分创业公司并不具有做基础大模型的实力,因此把目光投向“中间层”或“应用层”是更务实的做法。
“有家做大模型的企业曾告诉我,他们之前训练的大模型大概花了两、三个亿(元),现在算力涨价,新训一个估计花费要五个亿(元),而大部分创业公司根本不可能随手一拍就是5亿(元)。我们作为中间层,不需要负责大模型智能能力的提升,只是用大模型做产品和商业化,并不需要大规模算力,但在拿了数千万元的A轮融资后,我们还是用了一部分资金购买算力。”周健说。
国盛证券报告在今年2月曾估算,GPT-3训练一次的成本约为140万美元,对于一些更大的 LLM(大型语言模型),训练成本介于200万美元至1200万美元之间。以ChatGPT在2023年1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日电费在5万美元左右。
创业公司Zilliz主要提供面向AI应用的新一代数据库技术,帮助企业开发AI应用,并已拿到超6000万美元的B轮融资,该公司观察到,在过去几个月,各行各业应用大模型都需要将自己企业内部知识库跟大模型整合,而这些需求也是Zilliz发展壮大的机会。
Zilliz技术合伙人兼首席技术官栾小凡在接受澎湃新闻记者采访时表示:“说得夸张些,可能在十年后,不会用大模型就和现在不会用手机一样。”栾小凡认为现在的大模型确实会存在成本过高的问题,但他相信随着技术发展,大模型的成本会越来越低,行业内态度也比较乐观,“现在的大模型就像是十年前的云计算,集中式发展会带来成本下降。”
谈及大模型应用创业的现状,周健直言:“公司很多,但都没有做出来。”
大模型“有幻觉”还能应用吗?
“林黛玉三打白骨精、贾宝玉倒拔垂杨柳,大模型开的药方不敢吃,写的律师函也不敢用。”
大模型的“幻觉”问题(指模型生成不正确、无意义或不真实的文本)是大模型要落地应用面临的问题之一。有业内人士指出,AI在大部分领域要做到足够好,达到甚至超过人类水平才能产生实际商业价值,也许AI智商从0到70是巨大进步,但自己仍不会为它付费,“就像水必须烧到100度才能驱动蒸汽机,你99度的水就不行。”
栾小凡也向澎湃新闻记者坦言,大模型应用的运作建立在概率之上,可以通过大量参数的导入不断提高正确率,但也只能无限接近于100%,和计算机程序原有的运行原理相比,更像是人类的思考方式。正因如此,大模型应用适合被用来进行辅助工作,最终还是需要人来做判断。
值得关注的是,9月12日,为了进一步推动人工智能应用的落地和创新,工业和信息化部工业文化发展中心在北京召开AI应用工作组筹备会,并正式成立AI应用工作组。
AI应用工作组执行组长、行行AI董事长李明顺在接受澎湃新闻记者采访时表示:“大模型不是技术创新,也不是技术革命,它只是一个技术的发现。这个技术一旦众所周知后,拼的是数据能力、算力投入,本质上是钱的问题。所以,我们看到许多起初做基础大模型的创业公司,现在慢慢转了方向,在找垂直场景做应用。”
李明顺表示,大模型别怕有“幻觉”,AI应用落地是循序渐进的,哪怕是严肃的场景,也可以先把一些可能产生“幻觉”的场景给B端专业人士使用,做辅助决策,然后再推向C端,“比如,把大模型用在医疗上,它的回答可能不那么专业,但这不影响把大模型应用给年轻的医生做辅助决策。大家还是要找准大模型应用的方向,你可以利用AI操控电风扇,但你不能依靠它问股票涨不涨,哪只股票会涨,这本身就不理性。”
周健也向澎湃新闻记者表示,容错度高的领域更适合做大模型,“审核、合规、支付这些容错度低的,利用大模型就要谨慎。”
大模型是否有泡沫?
大模型很热,其中有没有“泡沫”?是否需要这么多大模型?
多位从业人士在澎湃新闻记者的采访中表示有泡沫,所谓“百模大战”“万模群舞”,在业内人士看来最终需要的大模型可能只在个位数。
“当然有泡沫,上游产能需求暴增,英伟达的芯片只能加价买,价格涨了50%-60%,反过来说,如果没有这么多公司想要做大语言模型,算力不该那么紧张。”周健说。
栾小凡也坦言,大模型可能正处于泡沫的顶点,“一段时间后大家的热情会下降,然后再到下一步的研究,要经过一个过程。”
李明顺则判断,底座大模型可能只需要几家,数量不超过5个。
目前,B端和C端对大模型应用的使用感受如何?人们什么时候能够普遍感受到大模型应用的价值?
在B端,中小型企业鲁邦通云与数字化服务中心CTO楚宁志向澎湃新闻记者表示,若采用云的模式来按需使用大模型,成本并不高,先低成本的验证,再考虑私有化部署,但建议中小企业要有一个理解大模型并尝试使用大模型支持企业业务的过程。
楚宁志告诉记者,该公司已经“尝鲜”了国内一家互联网大厂的大模型,应用方向包括设备AI智能巡检、预测性维护,以及医疗物联网产品的健康体征分析报告。“就现状而言,大模型应用落地的挑战还是在于数据本身,缺乏有效的数据积累,对于中小企业而言,是一个大问题,这需要国家政策、标准和法规的支持和引导。”楚宁志说。
在C端,一位前互联网大厂的资深创意负责人、AI驱动的创意公司zax创始人赵晨已将ChatGPT、Stable Diffusion等工具熟练地应用在其工作中。赵晨告诉澎湃新闻记者,AIGC(生成式人工智能)已改变他的工作流,“AIGC生产的DEMO基本接近终稿的七八成且速度快,人来画需要三四天,用AIGC基本半小时可以完成,只是没有那么精细。另外,我也节约了成本,客户最终买的只是‘一稿’,但在最终定稿前,会过好几版,如果没有AI,我要多找几个插画师,每幅画都要付出成本,这很贵。”
“我认为,未来替代你的不是AI,而是会用AI的人。”赵晨告诉澎湃新闻记者,使用AIGC工具在技巧方面有一定门槛,在广告创意领域,AIGC工具还远远没有普及。
东方证券在研报中指出,大模型企业在获得备案和向公众开放后,各类C端应用将从过去的邀请制、限制名额的注册制,进入到全面推广期,这将对各类基于大模型的应用推广打下更好基础。B端应用方面,大模型与企业知识库、工作流的结合,具备较好的粘性和应用空间,未来大模型+流程、大模型+知识库、大模型+低代码均具备较好的落地空间。
天风证券则指出,下半年开始海外巨头应用和模型迭代速度提升明显,预计海外巨头相关AI事件和AI产品迭代,或将如同上半年GPT4发布一样成为持续催化AI行情的重要事件,而现阶段Copilot发布和Adobe AI产品开启定价仅是AI应用落地趋势的开始,预计会有更多AI应用有望随着大模型技术升级不断涌现。
关键词: