发布时间:2024-11-18 08:32:22 来源:米乐m6米乐平台 作者:M6米乐最新下载地址
智东西6月5报道,在GTIC 2023中国AIGC创新峰会上,商汤科技联合创始人、大装置事业群总裁杨帆以《AI 2.0 — 大模型带来的新时代浪潮》为主题发表演讲,解读了作为“小模型时代”走出的创企的求变之路和能力圈。
AI正引领新一代技术,从AI辅助科研、生成式AI席卷到近期爆火的对话机器人ChatGPT。大(算)力出奇迹、量变引发质变。杨帆称,AI生产范式正发生重大转变——大模型时代到来。
杨帆谈道,在过去10年的AI“小模型”时代,解决单一问题的深度学习方法与工业化小模型生产工具逐步成熟;在新的大模型时代,大模型即服务(MaaS)成为新主题,诞生了围绕大模型基础设施降本、算力数据军备赛、实时用户反馈展开的AI新范式。
面向这一趋势,扎根AI近10年的商汤沉淀出商汤SenseCore大装置,从AI原生基础设施、大模型生产平台、算法模型服务、行业应用四个层面,使能极致大模型开发体验。
杨帆说,商汤将结合多年行业经验累积,提供高效率、低成本、规模化的新一代AI基础设施产品与服务,全栈加速千亿级大模型生产部署,促进数据采集、标注、管理效率大幅提升,缩减模型迭代周期。同时商汤还会通过提供大模型开发支持服务,保障开发成果落地。
感谢今天有这个机会来跟大家分享一下商汤最近在做的一些工作。今年ChatGPT、大模型非常火,商汤作为一个从事算法研发的公司,我们不叫大模型,而是讲预训练模型,这件事情我们从18年就开始在做了。
在我们看来,今天ChatGPT因为能跟C端用户无缝交互的对话式能力,使得最近两年以大数据、暴力美学为基础的新的预训练模型技术火出圈,被更多人所认识和感知到。
过去两年,我们看到的很多技术进步其实都是类似的机理和机制,我个人认为它们的意义某种程度上比起ChatGPT毫不逊色,甚至更大。
比如前年到去年很多AI for Science的突破,今天能够快速推演所有蛋白质的结构,能够做原子剧变的模拟,这些实际上都是一些最新AI技术通过更大的模型训练带来的改变。
大模型、预训练其实是一个非常宽泛的领域,不止是自然语言,也包括视觉、多模态、决策,虽然决策模型今天的数据量级和参数量级没有那么大,但是很多模态模型最终还是要应用到决策任务上。所以在我看来,最近两年整个AI研究范式确实产生了非常大的改变,而且这个改变是全方位的。包括AI for Science,不仅仅是技术的进步,过去两年相关商业化节奏也非常快,很多国内外公司已经可以利用最新的科研技术,迅速形成一些生产力的转化。
再比如说去年非常火的文生图,还有最新的Stable Diffusion绘画结果,都已经是实实在在的商业尝试。你可以在社交平台上找到10万粉丝的AI博主。此前,Midjourney发布V5版本,已经解决了画手指的问题。
技术本身在非常快速地迭代,不仅仅是对话式大模型。当然对话大模型本身有无数的探讨与思考,我们相信它在未来能够形成大量新的技术应用。今天在国内外有很多从业者已经开始用这样的技术快速地做一些应用的创造与更新。
今天很多嘉宾提到了大数据、大模型以及支撑它的大算力,的确如此。单个AI模型的数据参数量以及所需要的算力规模到2010、2012年之后是一个非常陡峭的曲线,呈现极高速的增长,它的成本也是非常高昂的。
我们做了一个简单的测算,微软现在尝试把一部分ChatGPT接进了Bing搜索结果,假设把谷歌每秒的查询全部AI化,为了支撑这个东西去跑,意味着300亿美金的运算成本,非常高昂。
我们面前还有很长的路。一方面是技术的进步,一方面是成本的下降、资源的节约,还有很多的工作需要我们去做。从GPT-2到GPT-3到3.5再到4,特别是3.5到4,模型参数并没有很大变化,主要来自于数据量级多了20倍,而产生很大的效果。所有这一切都指向“大力出奇迹,量变引发质变”。在我们看来,这个方向更多意味着整个AI从技术生产范式以及商业模式带来全新的变化。
商汤2014年成立,经历了上一轮AI的完整商业化过程。我们看到所有AI技术创新、算法的迭代,其实是一个链条很长、要不断高频迭代形成闭环,最后才能产生应用的模式。
这样的模式有一个问题:链条中牵扯到多环节,而且在每个环节需要的技术能力、业务理解、场景能力都是不同的,需要在每个环节都保持专业性。同时,它要求整个迭代频率比较快,AI所有的技术今天应用在任何一个新场景上,都是不足的,都需要通过快速迭代去改进提升。
这某种意义上带来了高单点成本和高门槛,也是过去我们遇到的AI产业化没有达到多数人预期的背后,很重要的原因所在。
超大规模预训练模型出现之后,整个生产范式发生了完全的改变,从AI原生的基础设施,包括硬件、计算机的体系结构、数据的组织结构、资源的组织结构,甚至包括基础软件。
在这之前,支撑一个可能是更高成本,但是通用泛化能力更好的基础模型可以进行横向闭环,可以通过更低成本、更低门槛的嵌入去加速整个应用逻辑。因为今天做很多C端应用,天然数据闭环更好,形成一个更好的飞轮效应。
过去做AI应用,很多时候,首先你需要一个懂行业的人,知道这个技术工具到底怎么样解决行业的问题、去解决行业的什么问题,以及解决问题之后企业自身的发展、商业模式该怎么设计,需要你去理解所服务的行业、你所服务的客户。同时,用好这个工具,你又需要非常专业的人才、资源、能力,帮助你做算法迭代、技术的提升。
你可能很幸运,找到懂行业的创始人、懂技术的合伙人,但是接下来你就会发现,两个人去沟通时,大家有很多底层的常识不一样,非常难在一个人身上同时具备专业的人工智能技术能力和深厚的行业经验和积累。
但是,今天这一切事情不太需要了。我们今天去做一个场景化的应用、场景化的服务,对AI的学习门槛做大幅下降,不再需要去学习那么复杂的完整的模型训练,不需用读论文,可能接入第三方的大模型服务,结合一些领域数据和领域Know-how做一些微调和人工干预,就可以快速实现场景应用的闭环。
这会带来整个产业或技术革新模式的改变,技术迭代方式发生核心转变之后,对于很多人做创业、做新的应用,做企业服务,在商业模式上也会带来大量的改变。
而且因为这个过程中需要更大规模更低成本的基础设施来提供服务,这一定是军备竞赛巨头级的游戏。同时,在场景应用设计中会更加关注数据闭环、数据飞轮和数据积累,它会带来整个产业和应用非常大的改变。
在我们看来,(被改变的)不仅仅是互联网应用,还有今天的企业服务。过去在行业中,推动产业数字化之后下一步的智能化过程中,我们所遇到的一些困难,因为这样的一些新技术突破,门槛会被极大降低,会有更多人会参与到整个过程中来,to B也会发生很大的改变。
我们经常讲智能时代的基础设施,大算力、大模型、大数据,实际上就是怎么样把这样一些核心的基础性底层能力构建出更加规模化、更加高效率、更加低成本的基础供应,这中间包括物理环境设施,包括AI原生为AI设计的基础底层软件,包括AI的核心一整套工具体系,以及架设于之上的模型服务,用它更好地去服务支持到每个行业未来的应用迭代和发展。
这是商汤从2019年开始去迭代、去年正式对外发布的大装置SenseCore。今天做科学研究很多时候用到科学大装置,它的特点就是投资巨大,规模也很大,当你要突破一些科学前沿的时候,一定需要大规模的基础设施,才能真正解决问题,这是我们对于人工智能基础设施未来发展方向的理解。我们今天把这样一种能力作为一个开放的服务,提供给行业中的伙伴、客户和兄弟姐妹。
商汤AIDC是2020年上海市第一个人工智能新基建项目,是全亚洲目前为止最大的人工智能专用基础设施、专用的人工智能计算中心之一,有将近5000P的算力。通过这样的一个算力,我们提供完整的AI基础设施资源的能力。
除了基础的资源规模和量以外,商汤一直以来作为一个以算法应用为核心的企业,在过去发展的十年间积累了大量AI原生的从算法框架到开源模型的能力,我们今天在做的事情是把这样的能力整合,提供一整套AI原生从资源到硬件到软件到体系化服务的能力,通过自动化的工具,帮助更好地训练和使用大模型。
当我们讲到大模型,很多人在关注算力。除了算力还有数据,今天所有人都在讲数据来源,除了把这些数据爬下来,大模型能替代标注很多数据外,数据如何做有效处理、有效管理仍是问题。只做自然语言还好一点,你可以用大的文件去存。下一步我们做多模态,首先遇到一个问题——图像、视频是海量的小文件,今天有没有足够好的文件管理系统去支持百亿量级的文件,能够在一个AI训练任务上快速地访问和调用,这些都是从我们去看待一个AI大规模训练所面临的大量原生问题。
我们不仅提供硬件、软件,还提供一些专业的专家支持服务,这种服务涵盖了今天做一些大模型训练、推理、优化。训练一个大模型,这个大模型如果要提供一个应用服务,成本会很高昂,模型做好后有没有办法做快速蒸馏、快速剪枝,变成一个可以让下游更低成本使用的商业化产品。对此商汤提供了一整套的解决方案去服务今天有志于参与到人工智能2.0新浪潮中的朋友们。今天的嘉宾里有好几家是我们的客户,我们现在正在服务他们,帮助他们去训练自己的大模型。
最后有一些例子,很多是视觉和AI for Sicence。我们今天看到基于基模型,基于预训练的体系,它在不同的细分领域中已经越来越多越来越快地能够在行业中产生应用,产生实际价值。
我们相信通过这样的一些趋势:未来以人工智能泛化性、通用性为目标的大规模预训练模型,把它作为一种服务,用它为算力、数据、算法在内的一体化基础设施能力,服务到更广阔的不管to B场景应用海量市场还是C端互联网全部被重做一遍的用户生态,这一定是未来的核心趋势。
而在这个过程中,商汤对自己有一个的定位,用一句话来讲:“训AI大模型,用商汤大装置。”欢迎在这方面有兴趣的朋友同仁跟我们做交流。