wordpress百度站内搜索公众号怎么制作小程序
2026/2/22 18:57:00 网站建设 项目流程
wordpress百度站内搜索,公众号怎么制作小程序,快速收录网站,网站模板站扩容雷递网 乐天 1月30日商汤董事长CEO徐立博士日前在演讲中表示#xff0c;这一波人工智能的浪潮得益于生产方式变化#xff0c;第一个#xff0c;从GPT走到scaling law#xff1b;第二个#xff0c;复杂的任务分解#xff1b;第三个就是推理成本的急速下降。徐立博士说这一波人工智能的浪潮得益于生产方式变化第一个从GPT走到scaling law第二个复杂的任务分解第三个就是推理成本的急速下降。徐立博士说过往两年每个token的成本以280倍的速度在下降。而当下AI行业专业思维数据稀缺互联网语料的价值已被消耗尽模型能力的提升需要高度的思维数据此外数据稀缺且获取代价高昂且AI在处理长链条复杂工作时模型荣誉出现幻觉和逻辑错误当下最好的模型的实际幻觉率依然高于10%导致在严肃应用环境中无法依赖。2025年大模型发展走到了新路口原来的道路已走到了尽头新的机会初现。”徐立博士认为未来的两年是AI竞争的关键时期主要看AI的成熟度是否突破工业红线落地生产环境实现规模化商业闭环。而通过算法芯片的深度联合优化国产化芯片能迅速拉近与世界最前沿的差距。以下是商汤董事长CEO徐立博士演讲实录徐立为什么我们针对不同的AI的发展阶段我们需要不同的推理。为什么需要专注做推理的人工智能模型我的题目叫共塑芯世界芯讲的就是芯片世是一个泛称是指模型。我觉得下一个阶段人工智能的发展就只有说芯片跟模型的联动它才能够走出合适的商业化的闭环。首先我们站在现在的这个路口AI整个研究的范式也发生了一个巨大的变化。我们这一波的人工智能的浪潮得益于两个核心的生产方式的变化第一个从GPT开始我们走到scaling law大家会突然发现说当你在做训练的时候你投入资源的时候你可以预测不同规模的投入下面它的人工智能的模型的性能这是scaling law的精髓就跨越不同的scal它可以做预测从而进入了一个大的capex的投入的竞争所以大部分的人就是巨量的投入。当这条路走到一个尽头的时候或者说走到渐渐性价比没有那么高的时候突然间大家发现说在推理时刻给一个好的激励模型它其实又能够继续做testing的scaling也就是说在推理的这个过程当中你给一个激励的模型给一个判别模型那就使得又有一个部分的延伸。甚至在这个过程当中我们可以看到应用的推理它的架构发生了变化它的训推甚至是CPU、GPU的配比内存的配比都会有这个变化。但这个部分上也很快它的红利被消耗。因为行业里面能够给出好的reward model也就是激励函数的这样的一个场景不多。所以接下来就会进入两条分化一条走到一个大产业价值的闭环就在垂直产业当中去找所谓的我们的很好的激励模型形成价值闭环这是一个迭代更多的是切入的场景。第二条方向就是大家会探索新的不同的架构能够更好的用好我们现有的这样的一个数据。当然这是面临的一个挑战。但实际上我们从很多的趋势来看我们很容易发现说进入到真正行业应用的过程当中已经有非常好的我们讲阈值条件。首先我们人工智能进入到产业的第一个标准就是能不能超过人的水平。很多图灵测试或者说对于智能的定义本质上是在跟人比那条红线。当然其实我们可以看到过往的这些时间当中有大量的任务可以在垂直任务上远超人的水平。有一个榜单叫做HLE就是human lastic exam就人类最后的测试。当这些通用模型刚起来的时候在这上面基本上分数是等于0的但是经过非常短暂的时间因为它有很好的这个叫激励函数reward model它可以快速的走到现在60分。所以说大家看到达沃斯上的很多的论断在2026年底在很多的地方上能够远超过人。我指的是说在通用智能的这部分的定义之下有标准的答案的定义之下它可以远超过人的能力。第二我们看到一个趋势是长程的任务的分解就是说你把一个复杂的任务非常多步的一步一步的走其实随着过往来讲每过一年的时间每过几个月的时间这个解决任务长度它是在一个非常高速的时速增长这也就是说任务复杂度的摩尔定律。而在这个摩尔定律之下人类的很多复杂问题能得以解决也是真正解决我们现实生活当中的问题。第三个很重要的就是推理成本的急速下降。过往两年每个token的成本以280倍的速度在下降。当然我这里要加一个定语就是在已知的开源的语言大模型上这什么意思呢就是在已知的模型上的架构优化可以达到两年280倍但是会有层出不穷的新的模型。所以在这个过程当中在新的模型的应用当中也会带来新的挑战。2018年有本书叫《Prediction Machines》预测机器他讲的当一个生产要素的成本100倍下降的时候会走路到那个tipping point就是那个转折点这个转折点非常的重要就会带来很多行业的巨量的变化。可以看到说电力在下降100倍的时候就进入了电气时代通信的流量下降100倍的时候就进入到通信时代、移动互联网时代。在今天token的平均的水平下降的都是百倍每个token的推理成本能不能带来一些质变我相信这个是个必然的。同样的实际上人工智能其实已经是过往十几年的这样的一个历程商汤有幸进入了早期的人工智能的这个产业。我们可以看到早年我们赋能整个大的是to B行业的这样一个过程当中它的渗透率的上升是缓慢的。但是一旦到生成式人工智能它具有通用性它能够赋能的行业包括解决通用任务的边界更宽的时候其实我们可以看这根蓝线其实它的成长的速率会非常快。这就马上会进入到一个非常重要的挑战就是在行业应用急速增长的时候当渗透入极速迭代的时候推理有没有一个更加高效的方法。当然了从刚才走的那两条路当中要解决下一个阶段智能从哪里来的问题我们互联网的数据的红利已经用完了本质意义上还是说在产业当中怎么去更好的定义我们的reward model激励函数。所以我们认为在行业当中我们从前讲AI for science、AI for medical、AI for education。其实在今天是一种新的融合的方法是叫AI in这个行业原因是它的整个过程是跟我们这个行业的生产过程是紧耦合的。我们要构造出一种新的强化学习的逻辑使得说它能够跟行业的生产非常紧度的耦合从而完成用户价值闭环的叠加。而这个过程又和我们怎么去设计一个有效的生产环境有效的推理系统有非常重要的要求。所以讲AI的基础设施在这个闭环的推广当中起到了一个很核心的作用。我们走到商业化的过程当中一样的虽然我们说模型取得了很多的优势但是还是会有很大的挑战。第一就是模型的可靠性今天在任何一个行业的模型甚至在医疗行业我们讲的模型还是没有100%的可靠性。那么它的模型的场景应用就需要我们来去重新定义和设计。第二就是专业的这样一个思维链的数据。我们讲互联网的数据红利用完了之后我们在很多垂直行业当中的高端的思维链、复杂的思维链其实还是缺乏的。第三但随着我们要进入到现实世界比如说我们能跟现实世界进行交互的时候我们对空间的理解对空间智能的理解甚至是我们现在讲说对于世界模型的理解还是偏不足的。第四这也是非常重要的刚才讲到推理成本推理成本虽然高速下降但是一旦进入到新的训练框架新的模型框架的时候你会发现一些新的问题。比如说我们现在讲原生多模态再讲我们的视频模型永远会发现说推理成本高起。所以怎么样能够最理解这个行业AI发展的推理架构、推理框架、推理芯片其实是解决行业使用成本的一个很核心的要素。很多的变革解决这些问题其实来自于说底层的突破。刚才讲另外一条路是说其实硅谷有非常多的趋势是在于说随着scaling往前走的时候大家会讲现有的模型是不是over shoot benchmark就针对benchmark有意无意的会往前做。所以现在的语言模型可能真正不是解决通用AGI的那条路自然而然像伊利娅也好李飞飞也好都会给出他们自己的答案走向不同的跟现实世界交互的模型。包括视频模型包括视觉模型包括空间智能我相信这条路当中一定会有一些比较让人亮眼并且非常突破性的这样一种模型架构使得说我们能够非常好的被行业当中采用。举一个例子我们的多模态。很多人都说多模态不就是语言、文本、图像、视频3D融合起来训一个模型听上去非常简单但是一般的多模态的架构其实是先训完语言之后再把其他的模态往上去整合往往会带来这种拼接式的模型其实最后没有办法真正意义上给出大家正确的答案。比如说当时group 4推出来的时候有一个人就贴这样一张图说他确认group 4它不是世上最好的模型因为它根本数不清楚这张图上的手有多少个手指。它是怎么操作的呢它首先先识别出来这是一个手然后开始用语言开始思考这个手有多少个手指。这种拼接式的本质意义上它没有办法真正意义上原生的去解决这个部分上的问题。就包含说我们讲空间智能的这种例子有四个方块叠成这样的一个立体的图形如果是俯视会怎么看只是人很容易想出这样的一个空间结构但是模型不行。因为对模型来讲如果不给它图和我们之间的理解不在原生的过程当中融合的话其实语言模型你上下左右这四个字甚至可以随便颠倒因为你不对世界有了解的情况下那怎么样去做到原生的让它们这部分的融合我觉得这在空间智能上是一个新的挑战和命题。那么商汤在做什么商汤的日日新的模型其实是从底层去解决我们讲的模态融合的问题也许我们不是训练最好的语言模型但是我们一定是训练融合度最高的多模态模型。我们在每个要素每一个细胞当中都把语言、文本、图像、视频3D都打到我们的当中的一个神经元当中也就是我们从每一个底层的结构它就是多模态的。它这样的好处是这个之间的连接其实就会带来额外的信息量和价值我们确信下一个阶段的红利来自于什么呢来自于新的跨模态数据之间的联合分布这个部分的红利也就是我们没有打通不同数据之间额外的信息量的红利而今天我们推出我们不同的训练架构去解决这个问题。包括说我们去年开源了我们的NEO的多模态的架构包括说我们把预测下一个文字和预测下一个视角当成同一件事情来做predict next viewacross the view。包括说我们一个全新的突破的训练范式在这过程当中解决原生多模态的这样的一些内容。在这个过程当中我们其实会有很多比较有意思的应用当你对世界有很好的了解的时候你就能推动、理解和生成的统一。比如说我们去年也开源了面向智驾面向机器人的具身世界模型我们叫开悟3.0。这里有一个简单的例子假设我们让这个机械臂模拟生成世界模型然后去拼一个积木拼成ACE3个字。然后我们让机器来开始做一做左边是我们的模型生成的它看到这张图之后它自己进行思考是个多模态的思考然后开始去做这样的操作来做拼搭最后就完整的能拼成这个字。而且这样的世界模型其实是可以用来驱动我们的真正的具身本体的。但是有些时候如果对这个空间的不理解对于这个智能的不理解的话你其实没有办法完成这部分的思考所以你会突然间看到有些模块突然跳出来有些模块就没有了。虽然看上去每一帧都很漂亮但并不解决它在物理真实性的问题。当然有了视觉模型之后你还可以生成一些跟现实世界的互动。这个给大家一个很有意思的想象。我当时想说如果大家出去的时候拍的东西是用我们指定的一些设备来拍摄。实际上你可以带回去让大家重新去游览这个地方带大家去看世界我们也做了一个世界模型带你去看世界。原来你只能分享静态的世界到现在你可以比如说像这样动态的来进行交互并且说我们在预测任何一个动作下的所有的接下来的可能性从而给强化学习带来一个很好的空间。这就是如果说对世界有很好的理解那你就能做很好的生成。同样的这样的多模态的大模型最后能够也用到视频生成的连续性上。其实大家看AI生成的很多视频有很明显的特点第一它是不同的镜头之间它是切近也就是它很难做这种3D的运镜很难保持长时间的这样的镜头传输因为它对于空间的理解不够我们的世界模型当时可以做跨11个摄像头之间的切镜因为我们11个摄像头的3D结构是有的。在这个基础之上我们做的时间和空间之间的一致性的时候就可以非常适合聚集的这样的一些内容。我们把这个能力放到了我们的cycle的平台上在短短三个月的时间我们吸引了超过30万的创作者在我们的平台之上。可以看到有很多东西其实镜头的一致性包括说人物的前后的一致性和对口性这是我们的模型的一些核心优势。更多的内容可以到我们的平台上去看。以上所有的内容其实对于推理的要求会非常的高。因为大家会发现说这些模态其实跟原生的当时的文本模态还有很大的差别推理的成本又会高起不下。我想说只要说芯片是围绕着模型而模型是适配到芯片上的我们能够做到真正意义上的降成本。芯片它其实不是论斤卖传统在训练当中问一个P多少钱的这种模式可能在未来它不太会成立。但是我们要问的是解决这件问题到底要花费多少钱举例子我们解决视频生成的过程当中我们把国际上最好的卡和我们国产的GPU芯片来做比较我们发现国产GPU芯片稍微慢一点点但是它也能够做到视频的实时生成。什么概念呢一分钟的视频就用一分钟来生成。在这样的一个过程当中它的距离使用就会非常的近。这并不是因为国产的卡已经达到了国际上的GPU芯片的同样的算力而是在于说架构的优化以及专注在这样的一个推理任务上。我在想说商汤的是解决三位一体的问题就是我们把我们的大装置跟我们的模型以及跟我们应用联动而曦望的token一分钱的这样一个愿景以及推理的能力是使得补齐我们三位一体一个很核心的这样一块板从而使得说我们真正意义上可以从物理上同样的去降低我们的推理成本。实际上我们知道说行业里面当我们一旦谈论到某件事情的时候往往是这个事件需要值得被关注并且说需要花力气去解决。今天我们每个人都在谈论推理成本这说明目前的推理成本降的不够低。我们在进入电气时代的时候我们不会去谈电力的成本。我们进入通信时代的时候我们不会去谈通信的成本只有当要素变革的时候我们才会谈论它。今天我们在AI来的时候我们重新又去谈了电力的成本说明什么我们可能会迎来下一个电力的变革。我们今天谈了推力的成本我们就会进入下一个算力的变革所以说算力、电力整体的协同有可能是引爆我们的下一个十倍要素变化的这么一个点从而是驱动我们行业的一个底层的变化。所以我们希望跟我们的在座的各个合作伙伴一起去共同打造在成本上在性价比上极具优势的这样的一个板块从而是使得这么一个极致的优化能够服务好更多的客户和合作方法从而推动我们在人工智能2.0时代的应用的百花齐放。——————————————雷递由媒体人雷建平创办若转载请写明来源。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询