网站建设技术支持英文网站外链什么时候做
2026/5/24 13:16:55 网站建设 项目流程
网站建设技术支持英文,网站外链什么时候做,wordpress 展示微博,wordpress重新安装删除哪个文件本文解析了大模型基础知识#xff0c;包括高昂训练成本(13B模型需40万美元)、Transformer架构原理、不同语言tokenization效率差异、LLaMA架构优势、反向传播训练过程及高质量数据的重要性。强调对话能力源于文本补全#xff0c;可通过外部知识库减少幻觉。指出虽然大模型为何…本文解析了大模型基础知识包括高昂训练成本(13B模型需40万美元)、Transformer架构原理、不同语言tokenization效率差异、LLaMA架构优势、反向传播训练过程及高质量数据的重要性。强调对话能力源于文本补全可通过外部知识库减少幻觉。指出虽然大模型为何有效尚不明确但准备高质量数据比不断尝试新模型更具长期价值多模态模型训练成本高达2000万美元。好那我们就到最后一块儿这个可能比较那的就是平时大家可能媒体上遇到的一些关键词然后说大模型这个什么技术怎么样那个什么技术怎么样然后大家可能看得一头雾水然后很多这些词呢其实还来不及被翻译成中文其实翻译是一个非常难的事情你要翻译的信达雅啊其实是很难的所以很多词也都是英文的可能更增加了这个大家的疑惑那我就是快速地给大家梳理一下里面一些常见的概念啊就是第一个当大家说到大模型的时候其实大家说大模型训练成本非常高那到底有多高呢这个是安斯提供的一个服务叫trainingclusterASAservice实际上就是租用训练集群的一个服务他提供的这个前端页面给大家了一个costse就是去评估说你要训练一个大模型可能要花多少钱那这个是我们要训练一个非常简单的大模型13B啊比这个TGT的那模型小倍也不是很多就是2T的头感现在就是最新的比如说AI都用到了8T的token那这个是一个非常非。初级的一个模型那我们要花多少钱呢算下来我们要花40万美元就训练这么一个模型的成本。然后啊要花多长时间呢就是说就算你有200个GPU那么你也要训练44天。你增加GPU的数量会练的时间为什么呢是因为你增加这个数量之后它的性能提升并不是线性它是比线性要低的啊甚至会让你这个训练时间变得更久。那刚才我们就是对大模型的这个成本有一个就是非常直观的印象啊那可能是非常非常贵但是我们拿这么贵的钱烧那么多钱他其实在里面训练的是什么呢我们看一下就是说把这个黑盒打开这个大模型里面是什么样子这个就是isneed的那篇paper里面的一个图啊这个就是基础的这个transformer的结构它并不是现在我们讲的这个妈妈的这个结构这里面有很多细节我们就不太管我们只要管两个事情第一个是他的输入第二个输出它输入的是什么就是这里面其实这每一个块儿它都是一些矩阵的运算都是一些数字的这个计算的这个过程那输入它它得是一堆数所以你首先要把人类的文字变成一堆数塞进去并且他能输入的这个数数量是有限制的。这个就叫context就是它的上下文长度就是你超过这上下文长度的这个东西你从这是输入不进去的你可能就要遗忘一些过去的信息这是第一点在下一页爱组我会讲怎么把这个输入的文本变成对机器能理解的数然后另外一点就是它的输出它的输出实际上是一个概率分布就是他叔叔会告诉你说哎我认为下一个字是某一个字的概率是什么是另外一个字的概率是什么然后你可以根据自己的一些参数比如说大家现在常说的什么温度然后这些东西来调它的这个输入也就是说大模型它的输出是不稳定的你同样一个问题完全同样的输入位给大模型大模型的输出根据它的那些温度的参数调整他可能会给你完全不一样的答案就是为什么刚才说幻觉的那个事情你可以让大木亲多输出几次看看他是不是一直在说一个事情如果他有幻觉的话他很多时候他会就因为这个温度的调整他会说一些别的事情OK然后我们再看一下把这个文字变成一堆竖着这种过。样就是他实际上做了什么事情呢就是比如说我们看到这一段英文的话他先把它拆分成一些词组或者说一些小的这个单元它不是说每一个字母变成一个单元而是说一些概率上出现比较多的这个字母拆分成一个单元比如说我们这里看到remination它就把这个拆成两个词但是其他的没有那不同的organization呢会对它有不同的这个拆分然后拆分之后他做一个词典的查找然后就把它变成了一个数那这个可能听起来比较枯燥啊这一页可能会更有意思那我们具体看一下妈妈的这个头N上面是这个官方的拉玛头那我们输入呢是比如说大模型是指有非常大参数数量的人工神经网络那我们看看被他ton之后啊变成什么样子那还是大模型实指又非常大我们看看它上面对应的是什么大模型是指具有哪具呢并不是一个就是在妈妈词典里面直接有的词所以他把它拆了。变成三个头也就是说一个字在这儿变成了三个token它实际上非常非常浪费头N刚才我们讲说模型的同时吃的这个token的数量是有限制的比如说拉玛官方的模型应该是4K32K这个量级的一个字变成三个token那实际上非常浪费这个token的数量所以有很多国内的模型实际上他把这个tonize改了变成了一个更适合中文的tor之前我们看到这一个字变成三个token现在是两个字变成了一个token啊甚至这个啊神经网络这里啊四个字变成了一个token所以它的这个效率会高很多因为对模型来讲其实它无所谓这个是几个字他只要处理这个数就行现在他处理一个数相当于处理四个字那实际上是非常非常搞笑但是这个一定好吗其实不见得这时还是要根据你的使用场景来说举个例子就是为什么大模型不擅长做。就是转制比如说我给他一个list然后里面是12345我跟他说哎你把它反过来reverseorder。大卫星做得不好为什么我们看一下这个具体的例子大幕秀如果reverse啊那这三个字全都翻过来了那他怎么去找到对应的原来的大模星需要有额外的知识他要知道这三个数是不能翻的但是这些书是可以的这对大萌星来讲是一个额外的负担那在这个例子里面其实这个问题变得更难了大萌星要知道说参数。这么一个就是对他来讲就是一个数字转制过来变成了数参然后数参又不在他的词典里他要拆成两个字那这个对他目前来讲实际上是一个非常非常大的挑战所以大魔星其实不擅长这种调整比如说你让大王先去写诗去写什么五言律诗那大悟星根本不知道每一个字每一个token代表的是几个字所以它这个数量经常会弄错。那另外一个挑战是什么呢就是不同语言使用大模型的效率是不一样就是这个人在推上做了一个统计啊就是如果你用T4的话它是按token付钱的但是每一个token对应多少次。实际上是差别非常大的英文是最便宜的中文表示同样的意思虽然中文是最经典的语言啊说联合国文档里面这个英文的文档有这么厚中文文档可能只有它一半红但是在大模型里面中文可不是最经验的语言就中文的这个长度就是表示同样意思中文的这个ton的数量是英语的两倍这还好然后如果说啊你是将啊什么泰语啊或者是缅甸语啊那就是15倍所以说针对不同语言去训练啊这种自己的大模型或者说训练一个非常高效的这个多一种大模型其实是非常非常有必要的啊这是刚才我们讲的那个最原始里面那个transformer那个架构然后后来呢大家就会不停地去把这个架构去更新然后去发现啊是不是还有新的架构然后沿着不同的这个技术路线去前进DAonly这个架构一会儿我们看看它的这个架构长什么样啊它的这个繁衍的效率最高是因为什么因为大家觉得这个东西好用就是前人的这个东西好用就是前眼花了几百万。美元去训练一个模型发现往这个方向走就是比往这个方向走好用所以越来越多的人就会站在前人的肩膀上往这个方向走然后现在往前走走走走走哦我们到哪了呢到阿玛这里然后很多人就会发现阿玛这个架构就是比别的架构好用所以天然的就是大家就会往那个方向去走那未来如果我们未来再画一棵树的话妈妈那个树可能就是非常粗的就是现在比如说你要去做一个这个模型那你不考虑说啊一定要有什么特立独行的东西的话那其实你往妈妈这个方向去选实际上是阻力最小的一个选择那拉玛这个架构长什么样呢长这个样子就跟刚才那个相比呢实际上容易了一点啊就是说我们不需要考虑说这个大框里面是什么我们就只知道说啊这是输入啊这是输出这是一样的然后里面其实有非常多的变化但是我们刚才说的那个怎么从文字转换成一堆数背进去然后这个地方有这个contextlengths这个长度限制还有输出它是一个字一个。按概率输出的这个都没有变所以这块儿没有什么不一样的地方那我们知道这个模型结构刚才我们提到说其实这个模型需要很多这个数据环训练它这个训练它是怎么发生的呢那这个backation大家应该也听过就是反向传播就是这个讲起来很抽象因为他是要算求导数什么的我可以给大家一个例子大家可能就是秒懂但是不精确就是大家听听就是感受一下就是我们说这个是什么呢这是输入输入什么我们把它类比成一个公司的话就这就是老板的旨意老板说我们要做一个什么事情然后这个信息呢先传给谁了呢传给PMPM说啊好老板让我们做这个东西我们写个SPA传传传传传到这程序员程序员说啊我看到这个spakeOK我写个程序啊出一个结果然后这是什么呢这是。客户实际的反馈那我们做的产品和客户的反馈叠加在一起就可以有一个反馈的这个信号叫做我们叫做loss这个loss叫backpropation就是它是从这边过去这个帽先给谁呢不是说客户有一个什么反馈马上老板就知道最先知道的肯定是程序员对吧客户报一个bug那我们程序员看到了程序员看到了之后说哦这是我的问题我就把它修了那咱们这个地方就结束也有可能程序员我就是照这个的这不是我的问题PM看一下PM可能看到说哦这原来是我的SPA理解错我没理解老板的意思然后我在这儿就结束也有可能是再到这里老板发现哦原来我错了我没理解客户最根本的需求我把这个整个问题都搞错那他需要在这个地方修改那这时候就是啊就是最前面就是可能需要在数据集上做一个修改那大概的意思就是说这个反馈的是这样发生就是信息是这样留。然后我们这样反馈大家知道这个意思就可以了就是啊只是一个反向传播那我们刚才讲了很多这个基础的内容然后为什么说我们花了这个几千万元然后训练的这个模型他就好像挺聪明的比以前的那些模型要更加聪明为什么我们说那个拉玛结构就比别的结构可能要稍微好一点点为什么说未来可能还会出现比拉马结构更好的结构有没有什么道理可以讲这个是我之前的同事现在在那个卡表A当CEO他写的一篇文章里面的说法啊这个说法就是说什么呢我们也不知道为啥反正他就能工作所以为什么大模型能工作呢我们也不知道啊如果大家就是把它当成一个黑盒看的话其实它就是能产生一定的效果那对我们最大的启发意义是什么我们就只要准备好高质量的这个训练数据就好这个实际上不管是大家创业还是大家去做任何事情其实就是准备好这个数据就好哪个模型最好永远是下周开源的那个下一个模型最好。但是我们现在能做什么就是准备高质量的这个数据高质量的这个数据准备好了之后它可以产生非常长的时间复力在未来十年你都可以拿这个数据去进行训练这个比你花很多GPU的时间不停地尝试新的模型要靠谱得多。刚才我们讲的是说啊我们能够预测下一个词然后去理解了这个大模型的结构但是呢为什么Chagpt3没有gpt3.5实际上他做了一个产品形态的变化他不是说我给你补全一篇文章而是说我现在可以变得更加聪明我可以跟你对话那这个对话能力从哪来呢实际上它也是从这个补全的这个能力来的那我们看到一些产品它产品上的一些不足呢就无意间泄露了这个秘密比如说这个是cloud那cloud经常会出现一种就说我刚刚兑换。知道说得好好的他突然我问他一个事情然后他给自己加了一句话说人类说好的翻译得不错给自己表扬了一下为什么会出现这样的情况实际上我们看给大模型的这个数据我们看左边他就是告诉你第一句话是系统说的第二句话是比如说用户说的或者是怎么样对大模型来讲这就是一个补全的过程。大模型要补全的就是下一个比如说系统说什么结束但是如果这个大模型没有训练好的话他就会继续往下补全他把这个整个对话都补全了只是我给他保证他应该补全一句他就补全了两句那这时候他就够想他就开始自己表扬自己因为他的训练集里面当他回答什么之后啊这个训练集里面的数据会加一句人类说你做得不错然后刚才我们实际上讲到哪了讲到这儿就是数据到模型然后有个输出然后这个输出我们传统就是按照刚才的那个方法呢实际上是给他一个标准答案如果他的输出跟标准答案一样。那么我们就认为说啊你的这个输出是对的然后鼓励他往这个方向走但是有很多时候他的这个标准答案并没有一个非常明确的数据或者说这个产品已经上线了你只知道用户这个地方发了什么但是你并不知道说你的这个输出是不是能满足用户的需求这时候就需要在产品里面加入一些这个数据收集的就收集人类反馈的这个过程就比如说Missjourney你给他一个prompt之后呢他会给你输出几张图片啊密之内怎么知道说他书说得好不好呢他就看你是不是啊你把哪个图片展开啊U1u2u3u4就表示说我要一个更大分辨率更大尺寸的这个图片比如说你说U1然后他就给你把那个图片upscure他通过这种方式其实就知道说你更喜欢哪一个图片。然后这个数据收集的反馈呢是集成在这个产品里面的它就是这个产品的一部分所以大家也愿意给他这样的反馈这个是刚才说数据的一块儿但是实际上就是我们除了训练模型去做一些事情之外我们还可以通过外脑的方式扩展这个大模型能力这就回到刚才我们那RG的那个问题比如说我们现在是说我们在这儿有一个外脑就是一个CTdatabase它里面有非常多的这个信息可能是教育的信息可能是这个行业的一些具体的资料就是说这个大模型不了解他的可能就说这个大模型呢他也完全没有用这些数据训练过它可能是一个通用的比如说这种通用的模型现在我们给他接一个外脑那整个这个流程怎么接起来呢就是我们在这儿把大模型的这个。数据进来然后呢我们让这个大模型去判断说他需要找什么样的信息。然后在这个向量数据库里面或者这个地方可能就是一个搜索引擎找到这个信息之后把他找到的这个信息和用户的那个问题一起再喂给大魔星一次然后让大魔星给他一个答案就好像在这儿他是翻书找到了这个书里面的原话然后喂给大模型让大模型再回答这个答案所以这种时候呢可以比较好地避免ucination的问题。那这个就是你牛病的一个例子就是你问他这么一个事情首先说上面就是这三个是什么意思呢实际上就是问答模型怎么去选它的那个输出刚才我们说它的输出是不确定的嘛它输出的是一个概率分布你是希望说他更加准确那我们可能说这个温度更低一点或者说希望他更creative他可以更输出更多元的东西那温度就高一点然后你问他这个问题他就会去啊他的外脑他的外脑就是搜索引擎啊去搜索这个东西把他搜索到的东西和这个问题本身都一起喂给大模型让大模型给你回复那这种回复就比较可信了因为它每一句都有具体的referenceOK那这个是刚才我们提到那个CHAT4维它是一个动态的这个大模型开源领域也在这个方向做过非常多的这个尝试啊这个是我们做的efixx来是一个80比的这个多模态的模型但是整个这个多欧肽这个领域的开源的进展并没有纯文本的这个方向高为什么呢现在我们。那个70币就是还行吧反正也没有BT那个模型板然后呢我们要训练一个多模态的模型我们要喂给他14T的token其实也不是很多然后我们说我们用1000个加速器最后呢你需要442天才能把这个模型训练完然后你整个的成本呢是接近2000万美元所以其实东欧碳大鹏星这个训练是非常非常非常贵的这也是为什么就是开源在这个领域可能看着好像进展没有那么快我们也希望说大家如果有意愿呢也可以加入这个开源社区然后在里面贡献无论是数据集还是这个模型还是说贡献一些这个代码然后我们一起推动这个行业前进OK那这就是我今天讲的内容谢谢大家。AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享01.从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点​02.AI大模型学习路线图还有视频解说全过程AI大模型学习路线​03.学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的04.大模型面试题目详解05.这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询