2026/3/24 2:09:43
网站建设
项目流程
用什么语言做网站,网页视频怎么下载到u盘上,惠州h5网站建设,wordpress pages目录
1 3blue1brown的MLP视频#xff1a;图解Transformer之MLP机制解读
2 李沐的MLP视频
2.1 感知机
2.1.1 感知机存在的问题
2.2 多层感知机 2.3 问题
3 为什么transformer中要引入MLP
3.1 Transformer 的结构回顾
3.2 Transformer 中 MLP#xff08;FFN#xff09…目录1 3blue1brown的MLP视频图解Transformer之MLP机制解读2 李沐的MLP视频2.1 感知机2.1.1 感知机存在的问题2.2 多层感知机2.3 问题3 为什么transformer中要引入MLP3.1 Transformer 的结构回顾3.2 Transformer 中 MLPFFN的作用3.3 个人理解4 注意力机制参数和MLP参数含量参考文献abstract:一般提到感知机默认是指单层的最简单的感知机一般提到多层感知机默认是指包含了激活函数的多层感知机。单层感知机只能解决线性可分问题而异或属于线性不可分问题。多层感知机就是使用隐藏层和激活函数得到非线性模型transformer中为什么要加入MLP注意力机制是线性关系MLP是非线性理解网络中注意力机制参数大约占1/3, MLP参数大约占用2/31 3blue1brown的MLP视频图解Transformer之MLP机制解读从这张图看MLP就是线性层和激活函数。2 李沐的MLP视频2.1 感知机这里最开始的感知机输出神经元只有一个感知机其实就是个二分类问题跟线性回归的区别线性回归输出的是实数感知机的输出是离散的类跟softmax回归的区别softmax如果有n个类就会输出n个元素是个多酚类的问题。2.1.1 感知机存在的问题其实就是理解单层感知机就是只能拟合二分类问题那么也就是线性拟合没法拟合异或问题。2.2 多层感知机为什么需要非线性的激活函数因为如果激活函数是线性的那么输出跟输入的关系就还是线性的那么最终结果就相当于是 一个单层的感知机还是解决不了异或问题。2.3 问题一般来说一层是包含了激活函数的通常来说一层是包含了权重以及激活函数的就是这些计算是怎么做的上图就可以说是两层在这里输入层不算一层对于输入来说有两种选择一种就是一个隐藏层然后这个隐藏层包含了很多神经元还有一种是多个隐藏层但是每个隐藏层的神经元稍微少一点他们两个的模型复杂度是差不多的但是第二种更好训练第一种特别容易过拟合第一种相当于一口吃个胖子第二种相当于循序渐进的去学习比如把一个猫的图片和狗的图片进行训练和学习第二种相当于第一层学个耳朵第二层学个尾巴最后学会整个图像。其实都差不多区别不大。3 为什么transformer中要引入MLP3.1 Transformer 的结构回顾一个标准的 Transformer Encoder Layer 主要包含两部分多头自注意力Multi-Head Self-Attention, MHSA前馈全连接网络Feed-Forward Network, FFN其中 FFN本质上就是多层感知机MLP通常形式是FFN(x)GeLU(xW1b1)W2b2\text{FFN}(x) \text{GeLU}(x W_1 b_1) W_2 b_2FFN(x)GeLU(xW1b1)W2b2两层线性 非线性激活GeLU / ReLU对每个位置的 token 独立应用3.2 Transformer 中 MLPFFN的作用增加非线性表达能力注意力层本身是线性的注意力是加权和如果没有 MLPTransformer只能做线性组合MLP 让每个 token 的表示可以经过非线性变换 → 更强的表示能力提供特征混合和高维映射FFN 通常内部维度远大于输入维度比如 512 → 2048 → 512升维 → 非线性 → 降维作用类似于 “局部特征组合 / 投影到高维空间再压缩”增强模型拟合复杂模式的能力保持位置独立性Token-wise每个 token 独立经过 MLP不同于注意力会跨 token 交互这样做可以在每个 token 内部增加复杂的非线性变换同时注意力负责 token 间依赖总结一句话本质Transformer 的 MLPFFN就是多层感知机负责每个 token 的非线性变换和高维特征组合使模型具备更强的表达能力弥补注意力层的线性限制。3.3 个人理解transformer中为什么要加入MLP注意力机制是线性关系MLP是非线性理解注意力机制只是处理了句子之间不同token的关联关系他只是线性的只有MLP引入非线性才能更好的理解复杂句子的含义。4 注意力机制参数和MLP参数含量不管是GPT还是deepseek还是通义是不是mlp的参数反而是占大多数的对吗是不是注意力参数大约1/3MLP大约2/3模型系列注意力机制参数占比MLP参数占比典型配置GPT-3~33%~67%175B模型中116B参数在MLP层LLaMA-232-34%66-68%70B版本中MLP占46.2B参数通义千问(Qwen)~33%~67%Qwen-Max每层FFN维度4×隐藏维度DeepSeek~33%~67%遵循标准Transformer设计原则参考文献图解Transformer之MLP机制解读什么是“感知机”它的缺陷为什么让“神经网络”陷入低潮10 多层感知机 代码实现 - 动手学深度学习v2