为什么我还是无法理解transformer?
- 发表时间:2025-06-25 15:15:13
- 来源:
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
推荐资讯
- 2025-06-20 11:55:13女生真正的完美身材是什么样子?
- 2025-06-20 13:40:12为什么女生要做大部分家务?
- 2025-06-20 12:10:11如何评价高圆圆的身材算是美女类型的吗?
- 2025-06-20 13:35:15吴柳芳的真实水平如何?
- 2025-06-20 13:20:12我应该设置多少kb才能让他不能玩游戏?
- 2025-06-20 12:15:11华为Pura 80首销遇冷,是否说明消费者已经开始对麒麟芯片性能有所觉醒?
- 2025-06-20 12:20:11为什么欧美影视喜欢露点?
- 2025-06-20 13:10:12如果你有300万存款,你还会继续辛苦上班吗?为什么?
- 2025-06-20 13:35:15为什么女游泳运动员看起来大部分都是平胸?
- 2025-06-20 12:20:11如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
推荐产品
-
我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
题主对工业克苏鲁一无所知…但凡进厂打两年螺丝,也不至于问这种 -
Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
rust 的 result 是枚举,只有2个答案,要么ok要 -
JetBrains 放弃 AppCode 是否是一个错误决定?
不算错误。 没人会用AppCode写objc和swift的 -
NAS噪音太大,大家都吧NAS放置到哪了?
从弱电箱顺一根光线到弱电井,从弱电井到-1层走管廊到储藏室,
最新资讯

