当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 14:45:13
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 是去干程序员还是公务员?
- 为什么很多知乎的回答推崇日本式的市区、市郊通勤铁路?
- 哪张照片让你觉得刘亦菲美得不可方物?
- 你见过最***的行为有哪些?
- node.js可以做***识别分析吗?
- Golang和J***a到底怎么选?
- 为什么新流行的开源编辑器都在用Rust开发?
- 为什么知乎上都是说电车没有油车好?
- 白人女性是不是很美,为什么?
- 健身可以不练硬拉吗?
最新资讯文章
- 为什么现在吹Rust的人这么多?
- 为什么 mac mini 的 m4 版本价格这么低呢?
- 什么叫「对复杂系统保持最基本的敬畏」?
- 近期大量宣扬“西方伪史论”的账号被封,这意味着什么?
- 为什么董明珠攻击小米空调,而公牛却没有攻击小米插座?
- 请问这个排版设计怎么收费?
- 每次去国外,别人一眼就看出我是中国人,是中国人身上有什么特质吗?
- 2025年,Gitea 和 GitLab 应当如何选择?
- 前端能否限制用户截图?
- Node.js 熄火了吗?
- 功夫游戏《师父》火了之后,为什么没能掀起做功夫题材的游戏的浪潮?
- 为什么 CRT 画质这么好也被淘汰,液晶反而发展的很好?
- 伊朗正式颁布法律,暂停与国际原子能机构合作,这意味着什么?
- PNG ,GIF , JPG ,的区别有哪些?
- 男医生在给年轻靓丽的女性检查时会是什么心态?






关注公众微信号
移动端,扫扫更精彩