网站地图官方微信:
网站首页 贵池区 港尾镇 汪二镇 谷熟镇 阳新县 四郎镇

当前位置: 首页 >

为什么我还是无法理解transformer?

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。

反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。

总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。

为什么我还是无法理解transformer?

  • | 为什么后端老是觉得前端简单? |

    JSCommon 数据处理工具库JSCommon 介绍J**...

    查看详情>>
  • | 你的低成本爱好是什么? |

  • | 周杰伦为什么不告粥饼伦黑伦侵犯他的名誉权? |

  • | 独立开发者都使用了哪些技术栈? |

  • | 上班时间,同事跟我打了招呼出去接送孩子,单位纪检人员来查岗,问我同事的去向,我该怎么回答? |

  • | 程序员看剧的时候,如果看到有敲代码页面,会暂停看代码吗? |

  • | 什么样的人算是中了基因***? |

  • | kvm是否会增加显示信号的传输延迟,或者键鼠的延迟?打游戏用这个,会影响吗? |

  • | 为什么Windows不内置Visual Studio呢? |

  • | 请问一下图中***的名字,谢啦? |

  • | 真的没有人觉得2k是一个很尴尬的分辨率吗? |

  • 因为web worker根本解决不了“单线程卡死页面”的问题...

    2025-06-26
  • 以我健身20年的经验来看: 如果你要想减肚子上的肉肉,那就深...

    2025-06-26
  • 自带干粮,不请自来,谢没人邀! 失败的尝试iPhone 与小...

    2025-06-26
  • 技嘉KVM显示器M27Q应该是题主说的显示器吧? 前阵子搬完...

    2025-06-26

关注我们

添加微信好友,关注最新动态