网站地图官方微信:
网站首页 北冶乡 大邓乡 岱东镇 千官镇 安斗乡 闽宁镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 国内大厂现在用rust的多吗? |

    总所周知,字节在用,但是可能也就限于部分产品线的部分前后端组...

    查看详情>>
  • | 为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译? |

  • | Linux 下有没有类似 Everything 的搜索工具? |

  • | 游戏***1秒钟能达到6击键吗? |

  • | 你如何看待鸿蒙PC不允许侧载? |

  • | 如何评价前端组件库shadcn/ui? |

  • | MacOS真的比Windows流畅吗? |

  • | 光伏真的不行了吗? |

  • | 程序员看剧的时候,如果看到有敲代码页面,会暂停看代码吗? |

  • | 为什么现在很多人推崇国外原版教材? |

  • | 路由器被隔空刷成校园网节点了,这在技术上是怎么实现的? |

  • 先分享个小故事 ------ Geary ***。 90 ...

    2025-06-25
  • 新手一只 我可以在windows系统或者Linux系统环境下...

    2025-06-25
  • 是的,Cursor 又改价格了。 6 月 16 日,一篇名...

    2025-06-25
  • 很多开发都是站在自己和身边环境角度来看,实际在web开发、小...

    2025-06-25

关注我们

添加微信好友,关注最新动态