网站地图官方微信:
网站首页 坨南乡 枕头乡 北兴镇 斛山乡 武林镇 椑南镇

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | Django、Flask、FastAPI,Python 后端哪个更好? |

    我使用FastAPI和Django。 反正我目前最多也就做...

    查看详情>>
  • | 如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架? |

  • | 你见过身边身材最好的女生是什么样子的? |

  • | 对方酒驾,我们提出私了要了3.5W,会被认为敲诈勒索吗? |

  • | 看新闻说老美的B-2连续飞了37小时,飞行员的吃喝拉撒怎么解决? |

  • | Chrome 浏览器设计的神细节有哪些? |

  • | 如何看谷歌发布的Gemini CLI?与Claude Code对比? |

  • | 如果SSD硬盘闲置很多年,内部数据会不会丢失? |

  • | flutter为什么不用Go语言,而用Dart? |

  • | 为什么熊身上那么多可以吃的肉,偏偏就熊掌这道菜出名了? |

  • | 为什么那么多美国人对特定食物过敏,而在中国很少听说? |

  • 在上世纪九十年代,流行一股武林浪潮。 一方面是大家可以选择...

    2025-06-28
  • 最离谱的是,大陆很多警察作为执法者,完全不懂法,执法时处处违...

    2025-06-28
  • 核心有两个: 1 选小size的低智模型 2 用trick的...

    2025-06-28
  • emm,遇到了。 怎么说呢,惊为天人吧 仓促间做的决定要面基...

    2025-06-28

关注我们

添加微信好友,关注最新动态