🤖 Qwen 开源高性能线性注意力内核库 FlashQLA,速度提升 2–3 倍Qwen 团队开源 FlashQLA,基于 TileLang 构建,专为 Gated Delta Network 打造的线性注意力内核库。通过算子融合与代数优化,在 NVIDIA Hopper 上实现 forward 2–3 倍、backward 2 倍速度提升,尤其适合预训练与端侧智能体推理。针对长序列与小批量场景,利用门控衰减特性引入自动卡内上下文并行,并采用 warpgroup 特化内核重叠计算与搬运,有效提高 SM 利用率。
Qwen🌸 在花频道 ·
茶馆讨论 ·
投稿通道
⚠️ 评论区加载失败
可能原因:
- 浏览器广告拦截器阻止了 Telegram widget
- 网络连接问题
解决方法: