研究人员逆向工程苹果 M4 神经引擎,实测揭示 38 TOPS 宣传存在误导
研究人员 maderix 与 AI 协作,对苹果 M4 芯片神经引擎( ANE )实施逆向工程,绕过 CoreML 框架直接调用底层私有接口 _ANEClient ,完成基准测试并成功在该推理专用芯片上运行神经网络训练。
实测显示, ANE 真实峰值算力为 19 TFLOPS ( FP16 )。苹果官方宣称的"38 TOPS"系按行业惯例将 FP16 算力乘以 2 折算所得,而实测 INT8 与 FP16 吞吐量几乎相同,硬件并未实现 INT8 双倍加速。此外,研究还发现 ANE 片上 SRAM 约为 32 MB ,卷积运算速度是矩阵乘法的 3 倍,绕过 CoreML 可将小规模操作吞吐量提升 2 至 4 倍,峰值功耗效率约为 6.6 TFLOPS/W ,约为 A100 GPU 的 80 倍。
maderix(1, 2)
🍀在花频道 🍵茶馆聊天 📮投稿
研究人员 maderix 与 AI 协作,对苹果 M4 芯片神经引擎( ANE )实施逆向工程,绕过 CoreML 框架直接调用底层私有接口 _ANEClient ,完成基准测试并成功在该推理专用芯片上运行神经网络训练。
实测显示, ANE 真实峰值算力为 19 TFLOPS ( FP16 )。苹果官方宣称的"38 TOPS"系按行业惯例将 FP16 算力乘以 2 折算所得,而实测 INT8 与 FP16 吞吐量几乎相同,硬件并未实现 INT8 双倍加速。此外,研究还发现 ANE 片上 SRAM 约为 32 MB ,卷积运算速度是矩阵乘法的 3 倍,绕过 CoreML 可将小规模操作吞吐量提升 2 至 4 倍,峰值功耗效率约为 6.6 TFLOPS/W ,约为 A100 GPU 的 80 倍。
maderix(1, 2)
🍀在花频道 🍵茶馆聊天 📮投稿
来自频道: @zaihuapd
⚠️ 评论区加载失败
可能原因:
- 浏览器广告拦截器阻止了 Telegram widget
- 网络连接问题
解决方法: