详情介绍
寒武纪AI加速卡可适配国产平台寒武纪坚持自研智能芯片架构和指令集。新一代智能处理器架构MLUarch03,拥有新一代张量运算单元,新增FP32,FP16,BF16运算类型;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的275倍;内置专用模块大幅提升各类卷积效率,减少算子执行时间;推出全新MLUv03指令集,更完备,更高效且向前兼容。
MLU370-S4加速卡支持PCle Gen4,功耗仅为75W,在2U标准服务器机箱里可支持高达8卡的高密度部署。
寒武纪AI加速卡可适配国产平台可广泛支持视觉、语音、自然语言处理等高度多样化的人工智能应用,帮助AI推理平台实现超高密度。
同时,寒武纪全新升级了Cambricon Neuware 软件栈,新增推理加速引擎MagicMind,实现训推一体,大幅提升了开发部署的效率,降低用户的学习成本、开发成本和运营成本。
370采用chiplet(芯粒)技术,在一颗芯片中封装2颗AI计算芯粒(MLU-Die),每一个MLU-Die具备独立的AI计算单元、内存、10以及MLU-Fabric控制和接口,通过MLU-Fabric保证两个MLU-Die间的高速通讯,可以通过不同MLU-Die组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。
寒武纪坚持自研智能芯片架构和指令集。新一代智能处理器架构MLUarch03,拥有新一代张量运算单元,新增FP32,FP16,BF16运算类型;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的275倍;内置专用模块大幅提升各类卷积效率,减少算子执行时间;推出全新MLUv03指令集,更完备,更高效且向前兼容。
思元370升级了视频图像编解码单元,可提供更高效的视频处理能力和更优的编码质量,支持更复杂、更繁重、低延时要求的计算机视觉任务。解码方面,思元370集成了强大的媒体性能,可支持132路1080p视频解码或10路8K视频解码。编码方面,全新编码器通过灵活的码率优化(RDO) 控制、多参考、二次编码等特性组合,在相同图像质量(全高清视频PSNR)的情况下比上一代产品节省42%带宽,有效降低带宽成本。
全新推理加速引擎MagicMind
MagicMind是寒武纪全新打造的推理加速引擎,也是业界基于MLIR图编译技术达到商业化部署能力的推理引擎。MagicMind支持跨框架的模型解析、自动后端代码生成及优化,用MLU、GPU、CPU训练好的算法模型,借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。