阿里开源深度学习训练框架EPL 可支持10万亿参数模型

林月 2022-03-07 16:36:26

2022-03-07 16:36:26 阅读 2181 评论 0

3月7日消息，近日，阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架EPL（Easy Parallel Library，原名whale），进一步完善深度学习生态。

据了解，EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务，内置140多种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

（图源站长之家）

EPL通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。

EPL适合不同场景的模型，在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时，EPL也支持不同规模的模型，最大完成了10万亿规模的M6模型训练，相比之前发布的大模型GPT-3，M6实现同等参数规模能耗仅为其1%。

最新测试结果显示，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

阿里云资深技术专家九丰表示，未来将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。将EPL完全开源，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，持续完善深度学习生态。

EPL 阿里巴巴阿里云阿里巴巴开源深度学习训练框架

声明：

该内容为作者独立观点，不代表电商报观点或立场，文章为作者本人上传，版权归原作者所有，未经允许不得转载。

电商号平台仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。

如对本稿件有异议或投诉，请联系：info@dsb.cn