目前主流的分布式架构包括spark,参数服务器和tensorflow:
1.基于mapreduce模型的spark-mllib,采用数据分布式+同步的模式,缺点是对异步和模型分布式不支持,但是社区完善。
2.基于参数服务器的Multiverso,既可实现数据分布式,也可实现模型分布式,同时支持异步和同步,也可实现大规模的参数更新。
3.基于数据流图的tensorflow,可以和1,2结合组成复杂的分布式机器学习网络。
4.3种模式的区别:
5.各种框架对比图, angel是腾讯开源的参数服务器框架,spark是mapreduce流派的代表,tensorflow和pytorch是数据流图的代表。
参考:《分布式机器学习:算法,理论与实践》刘铁岩
最近更新日期为:2022/1
拒绝白嫖,欢迎star!
笔者组建了个AIOPS技术交流的群,群友遍布硅谷,新加坡,腾讯,阿里,浙大等等,欢迎志同道合的朋友与我联系加入!