Ray分布式计算框架

Ray is a unified framework for scaling AI and Python applications. Ray consists of a core distributed runtime and a toolkit of libraries (Ray AIR) for accelerating ML workloads.

===

ChatGPT背后的开源AI框架Ray，现在值10亿美元

光说显卡，chatgpt大概用800G显存，你用4090堆比较亏，要30多张并联。但你又买不到性价比高一点的A100，也没有能并联30张4090的主板，更没有多主板还能并行计算的技术

对了比较准确的资料显示训练一次450W美金左右

请问这些技术怎么有啊？国内有吗？openai是怎么解决多个显卡并联训练的？

显卡并联在ai训练是很基础的技术了，没什么稀奇的，gpu计算本来就可以并行

您好，我知道有单机多卡，请问多机多卡，也就是您说的，多主板并行计算，比如10张每张能插8个卡的主板，这10个主板（共10x8个GPU单卡）能并联训练吗？谢谢！

能啊，就说最傻的方法，计算能并行就能搞传统MapReduce，分过去再回来。虽然这样损失很大，现在应该用Ray的比较多吧

分布式框架Ray及RLlib简易理解

分布式计算集群Ray部署及测试流程

超级可扩展计算框架Ray用于训练ChatGPT

Ubuntu Ray 分布式训练

python3安装分布式ray集群

各节点安装ray pip3 install ray[default] 切记不可 pip3 install ray，因为这样安装不完整，会没有Dashboard
ray集群部署 2.1 启动head节点

Ray 分布式简单教程（1）

Ray为构建分布式应用程序提供了一个简单、通用的API。

Ray主要作用就是提供一个调度平台，能够将各个分布式集群以及远程云端的服务器资源调度管理，只需稍加改动，就能将单机运行的代码部署到大规模集群上。

在Ray Core上有几个库，用于解决机器学习中的问题:

Tune:可伸缩的超参数调优
RLlib：工业级强化学习
Ray Train:分布式深度学习
Datasets:分布式数据加载和计算(beta)

以及用于将 ML 和分布式应用程序投入生产的库：

Serve：可扩展和可编程的服务
Workflows：快速、持久的应用程序流程（alpha）

还有许多与 Ray 的社区集成，包括 Dask、MARS、Modin、Horovod、Hugging Face、Scikit-learn等。

分布式框架Ray——启动ray、连接集群详细介绍

PyTorch & 分布式框架 Ray ：保姆级入门教程

图注：Ray Cluster Launcher简化了在任何集群或云提供商上启动和扩展的过程。

一旦您在笔记本电脑上开发了一个应用程序，并希望将其扩展到云端（也许有更多的数据或更多的 GPU），接下来的步骤并不总是很清楚。这个过程要么让基础设施团队为你设置，要么通过以下步骤:

选择一个云提供商（AWS、GCP 或 Azure）。
导航管理控制台，设置实例类型、安全策略、节点、实例限制等。
弄清楚如何在集群上分发你的 Python 脚本。

一个更简单的方法是使用 Ray Cluster Launcher 在任何集群或云提供商上启动和扩展机器。Cluster Launcher 允许你自动缩放、同步文件、提交脚本、端口转发等。这意味着您可以在 Kubernetes、AWS、GCP、Azure 或私有集群上运行您的 Ray 集群，而无需了解集群管理的低级细节。