概述
官网翻译:https://docs.ray.io/en/latest/ray-overview/index.html
Ray是一个开源的统一框架,用于扩展AI和Python应用程序,如机器学习。它为并行处理提供了计算层,因此你不需要成为一个分布式系统专家。Ray最大限度地减少了用这些组件运行你的分布式个体和端到端机器学习工作流程的复杂性:
-
用于常见机器学习任务的可扩展的库,如数据预处理、分布式训练、超参数调整、强化学习和模型服务。
-
用于并行化和扩展Python应用程序的Pythonic分布式计算基元。
-
用于将Ray集群与现有工具和基础设施(如Kubernetes、AWS、GCP和Azure)集成和部署的集成和实用工具。
对于数据科学家和机器学习从业者来说,Ray让你在不需要基础设施专业知识的情况下扩展工作:
-
轻松地在多个节点和GPU上并行化和分配工作负载。
-
快速配置和访问云计算资源。
-
利用原生和可扩展的集成来利用ML生态系统。
对于分布式系统工程师,Ray自动处理关键流程:
-
协调-管理分布式系统的各种组件。
-
调度-协调任务执行的时间和地点。
-
容错性-确保任务完成,无论是否有不可避免的故障点。
-
自动扩展-调整分配给动态需求的资源数量。
你可以用Ray做什么
这些是一些常见的ML工作负载,个人、组织和公司利用Ray来建立他们的AI应用:
-
在CPU和GP