服务600+客户的3D生成AIGC公司怎样实现GPU成本低落70%?

打印 上一主题 下一主题

主题 964|帖子 964|积分 2892

原文链接:https://aws.amazon.com/cn/solutions/case-studies/omi-eks-case-study/
编译:CloudPilot AI
总部位于巴黎的视觉生成初创公司 Omi 提供基于人工智能的 3D 图像渲染办理方案,资助品牌生成高质量的产品视觉内容。Omi 始终将性能效率和成本优化放在首位。早在生成式 AI 兴起之前,该公司便利用 Amazon Elastic Kubernetes Service (Amazon EKS) 开发了其 3D 渲染办理方案。
为了进一步优化性能、速率和成本,Omi 借助 Karpenter 来自动匹配适合的盘算资源,以处理基于 Kubernetes 的 GPU 工作负载。通过这项改进,Omi 不仅将基础办法成本低落了 70%,还将照片渲染时间从 5 分钟缩短至 1.5 分钟,提升了可扩展性,同时优化了员工的工作效率。

利用 Amazon EKS 优化 Omi 的 AI 图像建模

Omi 成立于 2020 年,旨在满足一项核心业务需求:以更少的时间和更低的成本制作高质量的视觉内容。 Omi 利用 AI 提供 3D 图像和视频建模服务,打破了传统的生产限制,大幅低落了制作成本,并通过 3D 技术与生成式 AI 实现了高效便捷的定制内容生产,覆盖了所有营销渠道。
现在,Omi 的业务遍布全球 17 个国家,服务超过 600 位客户和 1,000 个品牌,逐日活跃用户超过 5,000 人,用户主要为电子商务、社交媒体和广告渠道制作内容。通过 Omi 的办理方案,客户在营销视觉内容的制作上显著减少了时间和成本。
从一开始,Omi 就致力于打造一款快速高效的办理方案,用于生成社交媒体照片、3D 动态图像以及视频,并适配电商网站和其他渠道的利用需求。
最初,Omi 在本地完成内容创建,并通过远程服务器实现照片级逼真的渲染。然而,随着对快速、低成本服务需求的增长,公司不得不将生成式 AI 功能集成到其办理方案中。这一集成对盘算和 GPU 资源提出了巨大的要求,同时需要 Omi 采用新的方法来管理可扩展性,并在控制成本的同时保持高可用性。
Omi 的联合首创人 Paul Borensztein 表示:“对我们来说,构建能够提供卓越性能的基础办法非常紧张,但我们也必须确保成本不会过高。”
最初,Omi 的基础办法团队有 60%–70% 的时间被用于优化 GPU 的扩展速率和成本管理。公司面临诸多 IT 运维挑衅,比方由于 Docker 镜像过大导致的容器启动时间缓慢,以及涉及多种自动扩展组和实例范例的扩展复杂性。
传统的集群自动扩展器(Cluster AutoScaler)在管理生成式 AI 工作负载的可用区和实例范例时表现乏力,导致无法及时满足盘算需求,进而让客户等待时间变长。

为相识决这些题目,Omi 采用了 Karpenter,这是一款开源的 Kubernetes 节点自动扩缩容工具,通过弹性伸缩 Kubernetes 集群,平衡应用程序的可用性、性能和成本。Omi 的高级后端开发工程师兼 SRE 工程师 Elliot Maincourt 表示:“利用 Karpenter 后,我们显著缩短了实例启动时间,这资助我们的应用程序将照片的均匀渲染时间从 5 分钟减少到 1.5 分钟,这无疑是一个巨大的提升。”
引入 Karpenter,低落 70% 成本并缩短渲染时间

在过去管理 Kubernetes 集群时,Omi 团队曾遇到不少挑衅。为此,他们决定采用 Amazon EKS,这是一项托管服务,可用于启动、运行和扩展 Kubernetes 集群。为了进一步优化基础办法并办理运维难题,Omi 引入了 Karpenter,这款工具能够快速、自动适应应用负载和资源需求的变化,并智能选择跨可用区的低成本实例。
CloudPilot AI (www.cloudpilot.ai)在 Karpenter 的基础上对节点选择功能进行智能化升级。在选取实例的过程中,除了代价因素外,还将网络带宽、磁盘 I/O、芯片范例等因素纳入考虑范围内,通过智能算法选出兼顾成本和性能的实例范例,以减少资源浪费,增强应用稳定性。

另一个低落成本的手段是充分利用 Spot 实例,因为这一实例范例的代价为 On-demand 实例的 1-2折。此外,CloudPilot AI 采用自研的 AI 算法,能提前精准猜测 Spot 实例中断时刻。将默认2分钟的中断关照延伸至2小时,同时在检测到 Spot 实例即将中断之后,资助用户安全、高效、自动地完成 Spot Fallback,为运维团队减负,保障应用安稳运行。

Borensztein 表示:“Amazon EKS 和 Karpenter 在处理我们工作负载的扩展方面表现非常出色,偶然 GPU 实例能在几分钟内从 1 个扩展到 250 多个,同时仍然有用控制了成本。”
Omi 的办理方案可以快速扩展至 1,000 个 GPU 实例,并且包括 CPU 实例在内,能够在 Amazon EKS 上同时运行超过 1,500 台机器。(拜见下方图 1 和图 2)

图1 总体集群负载

图2 Ratio/On-Demand Ratio
通过结合利用 Karpenter 的节点生命周期管理和成本优化实例,Omi 成功将整体成本低落了 70%。 Omi 利用 Karpenter 管理其 Amazon EKS 节点组,** 在 24 小时内扩展至 3,500 多个 Pod。** 这种快速扩展本领资助 Omi 满足了客户的需求。Borensztein 表示:“在 AWS 上利用 Karpenter,我们在不到两个月的时间内就取得了巨大改进,包括在摆设和调优方面。”
此外,为了更高效地服务客户,Omi 采用了 Bottlerocket,这是一款由 AWS 专门为运行容器筹划的基于 Linux 的开源操作系统。Omi 利用 Bottlerocket 的不可变操作系统(Immutable OS)从外部数据存储中预取容器镜像,然后再在只读操作系统上启动 Kubernetes Pod。
通过借助 AWS 提升办理方案性能,Omi 希望进一步加速客户体验。Omi 的集群在峰值状态下可以支持超过 1,000 个节点的运行。 这些改进不仅资助 Omi 构建了一个强大的办理方案,还减少了团队的维护时间。Maincourt 表示:“现在我们可以专注于业务扩展,而不是花时间管理基础办法。我对我们在 Amazon EKS 上的集群非常信任,它们从未出过题目,尽管我们对它们的要求非常高。”
Omi 的客户也从这些改进中受益匪浅。随着基于单个产品的灵活定价模式的引入,客户现在可以为单个产品执行大规模渲染使命,数目可达数千乃至数万次。 Borensztein 表示:“通过这些年来我们在优化方面的积极,包括在这个重大项目中利用 AWS,我们为客户提供了极大的灵活性,他们几乎可以无穷制地扩展渲染需求。”
加速拓展新市场

在不到两个月的时间内,Omi 通过利用 Karpenter 和 Amazon EKS 实现了显著的改进,这些办理方案让公司能够将精力集中在业务扩展上,而非基础办法管理。现在,Omi 在提升渲染本领和重新评估基础办法需求上花费的时间显著减少。
Omi 的业务增长在英国和整个欧洲加速推进。公司继承利用 AWS 优化其办理方案,并筹划将服务扩展到包括美国在内的新市场。在内容创作蓬勃发展的市场中,Omi 的办理方案汇聚了生成式 AI 和 3D 两大趋势的上风,具有强大的市场竞争力。
Maincourt 表示:“利用 Karpenter 和 Amazon EKS 的最大好处在于,我们显著减少了客户的渲染时间。同时,我们还将成本低落了 70%,这也是一个紧张的贸易目的。”

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

花瓣小跑

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表