大多数进军拉丁美洲的企业在处理人工智能基础设施时,采取的方式与处理该地区其他部署并无二致。然而,尽管大多数方法对SaaS应用程序可能行之有效,但对人工智能却未必总是适用。
您的人工智能服务器所能实现的功能与拉丁美洲用户实际体验之间的差距,可能是由以下问题造成的:
- 网络延迟
- 功率密度限制
- 缺乏企业级人工智能基础设施
仅靠优化是无法解决这个问题的。你必须首先在基础设施层面上解决它。
本指南专为计划在整个拉丁美洲地区应用人工智能的首席技术官(CTO)和基础设施负责人而撰写。那么,让我们开始吧。
为什么拉丁美洲地区会导致大多数人工智能部署失败
试想一下,如果将美国东部或欧洲的 AI 工作负载路由到cloud 丁美洲节点(通常是圣保罗或波哥大),会发生什么?延迟会增加,AI 性能会下降。在测试中感觉瞬间完成的实时自然语言处理,在生产环境中却会出现明显的延迟。商业价值开始受到侵蚀。
令人沮丧的是,这种情况本可以完全避免。大多数cloud 在设计之初,并未考虑到人工智能工作负载所需的低延迟区域网络与专用硬件的结合。
人工智能服务器与标准服务器有着根本性的区别。标准服务器在处理顺序任务时高度依赖 CPU。而人工智能服务器则以 GPU 资源、高带宽内存、NVMe 存储和高速网络为核心构建,这些组件共同构成一个集成系统。
根据 NVIDIA H100 的技术规格,单块经过 AI 优化的 GPU 功耗在 700W 至 1,200W 之间,从而使机架密度达到 30kW 至 60kW 以上。拥有 700 亿个或更多参数的大型语言模型需要 160GB 或更多的显存,这些显存通常分布在多块 80GB 的 GPU 上,例如 NVIDIA H100 或 H200。
NVIDIA NVLink 等技术可提供高达 1.8 TB/s 的带宽,从而提升分布式训练的效率。
将该基础设施部署在通用cloud 上,不仅会增加虚拟化开销、限制配置选项,还会丧失企业级人工智能基础设施所必需的硬件控制权。在部署任何工作负载之前,性能上限就已经被模型所限定。
该地区的基础设施现状
在评估采购模式之前,了解该地区当前的实际情况会有所帮助。以下是对拉丁美洲基础设施现状的概述。
| 挑战 | 现实 | 这对您的 AI 意味着什么 |
|---|
| 网络质量 | 大多数cloud 通过迈阿密或其他国际网络交换点进行回程传输,每一步都会增加一个跳点。 | 对于实时人工智能推理而言,延迟并非衡量标准——它是用户体验的失败。虽然可以实现低于15毫秒的延迟,但这仅在深度本地对等连接的情况下才可行。 |
| Data Center | 旧有设施并非为30kW–60kW的机架密度而建。液冷技术并非拉丁美洲所有市场的标准配置。 | 部署每块功耗在700W至1,200W之间的高性能GPU,需要现成的基础设施——而不是签约后才需要改造的设施。 |
| 节点连接性 | 标准的企业网络无法支持分布式深度学习。多节点人工智能训练需要支持 RDMA 的 InfiniBand 或 100GbE。 | GPU 之间的通信速度与单个 GPU 的处理能力同样重要。无论硬件质量如何,不合理的网络架构都会严重影响多服务器系统的性能。 |
| 数据主权 | 巴西、哥伦比亚和墨西哥各自都有关于数据处理和存储地点的独特规定。 | 在部署之前,必须将合规要求纳入基础设施决策的考量之中——而非事后将其视为法律上的附带事项。 |
AI 服务器究竟需要什么
了解 AI 服务器的硬件架构,既能说明它们为何在处理 AI 工作负载时表现优于标准基础设施,也能解释为何错误的部署环境会抵消这一优势。
企业级人工智能基础设施的核心硬件堆栈通常包括以下组件。
1) GPU加速器
NVIDIA HGX 配置、AMD Instinct GPU 以及 PCIe GPU 构成了企业部署的主要选项。NVIDIA HGX 平台支持 NVLink 互连技术,使多 GPU 扩展在大型模型训练中成为可能。AMD Instinct GPU 在特定的 AI 工作负载和 HPC 应用中表现出色。PCIe 5.0 平台提供了现代 AI 工作负载所需的高吞吐量组件间通信能力。
2) 可扩展处理器
AMD EPYC 和英特尔至强可扩展处理器负责协调、数据准备和推理路由。新一代英特尔至强平台——尤其是第 4 代和第 5 代——引入了对 PCIe 5.0 的支持,并显著提升了与 AI 工作负载相关的内存带宽。
3) 内存架构
高带宽内存能够实现 GPU 与 CPU 之间的快速共享访问。AI 工作负载对内存需求极高,需要高带宽来防止处理器因内存不足而陷入饥饿状态。
作为一项实用的参考标准,系统内存应至少是显卡显存总量的两倍——对于企业级工作负载而言,这通常意味着系统内存需在256GB至1TB之间,这与Epoch AI的硬件基准测试结果一致。
4) 存储、网络和散热
在人工智能训练过程中,若要实现快速数据加载,NVMe SSD 是必不可少的——传统 HDD 会造成瓶颈,无论加速器质量如何,都会降低 GPU 的利用率。在多服务器集群中,为了实现低延迟,必须使用支持 RDMA 的InfiniBand或 100GbE 以太网。
由于高密度GPU负载,AI服务器必须采用液冷技术;一个高密度AI机架的总功耗可能超过30千瓦至60千瓦,且AI服务器的功耗远高于标准硬件。
5) 软件栈
与PyTorch、TensorFlow 和NVIDIA CUDA 的硬件兼容性是 部署的必要条件,而非事后才考虑的因素。针对特定硬件配置进行的软件优化,决定了服务器是能发挥卓越性能,还是长期无法达到其性能上限。
如何选择合适的采购模式
当部署目标是新区域而非现有data center 时,购买与租赁的抉择显得截然不同。
1) 本地部署
最适合:已拥有data center ,且在3年内GPU利用率能持续保持在70%–80%以上的组织。
支持这一观点的理由:
- 完全的硬件控制
- 当利用率持续保持较高水平时,长期成本将降低
问题在于:
- 前期投入资金高,且需持续承担维护成本
- 在拉丁美洲地区若尚未建立业务据点,除硬件成本外,还需考虑设施建设、电力采购及人员配置等费用
- GPU 资产的更新周期为 18 至 24 个月,而标准的折旧年限为 3 至 5 年,这意味着自有硬件往往在性能已不再具备竞争力后,仍会在账面上保留很长时间
2)Cloud
最适合:对于那些灵活性比原始性能更重要的可变或早期工作负载。
支持这一观点的理由:
- 降低前期成本
- 按需付费定价
- 通过 AWS 和 Azure 等服务提供商实现广泛的地理覆盖
问题在于:
- 拉丁美洲地区对尖端硬件的GPU支持有限
- 与专用裸机相比,每块GPU的成本更高
- 与直接访问硬件相比,虚拟化开销会降低人工智能的性能
- 针对特定 AI 工作负载的受限配置选项
3) 混合型(推荐用于大多数拉丁美洲的参赛作品)
最适合: 首次进军拉丁美洲且尚未在该地区data center 的企业 。
工作原理:
- 核心模型的训练在自有中央集群上运行,这些集群的GPU利用率足以证明拥有这些资源是合理的
- 在拉丁美洲(LATAM)的租赁裸机上运行区域推理、微调及对延迟敏感的AI应用
- 避免了在新的地区建设自有产能所带来的资本和运营风险
此处的关键变量是利用率。根据 GoogleCloud机器学习基础设施指南,若在 3 年的规划周期内,GPU 利用率能持续保持在 70% 至 80% 以上,自建基础设施便能实现成本效益。若利用率低于该阈值,或规划周期少于 24 个月,租赁区域性裸机服务不仅能降低总体成本,还能显著降低运营风险。
根据工作负载匹配基础设施
不同的 AI 工作负载对基础设施有不同的要求。您在拉丁美洲运行的服务将决定哪种配置最为合适。
AI 训练与微调
大型语言模型的训练和微调需要突发计算能力、高带宽的GPU间互连,以及跨多个GPU或节点进行扩展的能力。这些工作负载对硬件资源的需求最为苛刻,且对GPU代际差异最为敏感。
对于那些人工智能开发路线图仍在不断演进的企业——这在进入新市场的团队中很常见——租赁基础设施可以规避拥有 GPU 所带来的硬件生命周期风险,因为这些 GPU 的性能可能在折旧完毕前就被更先进的技术所取代。NVMe 存储、高带宽内存、液冷系统以及 InfiniBand 或 100GbE 网络,都是支持任何规模的人工智能训练所必需的。
大规模推理
推理是拉美地区大多数部署的起点,也是网络邻近性最为关键的环节。要为拉丁美洲各地的终端用户提供人工智能应用服务,就需要在物理上靠近这些用户的计算资源。
在实时自然语言处理、图像识别和深度学习推理方面,AI性能会随着网络延迟的增加而下降——通过国际交换点产生的200毫秒往返时延,无法满足实时AI服务的需求。低于15毫秒的区域内延迟不仅是一种性能优势,更是需要具备响应性的AI应用的基本要求。
高性能计算(HPC)工作负载、复杂仿真以及代理式人工智能工作流需要超级计算级别的服务器配置,且更适合在专用裸机cloud 而非虚拟化cloud 运行。
代理式人工智能(即能够自主执行的协调式多步骤人工智能流程)对基础设施延迟尤为敏感。代理式工作流中的每一步都会增加累计响应时间,这使得在应用层面上,区域性裸机部署与cloud部署之间的差异变得尤为显著。
生成式人工智能与边缘人工智能
基于大型语言模型构建的生成式人工智能应用,若通过国际骨干网进行推理以服务区域用户,将无法实现卓越的性能。推理延迟与网络延迟会相互叠加。边缘人工智能工作负载——即在终端用户处或附近进行的人工智能处理——需要结合区域性裸金属基础设施与覆盖“最后一公里”的高密度、低延迟网络。 目前,零售、金融服务、物流和医疗保健领域的企业正在拉丁美洲各地部署边缘AI应用。
拉美地区人工智能基础设施的总成本
硬件价格并非总拥有成本(TCO)。对于区域性部署,完整的成本模型包含三个类别,而大多数资本支出(CapEx)分析往往低估了这些类别的权重。
1) 直接成本
这些成本显而易见:服务器硬件、data center 电力、网络设备以及文件存储系统。一台配备8个GPU的人工智能服务器,在未计入网络和安装费用前,价格就可能高达15万美元或更高;而功耗在30千瓦至60千瓦之间的GPU密集型机架,需要专门的设施,而标准的托管服务定价并不包含这些费用。
2) 间接费用
间接费用往往会不断累积,却不会出现在采购订单上。管理裸机 GPU 基础设施——包括驱动程序更新、CUDA 堆栈管理以及整个软件堆栈的硬件兼容性验证——需要具备专业技能的基础设施工程师。
据Gartner称,招募和留住人工智能基础设施人才是IT组织面临的首要运营挑战之一。在人才储备相对匮乏的新兴区域市场中,人员配置的成本和风险则更为显著。
3) 风险成本
这些成本最难建模,且影响最为深远。根据 Epoch AI 的计算趋势研究,GPU 的性价比大约每两年提升一倍,这意味着自购硬件在折旧前就可能失去竞争力。利用率不足进一步加剧了这一问题:在两次训练运行之间,GPU 集群的利用率往往低于 50%,这意味着这部分资本无法产生回报。 在需求高峰期,NVIDIA HGX平台等尖端硬件的供应链延迟通常长达6至9个月——而租赁基础设施则能彻底规避这一风险。
对于首次进入拉美市场的部署,从经济角度来看,租赁区域性裸机服务始终比自建运力更具优势。资本支出、人员管理成本以及硬件生命周期风险均由基础设施提供商承担。随着工作负载的扩展,运营效率的提升将呈倍增效应。
为何EdgeUno是拉美地区人工智能发展的基石
硬件决定了人工智能性能的上限。而神经网络则决定了这个上限是否会被突破。
EdgeUno运营着拉丁美洲互联性最强的 IP 网络(AS7195)——其直接对等连接关系、光纤容量及区域覆盖范围均超越该地区任何其他服务商。因此,整个拉丁美洲地区的延迟均低于 15 毫秒,您可访问 edgeuno.com/latency 进行验证。EdgeUno 的每一款基础设施产品均部署于该网络之中。这正是我们的与众不同之处。
EdgeUno 提供什么
- Bare Metal
为 AI 训练和 HPC 工作负载提供全面的硬件控制。无虚拟化开销,无资源共享——拥有与自建服务器相同的性能表现,却无需承担资本支出风险。
- 私有Cloud
基于 Proxmox 和 Ceph 构建的托管 GPU 基础设施。非常适合希望利用 AI 能力,但又不具备深厚裸机运维专业知识的 AI 开发团队。
- EdgeGPT
具备完整数据治理能力的私有大型语言模型部署方案。专为无法将敏感工作负载通过cloud 传输的金融服务、医疗保健或政府相关领域的企业而设计。
- AI 互联
专为满足人工智能和高性能计算(HPC)对高吞吐量、低延迟的需求而构建的专用网络。网络瓶颈导致GPU集群利用率仅为60%,而连接性能与硬件相匹配时利用率可达95%,两者之间的差异显而易见。
EdgeUno 已获得 ISO 9001 和 ISO 27001 认证,能够为企业采购提供所需的高级安全保障和质量管理保证。
CTO的预承诺检查清单
在签署任何拉美地区的人工智能基础设施协议之前,请先仔细考虑以下问题:
- GPU 型号选择与生命周期规划—— 该区域提供哪些代的 GPU,以及服务商的硬件更新周期是怎样的?
- 功率密度容量——该设施能否支持 30kW 至 60kW 的机架密度,以满足高密度 GPU 人工智能服务器配置的需求?
- 存储架构——训练数据管道是否支持 NVMe 存储?无论加速器性能如何,传统的 HDD 都会成为 GPU 性能的瓶颈。
- 多节点网络——InfiniBand 或支持 RDMA 的 100GbE 以太网是否可用于分布式训练和 HPC 工作负载?
- 区域延迟——在您目标的拉美市场中,面向最终用户的实际延迟是多少?对于实时人工智能应用而言,15毫秒以下是行业基准。
- 软件栈兼容性——CUDA、PyTorch、TensorFlow 及相关驱动程序是否已在所提供的特定硬件配置上经过验证?
- 数据主权——各目标国家对数据处理有哪些要求?巴西的《一般数据保护法》(LGPD)、哥伦比亚的数据保护框架以及墨西哥的《个人数据保护法》(LFPDPPP)对人工智能工作负载的运行地点各有不同的影响。
- 内部运维就绪性——您的团队是否具备管理裸机 GPU 的经验,能够运营专用基础设施?还是说托管cloud 更有效地cloud 运维风险?
最终想法
对于拉丁美洲市场而言,人工智能绝非遥不可及的未来技术。如今,该地区部署人工智能的企业正在建立基础设施优势,随着拉丁美洲各大经济体加速采用人工智能,这一优势将在未来几年内不断放大。能够成功实施的企业未必是预算最充裕的——而是那些认识到拉丁美洲地区的人工智能性能本质上是一个基础设施问题,并且明白解决这一问题需要与专为该地区打造的网络和硬件合作伙伴携手共进的企业。
准备在拉丁美洲部署 AI 基础设施了吗?请咨询 EdgeUno 专家,我们将根据您的 GPU 需求、工作负载类型和目标区域为您量身定制部署方案。