AWS與NVIDIA攜手開發下世代AI基礎設施

記者李錫銘／台北報導

亞馬遜AWS與NVIDIA攜手開發下世代基礎設施，助力大型機器學習模型訓練和生成式AI應用程式建構。

Amazon Web Services（AWS）和NVIDIA（輝達）宣佈多方合作，致力於建構全球最具可擴展性且隨需付費的人工智慧（AI）基礎設施，以便訓練日益複雜的大型語言模型（LLM）和開發生成式AI應用程式。

AWS表示，借助NVIDIA H100 Tensor Core GPU支持的下世代Amazon Elastic Compute Cloud（Amazon EC2）P5執行個體，以及AWS最先進的網路和可擴展性，此次合作將提供高達20 exaFLOPS的運算效能來協助建構和訓練更大規模的深度學習模型。P5執行個體將是第一個利用AWS第二代Amazon Elastic Fabric Adapter（EFA）網路技術的GPU執行個體，可提供3200 Gbps的低延遲和高頻寬網路輸送量。因此客戶能夠在Amazon EC2 UltraCluster中拓展多達2萬個NVIDIA H100 GPU，滿足隨需訪問超級電腦的AI效能需求。

AWS指出，與NVIDIA合作已超過十二年，為人工智慧、機器學習、圖形、遊戲和高效能運算（HPC）等各種應用提供了大規模、低成本的GPU解決方案。AWS執行長Adam Selipsky表示，AWS在交付基於GPU的執行個體方面擁有無比豐富的經驗，每一代執行個體都大幅強化可擴展性，如今眾多客戶將機器學習訓練工作負載拓展到1萬多個GPU。借助第二代EFA，客戶能夠將其P5執行個體拓展到超過2萬個H100 GPU，為包括新創公司、大企業在內的所有規模客戶提供所需的超級運算能力。

NVIDIA創辦人暨執行長黃仁勳表示，加速運算和人工智慧已經到來，而且適逢其時。加速運算提升效能的同時，降低了成本和功耗，讓企業事半功倍。生成式AI已促使企業重新思考產品和商業模式，力求成為顛覆者，而不是被顛覆。AWS是NVIDIA的長期合作夥伴，也是首家提供NVIDIA GPU的雲端服務提供者。