Наши Люди

15-12-2025

Горячая война чипов и гонка инфраструктурных вооружений в сфере ИИ

Крупнейшие технологические компании мира вовлечены в войну капитальных затрат за превосходство в области искусственного интеллекта. Совокупные расходы в 2025 году, по прогнозам, достигнут $350–417 млрд — примерно втрое больше, чем в 2023 году. Этот масштабный инфраструктурный проект фундаментально перестраивает полупроводниковую отрасль и создаёт новые энергетические проблемы, заставляющие корпорации спешно обеспечивать себя ядерной энергией. Amazon, Google, Microsoft и Meta — каждая из компаний реализует стратегию создания собственных чипов, одновременно конкурируя за ограниченные ресурсы и используя проблему споставки GPU от NVIDIA.

TPU Google достигает паритета с NVIDIA Blackwell

Программа TPU — специализированных ИИ-чипов от Google, — охватывающая семь поколений и более десяти лет разработки, убедительно конкурирует с новейшим оборудованием NVIDIA по производительности, предлагая при этом более низкую стоимость вычислений. Недавно анонсированный TPU v7 Ironwood, который (видимо) станет общедоступным в конце 2025 года, обеспечивает 4 614 ТФЛОПС производительности BF16 на чип с 192 ГБ памяти HBM3e — характеристики, приближающиеся к архитектуре Blackwell от NVIDIA.

Масштаб развёртывания TPU от Google поражает: блоки Ironwood могут содержать до 9 216 чипов, обеспечивающих 42,5 экзаФЛОПС вычислительной мощности и потребляющих почти 10 МВт энергии на блок (блок — это то, что устанавливается в дата-центрах). Компания заявляет, что TPU v7 обеспечивает примерно на 44% более низкую совокупную стоимость владения, чем системы GB200 от NVIDIA — убедительный экономический аргумент для тех, кому нужны масштабные вычисления.

Сделка октября 2025 года, предоставляющая ИИ-провайдеру Anthropic (ранее работавшей только с Amazon) доступ к до 1 млн чипов TPU v7, подтверждает готовность Google предоставлять архитектуру TPU как реальную альтернативу NVIDIA для обучения передовых моделей. Позиционирующий себя как производитель надёжных и безопасных систем ИИ с высокой достоверностью результатов Anthropic теперь работает в мультиоблачной архитектуре, охватывающей как TPU Google, так и Trainium Amazon и GPU NVIDIA — стратегическое хеджирование, которое, вероятно, будут копировать другие исполины ИИ.

Ставка Amazon на Trainium

Project Rainier — дата-центр Amazon стоимостью $11 млрд в Нью-Карлайле, штат Индиана — представляет собой самое амбициозное развёртывание собственных чипов за пределами существующей TPU-инфраструктуры Google. По состоянию на октябрь 2025 года семь из 30 запланированных зданий введены в эксплуатацию, в них размещено около 500 000 чипов Trainium2 с планами масштабирования до 1 млн чипов к концу года. AWS построила и запустила эти объекты всего за семь месяцев, продемонстрировав скорость запуска, недоступную конкурентам.

Объект создан для единственной цели: обучения моделей Claude компании Anthropic. Инвестиции Amazon в Anthropic в размере $8 млрд (осуществлённые двумя траншами по $4 млрд каждый) делают это партнёрство краеугольным камнем ИИ-стратегии AWS. Project Rainier обеспечивает в 5 раз больше вычислительной мощности, чем Anthropic использовала для обучения предыдущих поколений Claude, при этом инженеры Anthropic работают напрямую с командой разработчиков чипов Annapurna Labs от Amazon для оптимизации производительности на уровне ядра.

Характеристики Trainium2 раскрывают конкурентное позиционирование AWS: чип обеспечивает 1,3 петаФЛОПС производительности FP8 с 96 ГБ памяти HBM3e и пропускной способностью 2,9 ТБ/с. Хотя показатели FLOPS на чип уступают NVIDIA H100, AWS заявляет о 30–40% лучшем соотношении цена/производительность для аналогичных нагрузок — критически важный показатель затрат на ИИ-вычисления. Грядущий Trainium3, первый ИИ-чип AWS на 3-нм техпроцессе, удваивает производительность до 2,52 петаФЛОПС на чип и увеличивает объём памяти до 144 ГБ HBM3e; выход запланирован на конец 2025 года.

Масштаб обязательств Amazon в области ИИ-инфраструктуры превосходит конкурентов: компания планирует потратить примерно $118–125 млрд капитальных затрат в 2025 году, а президент Amazon Энди Джасси описывает ИИ как «возможно, уникальную возможность, которая бывает раз в жизни». Помимо Индианы, Amazon объявила о расширении на $15 млрд в северной Индиане, объекте на $3 млрд в Миссисипи и инициативе по ИИ/высокопроизводительным вычислениям для правительства США на сумму до $50 млрд с мощностью 1,3 ГВт.

NVIDIA сохраняет доминирование несмотря на конкурентное давление

Позиции NVIDIA в ИИ-инфраструктуре остаются господствующими: компания удерживает примерно 85–90% рынка ИИ-ускорителей и показала рекордную выручку за Q3 FY2026 в размере $57 млрд, при этом выручка только от собственных дата-центров достигла $51,2 млрд. Президент NVIDIA Дженсен Хуанг описал продажи Blackwell как «зашкаливающие», при этом компания отгружает примерно 1 000 стоек для дата-центров в неделю — при цене около $3 млн за стойку с 72 GPU.

Архитектура Blackwell представляет собой самый амбициозный чип NVIDIA на сегодняшний день: 208 млрд транзисторов на двух кристаллах, соединённых интерконнектом NV-HBI на 10 ТБ/с. Стоечная система GB200 NVL72 обеспечивает до 30-кратного улучшения по сравнению с H100 (наиболее часто используемый на сегодня чип для ИИ) для запросов LLM при потреблении 120–140 кВт на стойку. NVLink пятого поколения обеспечивает двунаправленную пропускную способность 1,8 ТБ/с на GPU и может соединять до 576 GPU в одном сетевом кластере NVLink — преимущество, которое конкуренты пока что не могут повторить.

Высокий конкурентный барьер NVIDIA выходит за пределы оборудования и распространяется на программную экосистему CUDA, в которую за более чем 18 лет вложены огромные усилия сторонних разработчиков. Переход с CUDA на альтернативы вроде ROCm от AMD может потребовать «месяцев инженерной работы и стоить сотни тысяч долларов», поэтому индустрия независимых разработчиков систем ИИ будет продолжать использовать чипы NVIDIA, игнорируя решения их конкурентов. Этот эффект привязки описывается в англоязычной прессе как «стандартная железнодорожная колея» ИИ-разработки — конкуренты могут создать лучшее оборудование, но не могут создать «железнодорожную сеть» CUDA, с которой нет выезда.

Однако ограничения поставок остаются ахиллесовой пятой NVIDIA. Мощности TSMC для CoWoS — критически важные для интеграции кристаллов GPU с памятью HBM — ограничивают объём производства. TSMC расширяет мощности CoWoS с 35 000–40 000 кристаллов (пластин для нарезки на чипы GPU) в месяц в 2024 году до 75 000 к концу 2025 года, но спрос по-прежнему опережает предложение.

В этом смысле AMD представляет для NVIDIA наиболее реальную конкурентную угрозу. AMD MI300X с 192 ГБ HBM3 получил значительное признание: Meta закупила 173 000 GPU AMD MI300X в 2024 году, что составляет 43% её закупок GPU — против 224 000 чипов от NVIDIA. Выручка AMD от GPU для дата-центров достигла примерно $5 млрд в 2024 году по сравнению с $461 млн в 2023 году, хотя доля рынка остаётся ниже 5%. Серия MI350, запускаемая во второй половине 2025 года на 3-нм техпроцессе TSMC, заявляет 35-кратное улучшение скорости обработки ИИ-запросов по сравнению с предыдущими поколениями.

Другие крупные инфраструктурные проекты

Чипы MTIA от Meta гипер-оптимизированы для рекомендательных систем и инференс-нагрузок, обеспечивая исключительную энергоэффективность (7,8 TOPS/Вт против 5,65 у H100), но остаются узкоспециализированными и не имеют возможности обучения. Сейчас Meta эксплуатирует 350 000+ GPU, эквивалентных H100, с кластером на 100 000+ H100, завершённым в конце 2024 года специально для обучения Llama 4.

Компания xAI Илона Маска построила Colossus — ныне крупнейший в мире ИИ-суперкомпьютер — в Мемфисе с поразительной скоростью. Первая фаза, завершённая в июле 2024 года после всего 122 дней строительства, развернула 100 000 GPU H100. Вторая фаза, завершённая в феврале 2025 года после ещё 92 дней, удвоила мощность до 200 000 GPU (100 000 H100 плюс 100 000 дополнительных чипов, включая 50 000 H200). План объекта предусматривает 1 млн GPU, что представляет крупнейшую капитальную инвестицию в истории Мемфиса.

Проект Stargate от OpenAI, объявленный в январе 2025 года, планирует $500 млрд инвестиций в ИИ-инфраструктуру в течение четырёх лет с SoftBank, Oracle и MGX в качестве партнёров по капиталу. Десять дата-центров уже строятся в Абилине, штат Техас, $100 млрд развёрнуты немедленно, с планами расширения в Великобританию, Норвегию, Японию, ОАЭ и Аргентину.

В то же время Microsoft и Meta сталкиваются с большими трудностями в программах производства собственных чипов. Внедрение чипа Maia 100 от Microsoft, анонсированного в ноябре 2023 года, задерживается: согласно The Information, массовое производство Maia 200 отложено до 2026 года из-за изменений в дизайне. В то же время Microsoft Azure Eagle занимает 3-е место в рейтинге HPC Top500 с 14 400 H100.

Китайские инициативы в области ИИ продвигаются — несмотря на экспортный контроль

Американские экспортные ограничения создали как проблемы, так и возможности для китайской отечественной полупроводниковой промышленности. Чипы Ascend от Huawei стали основной альтернативой: компания теперь контролирует 75% общего китайского производства ИИ-чипов. Ascend 910B, производимый SMIC по техпроцессу класса 7 нм, обучил примерно половину из более чем 70 крупных китайских LLM, среди клиентов — ByteDance (более 100 000 заказанных чипов), Baidu и China Mobile.

Ascend 910C, объединяющий два чипсета 910B, обеспечивает примерно 60% производительности инференса NVIDIA H100, но потребляет в четыре раза больше энергии при эквивалентных нагрузках. Массовые поставки начались в мае 2025 года с планом 100 000 единиц за год, хотя показатели выхода годных остаются сложными — примерно 40%.

Другие китайские чиповые усилия демонстрируют различную степень прогресса:

  • Cambricon Technologies ожидает рост выручки на 317–483% в 2025 году, но показала семь последовательных лет убытков
  • Biren Technology заявляет производительность класса H100 для своего чипа BR100, но сталкивается с нестабильностью руководства после отставки генерального директора
  • Moore Threads, основанная бывшими сотрудниками NVIDIA, достигла 70,7% валовой маржи в 2024 году и может запускать популярные модели DeepSeek и Qwen

Ограничения апреля 2025 года на чип H20 от NVIDIA — ранее самый продвинутый GPU и легально доступный в Китае — усилили внедрение отечественных китайских чипов. Китайские компании прочёсывают чёрные рынки в поисках запрещённых чипов по двойной цене, некоторые покупают игровые GPU RTX в качестве замены. Несмотря на давление правительства, китайские ИИ-разработчики в подавляющем большинстве предпочитают NVIDIA, когда она доступна, создавая устойчивый спрос на серые цепочки поставок.

Энергетические ограничения приводят к ядерному ренессансу

Самый существенный сдвиг (не особо заметный на фоне успеха производства чипов) происходит в энергетике. Экспоненциально возрастающий энергетический аппетит ИИ трансформирует инфраструктурную стратегию ключевых игроков (их называют гиперскейлерами). Один кластер для обучения ИИ может потреблять свыше 100–500 МВт, а крупнейшие планируемые дата-центры приближаются к 2 ГВт — это в четыре раза больше нынешнего масштаба дата-центров. Энергопотребление GPU резко возросло: с 400 Вт на чип до 2022 года до 700 Вт для H100, до 1 000–1 200 Вт для Blackwell B200, с прогнозами 1 400 Вт для будущих поколений. Одна стоечная система GB200 NVL72 требует 120–140 кВт, что делает необходимой инфраструктуру жидкостного охлаждения, которой не хватает большинству существующих объектов.

Глобальное потребление электроэнергии дата-центрами достигло 415 ТВт·ч в 2024 году (1,5% мирового потребления), с прогнозом 945 ТВт·ч к 2030 году. Доля ИИ в этом спросе, по прогнозам, вырастет с примерно 12–14% в 2024 году до 27–50% к 2030 году. МЭА прогнозирует, что дата-центры США будут потреблять 183 ТВт·ч ежегодно — 4,4% от общего потребления электроэнергии в США.

Этот энергетический кризис подтолкнул гиперскейлеров к ядерной энергетике с беспрецедентной срочностью:

  • Amazon приобрела кампус дата-центров мощностью 960 МВт рядом с атомной электростанцией Саскуэханна в Пенсильвании за $650 млн, расширив соглашение о покупке электроэнергии до 1 920 МВт до 2042 года. Amazon также возглавила финансирование в размере $1,4 млрд технологии малых модульных реакторов X-energy, нацеливаясь на 5+ ГВт новых мощностей SMR к 2039 году.
  • Microsoft подписала 20-летнее соглашение о покупке электроэнергии на 835 МВт с Constellation Energy для перезапуска неповреждённого реактора Три-Майл-Айленд (переименованного в Crane Clean Energy Center), начало эксплуатации ожидается в 2028 году.
  • Google стала первой корпорацией, подписавшей соглашения о развёртывании нескольких SMR, взяв на себя обязательства по получению до 500 МВт от Kairos Power на 6–7 реакторах к 2035 году.
  • Meta обеспечила 20-летнее соглашение о покупке 1 121 МВт ядерной энергии с Constellation Energy, начиная с июня 2027 года.
  • Colossus потребляет примерно 300 МВт электроэнергии, использует сети NVIDIA Spectrum-X Ethernet и опирается на резервное питание от батарей Tesla Megapack на 150 МВт. Кластер обучает модели Grok компании xAI, разработка Grok 3 продолжается.

Географическая концентрация усугубляет эти проблемы. «Аллея дата-центров» в Северной Вирджинии обрабатывает примерно 70% мирового интернет-трафика и в настоящее время располагает 6 ГВт действующих мощностей ещё с 6,3 ГВт в стадии строительства. Очередь на подключение PJM содержит 2 600 ГВт ожидающих проектов — более чем вдвое больше всей энергосистемы США — со сроками ожидания свыше 8 лет. По прогнозам PJM, без вмешательства регион может столкнуться с резким ростом часов потери нагрузки с 2,4 часа/год до 430 часов к 2030 году.

Императив вертикальной интеграции — попытка ответа на рыночное доминирование NVIDIA

Стратегическая логика, движущая инвестициями гиперскейлеров в собственные чипы, проста: дата-центры, дата-центры, дата-центры. Сегодня NVIDIA получает примерно 75% валовой маржи в целом и, по оценкам, 90% на продуктах высокого класса именно для дата-центров. В то же время TPU от Google может выполнять операции в 4–6 раз дешевле, чем на оборудовании NVIDIA — преимущество в эффективности, которое умножается с ростом масштабов: Amazon и Google обрабатывают миллиарды ИИ-запросов ежедневно; даже скромная экономия на запрос превращается в миллиарды долларов ежегодного сокращения операционных расходов.

Это — неплохая стратегия борьбы с NVIDIA.

Но есть и ещё один — возможно даже более важный — аспект: собственные оптимизированные под ИИ чипы конкурентов NVIDIA обеспечивают не только независимость от производителя, но и лучшую производительность за счёт оптимизации под конкретные связанные с ИИ нагрузки. На это NVIDIA ответила стратегически: NVLink Fusion, анонсированный в 2024 году, позволяет гиперскейлерам интегрировать собственные ASIC (чипы, созданные специально для ИИ, а не для графических ускорителей) с интерконнектами NVLink для создания высокопроизводительных кластеров (чего нет у конкурентов). Это позволяет потребителям оставаться в рамках программной экосистемы NVIDIA — умный манёвр, который кооптирует, а не борется с тенденцией вертикальной интеграции.

К чему это всё?

Независимо от сомнений относительно «мыльного пузыря ИИ», будущая конфигурация рынка услуг ИИ будет зависеть от нескольких нерешённых вопросов: сможет ли программный стек конкурентов (например, ROCm от AMD) сократить разрыв с CUDA, смогут ли малые модульные реакторы (на которые, кажется, вся надежда) обеспечить достаточную для дальнейшего роста ИИ электроэнергию, смогут ли собственные чипы конкурентов NVIDIA достичь достаточной зрелости программной экосистемы для широкого внедрения, и смогут ли инновации в области эффективности в стиле DeepSeek снизить потребности в вычислительных мощностях, движущих всю эту захватывающую инфраструктурную гонку.

В краткосрочной перспективе гиперскейлеры рассматривают собственные чипы и масштабные вычислительные инфраструктурные объекты как стратегическую необходимость: NVIDIA сохраняет 90%-ную долю рынка, а это — очень лакомый кусок. Конкурентное давление со стороны Google, AMD и других нарастает и способно размыть доминирование NVIDIA. Китайская ИИ-экспансия продолжается несмотря на экспортные ограничения. И, разумеется, энергетические ограничения стали ключевым сдерживающим фактором развития, узким местом для расширения ИИ-инфраструктуры, стимулируя ядерный ренессанс, который ещё пять лет назад невозможно было представить (географическая концентрация ИИ-инфраструктуры США — особенно высокая в Северной Вирджинии — создаёт системные уязвимости, которые регуляторы только начинают решать).

Что остаётся несомненным: в обозримом будущем компании, контролирующие ИИ-инфраструктуру — чипы, дата-центры, энергоснабжение и программный стек — будут оказывать решающее влияние на траекторию развития как собственно ИИ, так и стоимости связанных с ним услуг. Кто-то же должен за это всё заплатить, правда?

Дополнительные источники