Ера "GPU для всього" завершується: нова динаміка ринку ШІ-чипів

Кінець монополії GPU

Протягом останніх років наратив у сфері штучного інтелекту був простим: купуйте GPU — вони найкращі для всього, найгнучкіші та безальтернативні. Nvidia була першою, найкращою і єдиною. AMD намагалася конкурувати у просторі GPU, але справжнього виклику так і не кинула. Однак ситуація починає кардинально змінюватися.

На останній конференції GTC було продемонстровано, що інференс великих мовних моделей (LLM) — визначальне робоче навантаження нашої епохи — можна розбити на окремі підзадачі. Наприклад, етапи prefill та decode можуть виконуватися на різному обладнанні. Деякі з цих завдань чудово працюють на GPU, але для досягнення надшвидкої відповіді з ультранизькою затримкою — скажімо, для хмарного кодування в реальному часі — можна підключити спеціалізовані чипи від таких компаній як Groq або Cerebras і отримати абсолютно новий рівень продуктивності.

Це змінює динаміку ринку. Якщо в систему можна "вставити" Groq або Cerebras, виникає логічне запитання: хто ще може зайняти цю нішу і чому це обов'язково має бути Nvidia?

Стратегія Nvidia: від чипа до системи

Усвідомлюючи цю загрозу, Nvidia намагається перенести свою конкурентну перевагу на рівень вище — від окремих компонентів до цілісної системи. Їхній новий меседж: важливий не окремий чип, а вся стійка, весь дата-центр, оптимізований як єдине ціле під брендом Nvidia. Навіть якщо клієнти підключають компоненти від інших виробників, Nvidia переконує, що лише їхня платформа здатна оптимізувати кожен елемент і забезпечити найкращий інференс на рівні всієї системи.

ARM виходить на ринок кремнію

Одним із найцікавіших зрушень стала стратегічна трансформація компанії ARM. Протягом 35 років ARM лише ліцензувала свою інтелектуальну власність — спочатку дизайни процесорів, а пізніше розширені обчислювальні підсистеми, отримуючи від 5% до 10% роялті залежно від обсягу послуг.

Тепер ARM робить революційний крок — починає виробляти власний кремній. Причина проста: на конференції GTC було показано стійки з ARM-ліцензованими CPU від Nvidia, і стало очевидно, що процесори стають вузьким місцем для GPU. CPU повинні постійно "годувати" графічні процесори даними, і це завдання стає все більш критичним.

Безумовно, валова маржа на чипах складатиме лише близько 50%, тоді як на ліцензуванні IP вона сягала 97%. Змішана маржа знизиться. Проте абсолютний обсяг додаткових доходів буде значним — ринок дата-центрів величезний, і можливість продавати фізичний кремній відкриває для ARM колосальний потенціал зростання як верхньої, так і нижньої лінії доходів. Ринок вже відреагував значним зростанням акцій ARM після цих новин.

Google TurboQuant і паніка на ринку пам'яті

Одна з найгучніших подій останнього часу — оголошення Google про алгоритм TurboQuant, який суттєво вдарив по акціях виробників пам'яті, зокрема Micron та SanDisk. Ці компанії були серед головних бенефіціарів ШІ-буму протягом останніх шести місяців, їхні акції стрімко зростали. Але TurboQuant посіяв сумніви.

Суть алгоритму полягає в тому, що так званий KV-кеш — робоча пам'ять, що зберігається в дорогій пам'яті з високою пропускною здатністю (HBM) — може бути стиснутий та збережений значно ефективніше. Ринок інтерпретував це як сигнал: якщо потрібно менше HBM, то можливо це вершина циклу і час фіксувати прибуток.

Однак більш виважена інтерпретація, яка, ймовірно, виявиться правильною в довгостроковій перспективі, полягає в іншому. Ефективніше використання пам'яті означає не те, що її потрібно менше, а те, що з наявним обладнанням можна робити більше. Згадаймо еволюцію ChatGPT: спочатку він був "трохи корисним", але коли з'явилась здатність до міркувань та довший контекст — коли можна було завантажити цілу купу PDF-документів — корисність зросла в рази. TurboQuant просто дозволяє прикріпити ще більше документів, дати моделі ще більше контексту.

Це класичний парадокс Джевонса: підвищення ефективності використання ресурсу не зменшує його споживання, а навпаки — збільшує, бо відкриває нові сценарії використання. Виробники чипів продовжуватимуть проєктувати свої продукти з максимальним обсягом пам'яті, а лабораторії зі створення ШІ-моделей зможуть досягти більшого з тим самим обладнанням.

Ринок чекає на реальні результати

Попри всі технологічні досягнення, NASDAQ не оновлював історичний максимум з жовтня минулого року і знаходиться більш ніж на 11% нижче від піку. Це створює відчутний дисонанс між технологічним прогресом і ринковими настроями.

Ми перебуваємо у моменті "перемішування". З академічної точки зору відбувається багато захопливих речей. Агентний ШІ та інструменти для кодування знизили бар'єр для написання програмного забезпечення до нуля — тепер будь-хто може створювати додатки, просто описуючи свої ідеї природною мовою. Діти створюють відеоігри на льоту, маючи лише ідею. Якщо ви ненавидите писати звіти про витрати, ви можете просто написати програму, яка зробить це за вас.

Проте ця продуктивність ще не проявилась у відкритті нових джерел доходу або суттєвому скороченні витрат для компаній за межами технологічного сектору. Ринок чекає, коли переваги ШІ стануть відчутними не лише для гіперскейлерів, а й для таких компаній як John Deere, Caterpillar чи страхових компаній. Капітальні витрати на ШІ сягають рекордних рівнів, але коли це принесе реальну віддачу для широкого кола бізнесів?

Саме цей розрив між технологічним потенціалом і реальною економічною віддачею визначає поточний стан ринку. Інвестори чекають на підтвердження того, що ШІ дійсно приносить користь усім, а не лише тим, хто продає лопати під час золотої лихоманки. І поки цей момент не настане, ринок залишатиметься у стані невизначеності — попри безперечний технологічний прогрес.