DeepSeek, Китай, OpenAI, NVIDIA, xAI, TSMC, Stargate и мегакластеры ИИ | Лекс Фридман


Что такое DeepSeek-V3 и DeepSeek-R1?

DeepSeek – китайская компания, разрабатывающая передовые языковые модели на основе трансформеров. Их последние разработки, DeepSeek-V3 и DeepSeek-R1, вызвали огромный интерес в AI-сообществе.

  • DeepSeek-V3 – это инструкционная модель с открытым доступом к весам, аналогичная тем, что используются в ChatGPT. Она была представлена в конце декабря 2023 года.
  • DeepSeek-R1 – это модель рассуждений (reasoning model), выпущенная 20 января 2024 года, которая использует схожие этапы обучения с V3, но отличается архитектурой и целями.

Почему названия моделей могут быть запутанными?

Модели DeepSeek-V3 и R1 строятся на одном и том же базовом pre-trained (предобученном) языке, но затем проходят разные этапы post-training (постобучения), которые придают им уникальные свойства:

  • V3 – это “классическая” языковая модель, ориентированная на чат и ответы на вопросы.
  • R1 – модель, специально обученная на рассуждениях, что делает её способной к более сложному анализу информации.

По словам Ламберта, вся индустрия ИИ сейчас сталкивается с проблемами в коммуникации и наименовании моделей. OpenAI, например, использует термины GPT-4o, OpenAI o1 и другие, что может сбивать с толку.

Что значит «модель с открытыми весами»?

Термин open weights (открытые веса) означает, что разработчики предоставляют доступ к весам модели, но не всегда к её исходному коду и обучающим данным. Это отличается от open source (открытый исходный код), где пользователи могут не только загружать модель, но и изменять её код, а также изучать процесс обучения.

В сфере ИИ существуют разные лицензии, регулирующие использование таких моделей:

  • MIT License (как у DeepSeek-R1) – одна из самых свободных лицензий, позволяющая использовать модель без ограничений.
  • Лицензия Llama (от Meta) – менее свободная, накладывает определённые ограничения на коммерческое использование.

DeepSeek предоставляет весомую альтернативу другим открытым моделям, поскольку предлагает детализированные научные публикации, которые могут быть полезны для обучения и улучшения других моделей.

Геополитические аспекты и безопасность данных

Одним из ключевых вопросов в области открытых моделей является проблема безопасности и возможного использования ИИ для шпионажа или сбора данных.

Лекс Фридман задаёт вопрос: “Может ли китайская модель украсть данные пользователей?” На это Нейтан Ламберт отвечает, что открытые веса – это лишь большие матрицы чисел, которые можно загрузить и использовать локально без интернета.

Главная угроза утечки данных исходит не от самой модели, а от тех, кто её хостит. Когда пользователь обращается к ChatGPT, Claude или DeepSeek через API, его запросы отправляются на серверы компаний, где могут быть проанализированы. В этом смысле разницы между американскими и китайскими сервисами нет – всё зависит от политики конфиденциальности конкретного провайдера.

Разница между DeepSeek-V3 и DeepSeek-R1: пользовательский опыт

С точки зрения пользователя различие между моделями заключается в их подходе к генерации ответов.

  • DeepSeek-V3 – это привычный “чат-бот”. Пользователь задаёт вопрос и получает ответ в виде связного, хорошо отформатированного текста, похожего на посты в Reddit или Stack Overflow.
  • DeepSeek-R1 – это модель, демонстрирующая процесс размышлений. Она сначала генерирует цепочку рассуждений (chain of thought), где шаг за шагом объясняет свою логику, а затем формулирует финальный ответ.

Пример использования DeepSeek-R1:

  • Вопрос: “Назови по-настоящему оригинальную мысль о человеческой природе.”
  • Модель сначала анализирует понятие “оригинальности” и пытается избежать банальных ответов.
  • Она самокритично оценивает свои собственные идеи, чтобы предложить что-то действительно нестандартное.
  • В итоге модель формулирует вывод: “Люди инстинктивно превращают эгоистичные желания в кооперативные системы, коллективно представляя абстрактные правила (деньги, законы, права) как реальные вещи.”

Этот стиль работы делает R1 более интересной для сложных интеллектуальных задач, таких как программирование, математика и философия.

Как DeepSeek снизил затраты на обучение моделей?

Одним из ключевых факторов успеха DeepSeek стало использование инновационных методов, которые позволили значительно сократить вычислительные затраты. Основных технических решений два:

  1. Архитектура Mixture of Experts (MoE)
  2. Новая техника Multi-Head Latent Attention (MLA)

Оба подхода обеспечили серьёзное сокращение затрат на обучение и инференс моделей, а также повысили их эффективность.

Mixture of Experts (MoE) – принцип “экспертов” в нейросети

Что такое Mixture of Experts? Это архитектура, в которой модель разбивается на специализированные “эксперты”, отвечающие за разные типы задач. В отличие от традиционных плотных (dense) моделей, таких как Llama, где задействуются все параметры при генерации каждого токена, в MoE-моделях активируются только определённые подмножества параметров.

Принцип работы можно сравнить с человеческим мозгом:

  • Визуальная кора мозга активируется при анализе изображений.
  • Амигдала – при реакции на страх.
  • Аналогично, MoE-модель активирует разные эксперты в зависимости от задачи.

Как это влияет на вычислительную эффективность?

  • Снижение нагрузки на вычислительные мощности. В модели DeepSeek содержится 600 млрд параметров, но при обработке каждого токена активируются лишь 37 млрд, тогда как у Llama 70B активируется все 70 млрд параметров. Это резко снижает затраты на вычисления.
  • Гибкость масштабирования. Можно продолжать увеличивать объём параметров модели (объём знаний), не увеличивая пропорционально затраты на инференс.

Multi-Head Latent Attention (MLA) – снижение памяти и ускорение работы

Второй важный метод – Multi-Head Latent Attention (MLA), новая техника, которая оптимизирует использование памяти при обучении и инференсе. Это особенно важно для работы с длинным контекстом, так как DeepSeek использует роторные позиционные эмбеддинги (RoPE).

Особенности MLA:

  • Уменьшает потребление памяти за счёт “низкоранговых аппроксимаций”.
  • Оптимизирует взаимодействие слоёв модели на уровне вычислений.
  • Работает глубже, чем CUDA, позволяя программировать GPU на уровне Nvidia Communications Collectives Library (NCCL).

Использование MLA требует сложной низкоуровневой оптимизации, что делает архитектуру DeepSeek крайне инновационной.

Оптимизация распределения нагрузки

DeepSeek столкнулся с ограничениями по поставкам передовых GPU в Китай, что вынудило их работать с менее мощным оборудованием. Это привело к необходимости кардинально пересмотреть распределение нагрузки между GPU.

Как они этого добились?

  • Глубокая оптимизация работы GPU. Вместо использования стандартных библиотек Nvidia (NCCL) они создали собственные механизмы синхронизации вычислений.
  • Ручное распределение задач между вычислительными блоками (SM) на GPU.
  • Продвинутое балансирование нагрузки между “экспертами” в MoE-модели.

DeepSeek, в отличие от большинства компаний, использует гораздо более “разреженную” модель MoE:

  • Mixtral (Mistral) использует 2 активных эксперта из 8 (25% активации).
  • DeepSeek использует 8 активных экспертов из 256 (3% активации).

Этот высокий уровень разрежённости усложняет процесс обучения, но даёт колоссальную экономию на вычислениях.

“YOLO-запуски” – рискованные, но необходимые

Обучение подобных моделей сопровождается огромными затратами и стрессом для инженеров. Один неправильный гиперпараметр – и миллионы долларов на вычисления могут быть потрачены впустую.

В индустрии принят термин “YOLO-run” – запуск модели в полном объёме без права на ошибку.

  • Перед этим проводится серия мелких экспериментов с архитектурой на небольших кластерах GPU.
  • После множества итераций выбирается оптимальная конфигурация, на которую выделяется весь доступный вычислительный ресурс.
  • Успех или провал решается в течение недель или месяцев.

DeepSeek удалось провести успешный “YOLO-run”, что и позволило им неожиданно опередить многих конкурентов, включая Meta и Mistral.

Происхождение DeepSeek и их вычислительные мощности

DeepSeek является дочерней компанией хедж-фонда High-Flyer, который исторически занимался квантовой торговлей (quantitative trading) в Китае и за его пределами.

Почему это важно?

  1. Фонды, занимающиеся алгоритмической торговлей, первыми начали инвестировать в мощные вычислительные кластеры.
  2. В прошлом многие такие компании использовали FPGAs (специализированные чипы), но со временем все перешли на GPU.
  3. High-Flyer владел огромным парком GPU, что дало возможность перейти к обучению больших языковых моделей (LLM) без необходимости строить инфраструктуру с нуля.

Исторические мощности DeepSeek

  • 2021 год: 10 000 GPU A100 – крупнейший кластер в Китае на тот момент.
  • Эти ресурсы использовались в алгоритмической торговле, но уже тогда компания активно развивала свои языковые модели.

В дальнейшем DeepSeek всё больше фокусировался на ИИ. Их CEO, Лян Фэн (Lian Feng), стал глубже погружаться в исследования и разработки в области ИИ, постепенно превращая DeepSeek в одну из самых передовых компаний в Китае.

Текущие вычислительные мощности DeepSeek

Официально DeepSeek заявили, что для обучения DeepSeek-V3 они использовали 2 000 H800 GPU (специальная версия H100 с ограниченной пропускной способностью, поставляемая в Китай).

Но это неполная картина:

  • DeepSeek не раскрывал информацию о количестве используемых GPU для обучения R1,
  • Не учитывались вычисления, связанные с RLHF и инструкционной донастройкой,
  • Не было информации о кластерных мощностях, которые остались у хедж-фонда High-Flyer.

Реальные мощности DeepSeek

Аналитики SemiAnalysis оценили их реальный кластер в 50 000 GPU.

  • Это сопоставимо с крупнейшими ИИ-компаниями мира (OpenAI, Anthropic, Meta).
  • Официальная цифра в 2 000 GPU – это, вероятно, мощность только одной из фаз обучения.

Сравнение с другими компаниями

  • Meta (Llama 3): для обучения модели использовали 16 000 H100, но общий парк GPU у Meta – 400 000.
  • OpenAI, Anthropic, Google: у каждой компании в работе от 60 000 до 100 000 H100.
  • DeepSeek (по независимым оценкам) около 50 000 GPU.

Ограничения из-за экспортного контроля США

  • США ввели санкции на поставку H100 и A100 в Китай.
  • Взамен DeepSeek использует H800, где ограничена скорость обмена данными между GPU.
  • Это вынудило компанию разрабатывать сложные алгоритмы балансировки нагрузки между GPU.

Из-за ограничений на оборудование DeepSeek разработали несколько уникальных оптимизаций, которые дали им конкурентное преимущество.

1️⃣ Архитектура Mixture of Experts (MoE)

  • 600 млрд параметров, но активируются только 37 млрдснижение нагрузки на GPU в десятки раз.
  • Гибкость: можно масштабировать модель, не увеличивая затраты на инференс.
2️⃣ Низкоуровневая оптимизация вычислений
  • Глубокая оптимизация под NCCL (Nvidia Collective Communications Library).
  • Ручная балансировка нагрузки между GPU, что позволило максимально эффективно использовать H800.
3️⃣ Использование “YOLO-запусков”
  • Тщательная подготовка с небольшими экспериментами, затем масштабный финальный запуск.
  • Позволяет минимизировать ошибки и использовать вычислительные мощности с максимальной отдачей.

Будущее DeepSeek: новые вычислительные мощности

Ситуация с DeepSeek может сильно измениться после встречи их CEO Лян Фэна с китайским руководством.

Почему это важно?

  1. Китай увеличил субсидии на ИИ1 трлн юаней (160 млрд долларов).
  2. Вероятно, DeepSeek получит ещё больше GPU и ресурсов.
  3. Китайские власти могут официально сделать DeepSeek ключевым игроком в гонке ИИ.

К чему это приведёт?

  • Китай может начать строительство крупнейших дата-центров в мире.
  • Появятся национальные проекты, финансируемые государством.
  • США могут ужесточить экспортный контроль из-за новых угроз.

TSMC и роль Тайваня в полупроводниковой индустрии

TSMC (Taiwan Semiconductor Manufacturing Company) – крупнейший контрактный производитель чипов, на который полагаются практически все ведущие технологические компании.

Почему TSMC так важен?

  1. Лидер в производстве передовых чипов.
    • В 1990-х большинство компаний проектировали и производили чипы самостоятельно.
    • Со временем затраты на постройку и обслуживание фабрик (fab) резко выросли.
    • TSMC создал модель чистого контрактного производства (foundry model), где он лишь производит чипы по заказу других компаний.
  2. Основной производитель для Apple, NVIDIA, AMD и даже Intel.
    • Сегодня большинство передовых процессоров и графических чипов изготавливаются именно на фабриках TSMC.
    • Даже Intel использует их мощности для некоторых чипов.
  3. Экономия за счет масштаба.
    • Постройка одной фабрики на передовом техпроцессе (3-2 нм) стоит $30-40 млрд.
    • Чем больше объем заказов, тем ниже себестоимость производства.
    • Компании вроде AMD, Qualcomm и NVIDIA теперь могут разрабатывать чипы, не строя свои фабрики.

Почему TSMC сосредоточен в Тайване?

  1. Кадровый потенциал.
    • Лучшие выпускники NTU (Национального Тайваньского университета) идут работать в TSMC.
    • При этом стартовые зарплаты инженеров там $70-80 тыс. в год – гораздо ниже, чем в США.
  2. Трудовая культура.
    • Работа в полупроводниковом производстве требует высокой дисциплины.
    • В случае землетрясений инженеры без вызова выходят на работу для калибровки оборудования.
  3. Историческая роль Морриса Чанга.
    • Основатель TSMC Моррис Чанг ранее работал в Texas Instruments.
    • После того как его не повысили, он основал TSMC на Тайване, изменив индустрию навсегда.

Можно ли повторить успех TSMC в США?

  1. Intel была лидером в производстве чипов, но утратила позиции.
    • В 1990-х и 2000-х Intel первой внедряла ключевые технологические прорывы (FinFET, high-K металлооксидные транзисторы).
    • Однако плохое управление и неверные инвестиции привели к отставанию.
  2. TSMC строит фабрики в Аризоне, но это не решает проблему.
    • Заводы в США обеспечат только 20% мощностей на 5-нм техпроцессе.
    • Производство в США зависит от поставок из Тайваня.
  3. Огромные затраты.
    • Для полного переноса производства в США потребуется 10 лет и $1 трлн инвестиций.
    • Закон CHIPS Act выделил только $50 млрд, что недостаточно.
    • Китай ежегодно инвестирует $200 млрд в развитие своей полупроводниковой отрасли.

Китайские амбиции в производстве чипов

  1. Ставка на массовое производство менее передовых чипов.
    • В 2015 году Китай объявил план 80% локализации производства.
    • В премиальном сегменте (5-3 нм) он пока отстает, но в старых техпроцессах (45-90 нм) уже самодостаточен.
    • Китайская BYD может первой в мире отказаться от закупок у TSMC.
  2. Обход санкций.
    • Китай ускоряет разработку собственных GPU и серверных процессоров.
    • Введенные США ограничения замедлили его развитие на передовом техпроцессе, но привели к ускорению развития менее передовых фабрик.

Будущее отношений США и Китая

  1. Разрыв технологической интеграции.
    • США блокируют экспорт передовых технологий.
    • Китай вводит ответные ограничения, например, запрет на экспорт галлия и германия (ключевых материалов для чипов).
  2. Геополитическая нестабильность.
    • Тайвань – критический узел глобальной цепочки поставок.
    • Если производство в Тайване остановится, мировая экономика испытает беспрецедентный кризис.
  3. Рост инвестиций в альтернативные цепочки поставок.
    • США, Европа и Япония пытаются снизить зависимость от Тайваня.
    • Но полной замены TSMC в ближайшие 10 лет не будет.

Почему DeepSeek такой дешевый?

DeepSeek-R1 произвел фурор, предлагая высококачественную модель по чрезвычайно низкой цене. В отличие от OpenAI, чей O1 стоит $60 за миллион токенов, DeepSeek-R1 предлагает ту же услугу за $2 за миллион токенов. Что объясняет такую разницу в стоимости?

1. Архитектурные инновации

DeepSeek внедрил новую архитектуру внимания под названием Multi-Head Latent Attention (MLA). Она значительно снижает нагрузку на память — примерно на 80-90% по сравнению с традиционными механизмами внимания. Хотя модель остается квадратичной по сложности, константа стала значительно меньше. В итоге, это дает возможность обслуживать запросы дешевле, чем у конкурентов.

2. Высокая маржинальность OpenAI

Одна из причин разницы в цене — высокая наценка OpenAI. По оценкам аналитиков, валовая маржа OpenAI при работе с O1 составляет более 75%. Это значит, что их фактическая себестоимость гораздо ниже, но они держат высокие цены, чтобы покрывать затраты на разработку новых моделей.

3. Ограниченный доступ к серверам

DeepSeek не обладает огромным количеством вычислительных мощностей. Они не могут обслуживать такое количество пользователей, как OpenAI. Из-за этого компания вынуждена ограничивать доступ к API, а массовая нагрузка приводит к тому, что DeepSeek фактически «выключает» доступ для новых пользователей. В отличие от OpenAI, который располагает сотнями тысяч GPU через Microsoft, DeepSeek имеет лишь около 50 000 GPU, и часть из них используется для исследований и работы их хедж-фонда.

4. Отсутствие субсидий от китайского правительства

Хотя DeepSeek — китайская компания, эксперты не считают, что она получает государственные субсидии. В отличие от Moonshot AI или Huawei, которые тесно связаны с правительством, DeepSeek и Alibaba работают независимо. Однако, DeepSeek финансируется за счет хедж-фонда, принадлежащего ее основателю, который, вероятно, использует компанию как инструмент найма лучших специалистов в области ИИ.

5. Open-source подход как инструмент найма

DeepSeek открыто выкладывает свои веса в общий доступ, что позволяет множеству компаний использовать их бесплатно. Это делает DeepSeek-R1 первым масштабным проектом в новой волне open-source ИИ, что также помогает компании привлекать талантливых специалистов. OpenAI, напротив, закрывает свои модели, что ограничивает их распространение.

6. Скорость разработки и релизов

DeepSeek действует гораздо быстрее западных компаний. Например, DeepSeek-V3 был выпущен 26 декабря 2023 года — сразу после Рождества, когда большинство западных компаний находятся в отпуске. Их модели выпускаются в максимально короткие сроки, в отличие от Anthropic, который придерживается строгих норм безопасности и тратит месяцы на доработку моделей перед выпуском.

Обвал акций NVIDIA и влияние DeepSeek R1

Одним из наиболее заметных событий в мире ИИ стало резкое падение стоимости акций NVIDIA после выхода модели DeepSeek R1. Это вызвало обсуждение среди инвесторов и аналитиков, поскольку NVIDIA является ключевым поставщиком аппаратного обеспечения для крупных технологических компаний, занимающихся ИИ.

Почему акции NVIDIA упали?

Эксперты в подкасте объясняют, что основная причина паники на рынке — это распространение мнения о том, что новые технологии позволят компаниям тратить меньше денег на разработку мощных ИИ-моделей. Основной бизнес NVIDIA завязан на продаже дорогих графических процессоров (GPU), и если крупные компании смогут обходиться меньшими затратами, это потенциально снижает их потребность в дорогостоящем оборудовании.

Однако падение акций NVIDIA имеет более сложные причины, включая социальные факторы. Паника распространялась в интернете в течение выходных, когда рынки были закрыты, а в понедельник произошла резкая распродажа акций. Также сыграли роль ложные нарративы, например, преувеличенные заявления о стоимости обучения ИИ-моделей.

  • Миф: Компании тратят миллиарды на обучение моделей.
    Реальность: Даже GPT-4 стоил несколько сотен миллионов долларов, а более поздние версии (GPT-4 Turbo) еще дешевле. Полноценные миллиардные затраты включают не только обучение, но и исследования, инфраструктуру, зарплаты и т. д.

Другой фактор — постоянные слухи и попытки «разогнать» акции вниз. На протяжении последних лет появлялись новости о задержках с выпуском новых чипов NVIDIA, о возможном замедлении роста масштабов ИИ, о том, что ИИ-модели больше не улучшаются. Теперь, напротив, распространяется мнение, что прогресс идет слишком быстро и компании должны «остановить траты на GPU».

Дефицит GPU и парадокс Джевонса

Несмотря на временное снижение акций, спрос на графические процессоры остается высоким. Например, цена аренды чипов H100 в AWS выросла после выхода DeepSeek R1. Многие компании закупают мощные H200, так как эти процессоры обладают большей памятью и лучше подходят для работы с крупными языковыми моделями.

Здесь работает парадокс Джевонса: чем эффективнее становятся технологии, тем больше растет их общее потребление. Улучшение ИИ-моделей не снижает спрос на GPU — наоборот, ускоряет развитие всей отрасли и увеличивает потребность в вычислениях.

Эксперты также отмечают, что найти в аренду даже 16-32 H100 на короткий срок сейчас очень сложно — спрос превышает предложение.

Контрабанда GPU в Китай

Другой важной темой стало масштабное нелегальное перемещение GPU в Китай. Хотя США запретили поставки передовых графических процессоров в КНР, многие компании находят обходные пути.

Как происходит контрабанда?

  1. Аренда GPU через третьи страны.
    ByteDance (владелец TikTok) арендует огромные объемы GPU через Oracle, Google и другие облачные компании. Это позволяет китайским компаниям пользоваться американскими вычислительными мощностями, не импортируя сами чипы.
  2. Официальные поставки менее мощных GPU.
    NVIDIA легально продала в Китай около миллиона H20, которые хуже H100, но все же мощны.
  3. Перепродажа через третьи страны (Сингапур, Малайзия).
    Многие компании покупают GPU небольшими партиями (16–64 штук) и переправляют их в Китай.
  4. Прямая контрабанда через физических лиц.
    Один из ярких примеров — люди, перевозящие серверы с GPU в багаже. На фотографии, присланной инсайдером из индустрии, запечатлен пассажир первого класса с коробкой, в которой, судя по габаритам, находился сервер с GPU. Он купил билет за 3000–5000$, а продал сервер в Китае за 300 000$.

Правительство США ужесточает контроль, но масштабная контрабанда продолжается.

DeepSeek R1 и обвинения в нарушении правил OpenAI

OpenAI заявила, что китайская компания DeepSeek использовала их API для обучения своей модели. Это означает, что они могли использовать выходные данные ChatGPT для генерации обучающих примеров и создания собственного аналога GPT-4.

Почему это спорно?

  • Юридический аспект: Согласно правилам OpenAI, их API нельзя использовать для создания конкурирующих продуктов.
  • Этический аспект: Многие компании (включая OpenAI) обучались на данных интернета без разрешения, но теперь пытаются запретить другим использовать их данные.

DeepSeek официально не признала использование API OpenAI. Однако в индустрии уже начали дистиллировать их модель в Llama, делая ее проще в развертывании.

Рост мегакластеров ИИ

Тренд последних лет — массовое строительство супервычислительных центров. Потребление электроэнергии дата-центрами США может достичь 10% от всей страны к 2030 году.

Самый мощный кластер сегодня у Илона Маска (xAI, 200 000 GPU). Следующие в списке:

  • Meta — 128 000 GPU.
  • OpenAI — 100 000 GPU.

Маск использует жидкостное охлаждение для GPU, что повышает их плотность размещения. В будущем это станет стандартом для мощных моделей.

Другие компании (Meta, Amazon, OpenAI) строят гига-кластеры мощностью более 2 ГВт. Это энергопотребление среднего города, и теперь компании вынуждены строить собственные электростанции.

Кто может конкурировать с NVIDIA?

В ближайшее время — никто.
Несмотря на попытки Google, AMD и Intel, NVIDIA остается лидером по производству ИИ-чипов. Проблемы конкурентов:

  • AMD: Хорошее железо, но слабая поддержка софта.
  • Intel: Технологическое отставание на несколько лет.
  • Google TPU: Ограниченное распространение, так как Google использует TPU в первую очередь для своих нужд.

AWS (Amazon) остается крупнейшим облачным провайдером, а Google Cloud существенно отстает.

Гонка за AGI: кто выигрывает?

Лидеры гонки за искусственный интеллект

Вопрос о том, какая компания первой достигнет уровня AGI (искусственного общего интеллекта), остается открытым. Традиционно Google считается главным игроком в этой сфере благодаря своим инфраструктурным возможностям. Однако на данный момент в новостях главным лидером называют OpenAI.

По мнению экспертов, OpenAI имеет:

  • Лучшие модели, доступные для пользователей.
  • Высокий уровень экспертизы в области ИИ.
  • Наибольший доход среди компаний, разрабатывающих ИИ.

Тем не менее, стоит отметить, что OpenAI лидирует скорее в общественном восприятии и в дискуссиях, чем по объективным показателям.

Кто зарабатывает на ИИ?

В финансовом плане прибыль получают прежде всего компании, вкладывающие в инфраструктуру:

  • Microsoft зарабатывает, но тратит огромные средства на капитальные затраты.
  • Meta получает большую прибыль от рекомендательных систем (одна из форм ИИ), но их модель Llama приносит убытки.
  • OpenAI и Anthropic пока не прибыльны, иначе им бы не приходилось привлекать дополнительные инвестиции.
  • Nvidia и производители оборудования являются основными выгодоприобретателями, поскольку продажа графических процессоров для ИИ-моделей приносит им огромные деньги.

Эксперты указывают, что бизнес-модель OpenAI нестабильна: хотя GPT-4 приносит миллиарды долларов дохода, постоянное финансирование новых исследований и разработок требует больших вложений. Компании пытаются сократить издержки и повысить вычислительную эффективность.

Множественные победители или “победитель получает всё”?

Вопрос о том, станет ли одна компания абсолютным лидером в ИИ, остается открытым. Эксперты склоняются к мнению, что гонка не завершится одной победой. Развитие ИИ идет постепенно: с каждым новым поколением появляются более мощные возможности, что делает технологию все более полезной.

Некоторые компании будут извлекать выгоду от ИИ, даже не разрабатывая собственные модели. Например:

  • Meta может улучшать свои платформы за счет персонализации контента.
  • Tesla рассматривает ИИ для автономных роботов.
  • Google использует ИИ в поиске и рекламе.

Поэтому выиграют не только те, кто создаст самую мощную модель, но и те, кто интегрирует ИИ в свои продукты.

Как изменится бизнес OpenAI?

OpenAI находится в сложном положении, так как его ключевой продукт — ChatGPT. Если в будущем мощные языковые модели станут дешевле и доступнее, компании будет сложно сохранять конкурентоспособность. Потенциальные угрозы:

  • Бесплатные модели с рекламной поддержкой (например, Llama от Meta).
  • Лицензирование ИИ-моделей – компании могут использовать более дешевые альтернативы, снижая спрос на GPT.
  • Рост затрат на разработку – OpenAI придется продолжать тратить миллиарды на новые версии моделей.

Одной из возможных стратегий OpenAI может стать интеграция рекламы в ChatGPT, что пока не реализовано. Конкуренты, такие как Google и Meta, могут быстрее найти способы монетизации.

Будущее AGI и перспективы компаний

Эксперты считают, что OpenAI и Anthropic продолжат существовать, если смогут сохранять лидерство в разработке моделей. Однако:

  • Компании с широким набором продуктов (Google, Meta, X) имеют больше финансовых возможностей.
  • ИИ будет постепенно снижать зависимость от данных, переходя к самообучению.
  • Вопрос монетизации остается открытым – вероятно, победит тот, кто сможет внедрить ИИ в массовые продукты.

Развитие ИИ-агентов

Что такое ИИ-агенты?

ИИ-агенты – это алгоритмы, способные выполнять задачи автономно, адаптируясь к неопределенности. Однако сейчас этот термин сильно раздут, и многие называют “агентами” даже простые автоматизированные системы.

Примеры реальных ИИ-агентов:

  • Автономные программы, способные бронировать билеты с учетом пользовательских предпочтений.
  • Оркестраторы, управляющие взаимодействием между приложениями (например, потенциальный Apple Intelligence).
  • Роботы, выполняющие физические задачи (например, Tesla Optimus).

На данный момент полноценные ИИ-агенты далеки от реальности, так как для их работы требуется высокая точность, а текущие модели ИИ не могут надежно выполнять цепочки задач без ошибок.

Основные проблемы ИИ-агентов

  1. Ошибки на каждом этапе – даже самые передовые модели совершают ошибки, и при объединении множества шагов процент брака увеличивается.
  2. Сложность работы в открытой среде – в отличие от дорог и правил дорожного движения, интернет и реальные приложения слишком хаотичны.
  3. Необходимость человеческого контроля – пока ИИ не способен полностью заменить человека при выполнении сложных задач.

Вероятно, ближайшее развитие ИИ-агентов пойдет по пути узких решений для конкретных задач, а не универсальных интеллектуальных систем.

Программирование и ИИ

Влияние ИИ на программирование

Одной из самых значительных областей применения ИИ сегодня является помощь в программировании. Многие разработчики уже активно используют инструменты наподобие ChatGPT, Copilot и Cursor.

Достижения в этой сфере включают:

  • Ускорение написания кода.
  • Автоматическую генерацию функций.
  • Улучшение поиска ошибок и оптимизации программ.

Будущее программирования с ИИ

Ожидается, что программирование станет значительно дешевле, что изменит саму индустрию:

  • В странах с низкими затратами на разработку (например, Китай) компании могут создавать собственные решения вместо использования SaaS-платформ.
  • Инженеры из традиционных областей (промышленность, химия, механика) смогут использовать ИИ для написания кода, значительно улучшая свои рабочие процессы.

Однако эксперты подчеркивают, что программирование не исчезнет, а скорее изменится. Программисты станут скорее “редакторами”, проверяющими и корректирующими код, чем исполнителями, пишущими все с нуля.

Проблемы автоматизации программирования

Несмотря на рост возможностей ИИ, есть несколько аспектов, которые он пока не может заменить:

  • Креативность и интуиция – разработчики способны проектировать интерфейсы и решения с учетом человеческих предпочтений.
  • Глубокое понимание продукта – хотя ИИ может писать код, стратегические решения остаются за людьми.
  • Долговременная поддержка – компании могут начать использовать собственные внутренние решения вместо сторонних SaaS-сервисов.

В целом, будущее программирования с ИИ выглядит перспективным, но пока полная автоматизация невозможна.

Открытый код и будущее open source в ИИ

Tülu и развитие пост-тренировки моделей

Nathan Lambert рассказал об открытом проекте Tülu, который специализируется на пост-тренировке моделей искусственного интеллекта. Название “Tülu” произошло от гибридного верблюда (скрещенного дромадера и бактриана) и связано с тенденцией называть ИИ-модели именами животных (например, Alpaca, Vicuna).

Проект Tülu существует уже несколько лет и ориентирован на:

  • Пост-тренировку открытых моделей, таких как Llama.
  • Добавление открытых исходных кодов и наборов данных.
  • Оптимизацию моделей для различных доменов.

Одним из ключевых ориентиров является Chatbot Arena – популярный бенчмарк, где пользователи сравнивают различные модели. В конце 2023 года среди 60 лучших моделей не было ни одной, у которой были бы открыты исходные коды или данные для пост-тренировки. Цель Tülu – повысить этот показатель, обеспечивая доступ к инструментам, с помощью которых можно улучшать модели, не имея миллиардных вычислительных ресурсов.

Конкуренция с DeepSeek и Meta

Tülu использует модель Llama 3 405B, проводя над ней пост-тренировку и улучшая такие параметры, как точность выполнения инструкций и математические способности.

  • По данным Lambert, их версия модели превзошла Llama Instruct от Meta, так как у них было больше времени на доработку.
  • Также модель показала более высокие результаты, чем DeepSeek V3.
  • В тестах на безопасность (избегание вредоносных ответов) их модель также показала лучший баланс между полезностью и безопасностью.

Будущее open source в ИИ

Nathan Lambert подчеркнул, что полностью открытые модели всё ещё редкость. DeepSeek R1 стал первым действительно “фронтирным” открытым решением с дружественной лицензией, разрешающей коммерческое использование.

Однако в open source ИИ есть несколько проблем:

  1. Лицензирование – даже у моделей Meta (Llama) есть ограничения на использование в определённых сферах.
  2. Ограничения на данные – многие модели не раскрывают, на каких наборах данных они обучались.
  3. Проблема обратной связи – в отличие от классического open-source ПО, где код можно легко использовать и улучшать, в ИИ нужны огромные вычислительные ресурсы, что ограничивает доступность разработки.

По словам Lambert, пока развитие open-source ИИ остаётся больше идеологическим проектом, но необходимо использовать это окно возможностей, пока крупные игроки (например, Марк Цукерберг) поддерживают открытые инициативы.

Stargate: 500-миллиардный проект OpenAI

Что такое Stargate?

Stargate – это масштабная дата-центровая инициатива OpenAI, направленная на создание мощной вычислительной инфраструктуры для будущих ИИ-моделей. Основные участники проекта:

  • OpenAI – главный заказчик и разработчик моделей.
  • Oracle – поставщик серверов и облачной инфраструктуры.
  • SoftBank – потенциальный инвестор.
  • MGX (UAE Investment Fund) – фонд из ОАЭ, заявивший о готовности инвестировать в ИИ.

Финансовая реальность: нет $500 млрд

Хотя в публичном пространстве звучала сумма в $500 миллиардов, эксперты утверждают, что у проекта пока нет даже $100 миллиардов.

  • Фаза 1 – проект в Абилине (Техас), мощностью 2.2 гигаватта, с оценочной стоимостью $100 миллиардов (включая операционные расходы).
  • OpenAI обязалась вложить $19 миллиардов, но у них этих денег пока нет.
  • Oracle строит первую часть дата-центра за $6 миллиардов, но дальнейшие инвестиции под вопросом.
  • SoftBank планирует вложить $25 миллиардов, но для этого им придётся продать акции ARM.

По сути, OpenAI не имеет необходимых средств, но надеется привлечь их за счёт будущих успехов в разработке AGI.

Роль правительства США

Дональд Трамп публично поддержал проект Stargate, хотя государственного финансирования нет. Его ключевые действия:

  • Упрощение разрешительных процедур – строительство дата-центров на федеральных землях теперь происходит быстрее.
  • Общее снижение регулирования – создание благоприятных условий для строительства инфраструктуры ИИ.

Ожидается, что эти меры могут ускорить гонку вооружений в сфере ИИ.

Будущее ИИ: что нас ждёт в ближайшие годы?

Развитие вычислительных мощностей

Dylan Patel выделил несколько ключевых технологических тенденций:

  1. Оптические коммуникации – ускорение обмена данными между дата-центрами.
  2. Упрощение межкластерного обучения – возможность тренировать модели на нескольких дата-центрах одновременно.
  3. Новые способы хранения данных – улучшение работы с памятью и интерконнектами.

Однако он подчеркнул, что программирование ИИ-систем будет становиться только сложнее, а не проще.

Прогноз по AGI

Nathan Lambert считает, что обучение моделей остаётся захватывающим процессом, и в ближайшие годы нас ждёт значительный прогресс. Однако он выступает за то, чтобы максимально открытое развитие ИИ привлекало к процессу больше участников.

Lex Fridman также отметил, что развитие AGI – это не просто научная задача, но и вопрос осознания природы человеческого интеллекта. Он провёл параллель с моментом, когда Deep Blue победил Каспарова, заявив, что сейчас ИИ развивается так быстро, что становится возможным то, о чём ещё недавно никто не мечтал.

Главные риски

  1. “Техно-фашизм” – опасность того, что технологии ИИ окажутся в руках небольшого числа людей, получивших сверхчеловеческие возможности.
  2. Искажение экономической модели – если малое число людей будет управлять AGI, возможен сценарий, при котором они контролируют большую часть экономики.
  3. Этические проблемы – возможное усиление алгоритмических манипуляций, например, через персонализированную рекламу.

Dylan Patel считает, что основной движущей силой AGI будет стремление к прибыли, что должно привести к общему снижению уровня страданий и увеличению доступности товаров и услуг.


Заключение

Беседа завершилась обсуждением долгосрочного будущего человечества. Nathan Lambert выразил уверенность, что люди будут существовать и через 1000 лет, так как они способны адаптироваться к кризисам. Он подчеркнул, что у человечества есть шанс на светлое будущее, но только если развитие ИИ будет происходить открыто и под контролем общества.

Lex Fridman подвёл итоги, отметив, что:

  • Мы живём в исторически значимое время, когда развитие AGI стало реальностью.
  • Прорывы в ИИ позволяют нам лучше понять собственный интеллект.
  • Открытость и участие большого количества людей повышают шансы на создание безопасного и полезного ИИ.