Добавь сайт в закладки! Инструкция по ссылке.
Программная оптимизация уменьшила потребность ChatGPT в графических процессорах Nvidia до нескольких сотен для части пользовательского трафика
Искусственный интеллект311:47
Инженеры OpenAI нашли способ более чем вдвое снизить затраты на выполнение запросов к искусственному интеллекту, не прибегая к новому оборудованию. Как сообщает издание The Information, после внедрения новой системы оптимизации для определённой группы пользователей ChatGPT количество необходимых графических процессоров Nvidia в отдельные моменты времени удалось сократить до нескольких сотен — показатель, который источники называют неожиданно низким для сервиса такого масштаба.
Речь идёт об оптимизации инференса — процесса непосредственного выполнения запросов пользователей уже обученной моделью. Именно инференс сегодня является крупнейшей статьёй расходов для компаний, развивающих генеративный искусственный интеллект. В отличие от обучения модели, которое проводится ограниченное число раз, инференс требует вычислительных ресурсов для каждого отдельного диалога, ответа, API-запроса или действия ИИ-агента.
Согласно данным The Information, разработанное OpenAI решение было внедрено для обслуживания пользователей ChatGPT, которые используют сервис без регистрации или подписки. В результате количество задействованных графических ускорителей Nvidia в некоторые моменты времени сократилось до нескольких сотен. Если эти данные подтвердятся и технология окажется масштабируемой, это может значительно изменить экономику эксплуатации крупных языковых моделей.

При этом детали самой технологии не раскрываются. Источники утверждают лишь, что повышение эффективности было достигнуто за счёт более рационального использования уже существующей серверной инфраструктуры, а не путём установки дополнительных ускорителей. Это может означать оптимизацию распределения запросов, более эффективное использование памяти, улучшение пакетной обработки данных или другие программные методы повышения производительности, однако OpenAI официально не комментировала использованные подходы.
Эксперты подчеркивают, что именно программные методы оптимизации сегодня становятся одним из ключевых факторов конкурентоспособности разработчиков ИИ. На фоне глобального дефицита высокопроизводительных ускорителей и миллиардных инвестиций в сооружение новых центров обработки данных возможность значительно снизить вычислительные затраты без приобретения дополнительного оборудования приобретает стратегическое значение.
Пока остаётся неясным, распространяется ли новая технология на платных клиентов OpenAI, корпоративных пользователей и наиболее сложные рассуждающие модели компании. От ответа на этот вопрос зависит, идет ли речь о локальной оптимизации для определённого типа нагрузки или о фундаментальном изменении подхода к эксплуатации больших языковых моделей.
Если такое снижение стоимости инференса действительно окажется универсальным, у OpenAI откроется сразу несколько стратегических возможностей: расширить бесплатный доступ к сервисам, снизить цены для клиентов или значительно увеличить объём вычислений для ИИ-агентов без дополнительного наращивания аппаратной инфраструктуры.
На фоне продолжающейся гонки за вычислительными мощностями и строительства новых фабрик по производству полупроводников подобные программные оптимизации могут оказаться не менее важными, чем создание более производительных чипов. В этом случае борьба за лидерство в сфере искусственного интеллекта будет определяться не только количеством графических процессоров, но и эффективностью их использования.
Darth SaharaИсточники:The InformationaiweeklyИскусственный интеллект3ChatGPTИскусственный интеллектOpenAINvidiaGPUДата-центрыИнференс11:47
ИсточникПоделись видео:
