Meituan запустила LongCat-2.0: революционная LLM с триллионом параметров на китайских чипах

Добавь сайт в закладки! Инструкция по ссылке.

+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Модель с 1,6 трлн параметров и контекстом 1 млн токенов завершила полный цикл обучения и инференса на кластере из 50 тыс отечественных ASIC

Искусственный интеллект017:46

Китайская фирма Meituan анонсировала запуск LongCat-2.0 — масштабной языковой модели нового поколения с 1,6 трлн параметров и необычайно длинным контекстом до 1 млн токенов. Главная особенность данного релиза заключается в том, что весь процесс — от предобучения до инференса — осуществлен на вычислительном кластере из 50 тыс. отечественных ASIC-ускорителей, что делает данную систему одним из самых больших публично представленных примеров полного обучения LLM на национальном оборудовании.

Под ASIC (application-specific integrated circuit) в данном контексте подразумеваются специализированные вычислительные чипы, оптимизированные для задач машинного обучения, а не универсальные GPU. По косвенным признакам, включая использование коммуникационной библиотеки HCCL (Huawei Collective Communication Library), инфраструктура может быть связана с аппаратной экосистемой Huawei, хотя информация о поставщике ускорителей официально не раскрывается.

Архитектура LongCat-2.0 спроектирована для работы с агентными сценариями — задачами, где модель генерирует и редактирует код, использует инструменты, взаимодействует с API и выполняет многошаговые цепочки рассуждений. Внутренний корпус обучения превышает 30 трлн токенов и включает многоязычные данные и программный код.

Источник: Meituan

Одним из основных технических элементов стала LongCat Sparse Attention (LSA) — механизм разреженного внимания, который вместо полного попарного сравнения токенов выбирает только наиболее значимые элементы контекста. Это позволяет масштабировать обработку до 1 млн токенов, уменьшая вычислительную сложность с квадратичной до близкой к линейной в практической реализации.

Кроме того, модель применяет динамическую активацию параметров в диапазоне примерно 33–56 млрд активных весов на токен (архитектура Mixture of Experts). Простые токены обрабатываются с минимальными вычислениями, тогда как сложные автоматически задействуют больше вычислительных ресурсов. Такой подход снижает стоимость инференса при сохранении качества на сложных задачах.

Отдельно выделена схема MOPD (Multi-Teacher On-Policy Distill) — метод дистилляции, при котором несколько специализированных «экспертных» подмоделей обучают единый чекпоинт. В LongCat-2.0 выделяются три группы: агентные эксперты (работа с инструментами и API), reasoning-эксперты (многошаговая логика и STEM-задачи) и интерактивные эксперты (следование инструкциям и снижение галлюцинаций).

По заявленным бенчмаркам LongCat-2.0 демонстрирует конкурентоспособные результаты в задачах создания кода и агентного взаимодействия. В SWE-bench Pro модель достигает 59,5 баллов, опережая Gemini 3.1 Pro и находясь на уровне с GPT-5.5 и Claude Opus последних версий, при этом оставаясь ниже лидеров общего назначения. Значительные результаты также отмечаются в Terminal-Bench 2.1 и задачах поиска и веб-агентов.

Практические демонстрации включают автоматическое создание SQL-агентов, рефакторинг больших кодовых баз под новые API, генерацию полноценных веб-приложений по одному описанию, создание интерактивных 3D-сцен на Three.js и многоагентные системы генерации текстов с контролем согласованности на длинных горизонтах контекста.

В итоге LongCat-2.0 демонстрирует сразу два сдвига: переход к триллионным моделям, обученным на полностью локальной аппаратной базе, и смещение фокуса в сторону агентных сценариев, где ключевой метрикой становится не только качество текста, но и способность модели выполнять сложные цепочки действий в длинном контексте. Это усиливает конкуренцию между китайской и западной экосистемами LLM и показывает, что масштабное обучение на национальных вычислительных кластерах становится практической реальностью, а не экспериментом.

Darth SaharaИсточники:LongCat AIhuggingfaceИскусственный интеллект0Искусственный интеллектASICLLMКитайские моделиMeituanLongCat-2.0УскорителиOpenRouter17:46

Источник
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0

Поделись видео:
Подоляка