Специализированная модель для финансового анализа обошла OpenAI, Claude и Gemini

Автор Модератор Опубликовано 05.07.2026

Добавь сайт в закладки! Инструкция по ссылке.

Хедж-фонд Bridgewater и стартап, основанный бывшим техническим директором OpenAI Мирой Мурати, объявили, что дообученная открытая модель обошла ведущие коммерческие ИИ

Искусственный интеллект012:38

Хедж-фонд Bridgewater Associates и компания Thinking Machines Lab, созданная экс-техническим директором OpenAI Мирой Мурати, представили результаты своего внутреннего исследования, которое показывает, что специализированная дообученная модель с открытыми весами оказалась более эффективной, чем крупнейшие коммерческие ИИ-системы в анализе финансовой информации. По данным авторов, она также требует почти в 14 раз меньше вычислительных ресурсов.

Исследование сосредоточено на одной из наиболее трудоемких задач инвестиционной аналитики — постоянной оценке важности информации для принятия решений. Аналитикам ежедневно необходимо обрабатывать колоссальные объемы новостей, корпоративных отчетов, аналитических обзоров, писем и документов регуляторов, при этом ключевую роль играют многочисленные мелкие экспертные рекомендации.

Авторы выделили 6 типовых задач из повседневной деятельности инвесторов. Среди них — оценка значимости финансовых новостей для руководства компаний и анализ того, указывают ли документы центральных банков на возможные изменения в процентных ставках. Как подчеркивается в исследовании, такие решения специалисты принимают интуитивно, но часто сталкиваются с трудностями в формальном изложении логики своих выводов.

Изображение сгенерировано: Nano Banana

Во время тестирования крупные коммерческие модели продемонстрировали неожиданно скромные результаты. Базовые версии систем семейства GPT, Claude и Gemini, используя стандартные запросы, достигали точности лишь около 50%. Даже после применения сложных инструкций и введения трёхуровневой системы оценки — «важно и интересно», «важно, но неинтересно» и «неважно» — точность возросла лишь до примерно 75%, что оказалось ниже установленного исследователями порога надежности в 80%.

Авторы также утверждают, что новые поколения крупных моделей показывают все меньший прирост эффективности относительно затраченных ресурсов. В качестве примера приводится модель GPT 5.4, которая, согласно исследованию, требует на 43% больше затрат по сравнению с версией 5.2, при этом обеспечивая лишь незначительное увеличение точности.

Чтобы решить данную проблему, исследователи использовали метод дообучения открытой модели на специализированных корпоративных данных. Первоначальная разметка документов производилась внешними подрядчиками, однако качество этих данных оказалось недостаточным. Вместо полной повторной проверки всех материалов команда применила промежуточную модель, которая выявляла наиболее вероятные ошибки разметки, отправляя на экспертную оценку только спорные случаи.

Дообучение осуществлялось на платформе Tinker, разработанной Thinking Machines Lab, с использованием открытой модели Qwen3-235B. По внутренним оценкам авторов, итоговая система достигла точности 84,7%, тогда как лучшая из протестированных коммерческих моделей показала результат 78,2%.

Авторы исследования особо подчеркивают, что результаты получены в рамках собственной методологии и не являются независимой внешней оценкой. Тем не менее, работа указывает на важную тенденцию: значительная часть наиболее ценных данных и экспертных знаний остается внутри компаний и недоступна разработчикам универсальных ИИ-моделей.

Darth SaharaИсточники:the-decoderИскусственный интеллект0Искусственный интеллектинвестицииOpenAIБольшие языковые моделиThinking Machines LabBridgewaterQwen3Финансовая аналитикаFine-tuning12:38

Источник

Поделись видео: