Представлен самый умный в мире ИИ
OpenAI анонсировала новые языковые модели o3 и o3-mini с возможностями рассуждения
Компания OpenAI завершила 12-дневную акцию Shipmas презентацией двух новых языковых моделей — o3 и o3-mini. Эти разработки представляют следующее поколение искусственного интеллекта, обладающее улучшенными возможностями рассуждения. Однако обучение моделей ещё продолжается, и финальная версия может отличаться от текущих характеристик.
Фото: OpenAI
Компания подчёркивает, что данные модели пока недоступны для широкой публики, но заявки на их тестирование от исследовательского сообщества уже принимаются. Даты официального релиза пока не объявлены.
OpenAI объяснила выбор названия для моделей как способ избежать возможной путаницы с британской телекоммуникационной компанией O2. Новая версия получила обозначение o3, в то время как предыдущая модель, o1 (кодовое название Strawberry), была запущена в сентябре 2023 года.
Одной из ключевых особенностей моделей o3 и o3-mini является их способность разбивать сложные задачи на более простые этапы, что повышает точность выдаваемых ответов. Такие модели демонстрируют процесс принятия решений, объясняя ход рассуждений, что отличает их от предшественников, предоставлявших только итоговый результат.
По данным OpenAI, модель o3 установила рекорды производительности в тестах, включая ARC-AGI, где она достигла результата 88 %, более чем втрое превзойдя показатели модели o1. Она также быстрее справляется с написанием кода — на 22,8 % эффективнее в тесте SWE-Bench Verified — и даже обогнала ведущих специалистов OpenAI в задачах спортивного программирования.
В тестировании AIME 2024 модель почти безошибочно справилась с самыми сложными математическими задачами, пропустив лишь один вопрос, а в бенчмарке GPQA Diamond она достигла результата 87,7 %, превосходя показатели человеческих экспертов. В уникальных сложных математических и логических тестах o3 решила 25,2 % задач, тогда как другие модели показывают менее 2 %.
Несмотря на высокую точность, такие технологии требуют значительных вычислительных ресурсов, что делает их использование более дорогим по сравнению с традиционными решениями. Кроме того, модели o3, как и o1, проводят проверку фактов перед выдачей ответа, что может создавать небольшие задержки.
OpenAI также акцентировала внимание на повышенной безопасности новых моделей, благодаря усовершенствованным алгоритмам, которые минимизируют вероятность ошибок и несоответствий политике компании.
Ранее корпорация Realme представила смартфон-хамелеон. Также на выставочно-дискуссионных мероприятиях компания «Экспонента» продемонстрировала возможности комплекса полунатурного моделирования РИТМ.