1 декабря 2025

eur = 90.82 0.03 (0.03 %)

btc = 85 732.00$ -4 992.23 (-5.50 %)

eth = 2 812.55$ - 175.08 (-5.86 %)

ton = 1.48$ -0.08 (-5.43 %)

usd = 78.23 -0.02 (-0.03 %)

eur = 90.82 0.03 (0.03 %)

btc = 85 732.00$ -4 992.23 (-5.50 %)

Учёные из Tinkoff Research создали самый эффективный алгоритм для обучения и адаптации ИИ

2 минуты на чтение
Учёные из Tinkoff Research создали самый эффективный алгоритм для обучения и адаптации ИИ

Новый метод получил название ReBRAC (Revisited Behavior Regularized Actor Critic, что переводится как «пересмотренный актор-критик с контролируемым поведением»), сообщили «Коду Дурова» в Тинькофф.

Сообщается, что он обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением, адаптируя его к новым условиям на ходу.

Учёные из Tinkoff Research создали самый эффективный алгоритм для обучения и адаптации ИИ
Выше — визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта почти в половине испытаний.

В Тинькофф отмечают, что ReBRAC может поспособствовать преодолению технологического и цифрового разрыва между разными странами, так как более эффективные алгоритмы требуют меньше вычислительных ресурсов.

Результаты исследования были представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems), которая прошла с 10 по 16 декабря в Новом Орлеане (США). Тем самым они были признаны мировым научным сообществом.

Говоря о сути открытия, в Tinkoff Research отмечают четыре компонента, которые хоть и были представлены в алгоритмах последних лет, однако считались второстепенными и не подвергались детальному анализу. В их числе глубина нейросетей, регуляризация актора и критика, увеличение эффективного горизонта планирования, а также использование нормализации слоев.

Учёные из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — «актор-критик с контролируемым поведением»), провели исследование и выяснили, что их правильная совокупность даёт даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день.

В Тинькофф подчеркнули, что в 2023 году рецензенты NeurIPS получили на рассмотрение свыше 13 тысяч статей от учёных со всего мира, из которых только 3,5 тысячи были отобраны для представления на конференции — в их числе сразу четыре научные статьи Tinkoff Research.

Помимо ReBRAC, учёные представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. В Тинькофф добавили, что эти статьи уже цитируются ведущими исследовательскими лабораториями со всего мира, в том числе Стэнфордским университетом, Калифорнийским университетом в Беркли и научно-исследовательской лабораторией Google DeepMind.

Материал обновлен|

Читать первым в Telegram-канале «Код Дурова»

Сейчас читают
Что ты такое, iPhone Air?
Что ты такое, iPhone Air?
[ Обзор ]

Что ты такое, iPhone Air?

Внезапные выводы про батарею спустя неделю

Фото Микк Сид
Микк Сид
Новости
Карьера
Блоги 458
билайн
Газпромбанк
Т-Банк
OTP Bank
МТС
X5 Tech
Сбер
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы