21 июня 2025

eur = 89.84 -0.47 (-0.52 %)

btc = 103 271.00$ -1 357.42 (-1.30 %)

eth = 2 411.26$ - 113.82 (-4.51 %)

ton = 2.93$ -0.04 (-1.51 %)

usd = 78.48 -0.23 (-0.30 %)

eur = 89.84 -0.47 (-0.52 %)

btc = 103 271.00$ -1 357.42 (-1.30 %)

Учёные из Tinkoff Research создали самый эффективный алгоритм для обучения и адаптации ИИ

2 минуты на чтение
Учёные из Tinkoff Research создали самый эффективный алгоритм для обучения и адаптации ИИ

Новый метод получил название ReBRAC (Revisited Behavior Regularized Actor Critic, что переводится как «пересмотренный актор-критик с контролируемым поведением»), сообщили «Коду Дурова» в Тинькофф.

Сообщается, что он обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением, адаптируя его к новым условиям на ходу.

Учёные из Tinkoff Research создали самый эффективный алгоритм для обучения и адаптации ИИ
Выше — визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта почти в половине испытаний.

В Тинькофф отмечают, что ReBRAC может поспособствовать преодолению технологического и цифрового разрыва между разными странами, так как более эффективные алгоритмы требуют меньше вычислительных ресурсов.

Результаты исследования были представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems), которая прошла с 10 по 16 декабря в Новом Орлеане (США). Тем самым они были признаны мировым научным сообществом.

Говоря о сути открытия, в Tinkoff Research отмечают четыре компонента, которые хоть и были представлены в алгоритмах последних лет, однако считались второстепенными и не подвергались детальному анализу. В их числе глубина нейросетей, регуляризация актора и критика, увеличение эффективного горизонта планирования, а также использование нормализации слоев.

Учёные из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — «актор-критик с контролируемым поведением»), провели исследование и выяснили, что их правильная совокупность даёт даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день.

В Тинькофф подчеркнули, что в 2023 году рецензенты NeurIPS получили на рассмотрение свыше 13 тысяч статей от учёных со всего мира, из которых только 3,5 тысячи были отобраны для представления на конференции — в их числе сразу четыре научные статьи Tinkoff Research.

Помимо ReBRAC, учёные представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. В Тинькофф добавили, что эти статьи уже цитируются ведущими исследовательскими лабораториями со всего мира, в том числе Стэнфордским университетом, Калифорнийским университетом в Беркли и научно-исследовательской лабораторией Google DeepMind.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
a67a5a82-e18d-478c-a4ed-d6fa40914b46-изображение-0

GigaChat Max: коротко о главном

МВД опровергло сообщения об утечке 16 млрд паролей

Полная версия 
683b7466-9734-41d8-8a10-ea3c2ca2c5b9-изображение-0

GigaChat Max: коротко о главном

В бета-версии iOS 26 обнаружили новый рингтон

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 365
Газпромбанк
билайн
Сбер
Т-Банк
X5 Tech
МТС
Яндекс Практикум
Ozon Tech
Циан
Банк 131