Google выпустила открытую ИИ-модель Gemma 4 12B, которая работает на обычном ноутбуке

Google представила Gemma 4 12B — открытую мультимодальную модель искусственного интеллекта на 12 млрд параметров.

Как сообщается в блоге компании, главная особенность модели в том, что она рассчитана на запуск прямо на пользовательском устройстве — ноутбуке с 16 ГБ оперативной или унифицированной памяти, без обращения к облаку. Модель занимает промежуточное положение в линейке Gemma 4: между облегчённой версией E4B и более мощной 26B на архитектуре «смеси экспертов» (Mixture of Experts).

Ключевое техническое отличие Gemma 4 12B — отказ от отдельных модулей-энкодеров для обработки изображений и звука. В обычных мультимодальных моделях такие данные сначала переводит в понятный нейросети вид отдельный кодировщик, и лишь потом они попадают в основную модель. Здесь изображения и звук подаются напрямую в языковую модель: для картинок используется компактный модуль встраивания, а необработанный звуковой сигнал проецируется в то же пространство, что и текст. Это снижает задержку, требования к памяти и упрощает работу с разными типами данных.

При компактном размере модель показывает результаты, близкие к вдвое более крупной 26B, — например, 77,2 % в тесте MMLU Pro и 78,8 % в GPQA Diamond. Это первая средняя модель в семействе Gemma с нативной поддержкой звука: она распознаёт речь, различает говорящих и разбирает видео — в одной из демонстраций модель проанализировала пятиминутный отрывок презентации с конференции Google I/O. Gemma 4 12B также поддерживает контекстное окно в 256 тыс. токенов, режим пошагового «размышления» перед ответом и вызов внешних функций, что важно для построения ИИ-агентов.

Модель распространяется по открытой лицензии Apache 2.0 и доступна на популярных платформах — Hugging Face, Kaggle, Ollama, LM Studio и Google AI Edge. По данным Google, модели семейства Gemma 4 в сумме скачали уже более 150 млн раз. Главный практический смысл релиза — возможность запускать продвинутый ИИ с обработкой текста, изображений, звука и видео локально, без отправки данных в облако. Это особенно важно для сценариев, где конфиденциальность критична: в медицине, финансах и работе с внутренними документами компаний.