OpenAI столкнулась с нехваткой данных для обучения GPT-5

Игорь Савкин

2 апреля, 20241 минута на чтение

1,3к

Читать первым в Telegram-канале

Разработчики искусственного интеллекта столкнулись с нехваткой качественных данных для обучения моделей, в том числе для будущего GPT-5.

Исследователи выражают обеспокоенность по поводу возможного замедления развития отрасли из-за дефицита текстовых материалов. Особенно это касается данных, блокируемых некоторыми ресурсами для ИИ. Учёные подчеркивают, что обучение ИИ на материалах других моделей может привести к проблемам с качеством.

OpenAI рассматривает возможность использования транскрипций с YouTube для обучения GPT-5. Это становится актуальным на фоне предупреждений о том, что уже к середине 2024 года ИИ может столкнуться с серьёзным дефицитом данных. Для обучения модели GPT-5 потребуется от 60 до 100 триллионов токенов данных, в то время как весь интернет может предоставить на 10-20 триллионов токенов меньше необходимого.

Проблема усугубляется тем, что большинство данных в интернете непригодны для обучения ИИ. Ограничен доступ к информации на крупных платформах, а использование личной переписки людей вызывает опасения по поводу конфиденциальности.

В ответ на эти вызовы, компании исследуют новые методы обучения и возможности создания рынка данных. OpenAI и Anthropic экспериментируют с «высококачественными синтетическими данными», которые могут стать альтернативой для обучения будущих ИИ-моделей. Такие данные уже использовались в последних версиях Claude от Anthropic.

Неопределённость относительно будущего искусственного интеллекта остаётся, но исследователи сохраняют оптимизм, веря в возможность революционных открытий в области обработки и анализа данных для обучения ИИ.

Подписывайтесь на Telegram-канал

@D_CODE

Реклама. ИП Даллакян Г.А. 2VtzqvPHPsd

[Приватность][реклама на kod.ru]

Подписывайтесь на Telegram-канал

@D_CODE

Реклама. ИП Даллакян Г.А. 2VtzqvPHPsd

[Приватность][реклама на kod.ru]

2 апреля, 2024

OpenAI столкнулась с нехваткой данных для обучения GPT-5

Картина дня

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Итоги конференции Data Fusion 2024: что делать с большими данными и ИИ?

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Спустя месяц со Steam Deck OLED я понял, что это идеальная консоль для всего

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Итоги конференции Data Fusion 2024: что делать с большими данными и ИИ?

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Пользователи Windows 11 стали возвращаться на Windows 10

Yandex намерен вернуть Аркадия Воложа к управлению

Сбер, Яндекс и VK не смогли договориться о совместной разработке российской мобильной ОС

Стали известные новые функции на основе ИИ, которые Apple готовит в новой версии iOS

Карьера

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

С нуля до Big Data: история дата-аналитика в билайне

Как эффективно прожить последние годы в универе: юные билайновцы рекомендуют

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Яндекс Практикум ищет автора на курс «Архитектура ПО» (удалёнка, парт-тайм)

Яндекс Практикум ищет автора на курс «Системный администратор» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «DevOps» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «Системный администратор» (удалёнка, парт-тайм)

Газпромбанк запускает GPB.Level Up: Data Science

Блоги 210

OpenAI столкнулась с нехваткой данных для обучения GPT-5

Картина дня

Свежие материалы

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Итоги конференции Data Fusion 2024: что делать с большими данными и ИИ?

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Спустя месяц со Steam Deck OLED я понял, что это идеальная консоль для всего

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Итоги конференции Data Fusion 2024: что делать с большими данными и ИИ?

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Как монетизировать Telegram-канал? Донаты, эксклюзивный контент по подписке и цифровые товары

Свежие новости

Пользователи Windows 11 стали возвращаться на Windows 10

Yandex намерен вернуть Аркадия Воложа к управлению

Сбер, Яндекс и VK не смогли договориться о совместной разработке российской мобильной ОС

Стали известные новые функции на основе ИИ, которые Apple готовит в новой версии iOS

Карьера

Свежие материалы

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

С нуля до Big Data: история дата-аналитика в билайне

Как эффективно прожить последние годы в универе: юные билайновцы рекомендуют

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Свежие вакансии

Яндекс Практикум ищет автора на курс «Архитектура ПО» (удалёнка, парт-тайм)

Яндекс Практикум ищет автора на курс «Системный администратор» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «DevOps» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «Системный администратор» (удалёнка, парт-тайм)

Газпромбанк запускает GPB.Level Up: Data Science

Блоги 210