16 ноября 2025

eur = 95.10 1.40 (1.50 %)

btc = 95 941.00$ 4.16 (0.00 %)

eth = 3 209.35$ 53.58 (1.70 %)

ton = 1.85$ 0.02 (1.00 %)

usd = 81.13 0.53 (0.65 %)

eur = 95.10 1.40 (1.50 %)

btc = 95 941.00$ 4.16 (0.00 %)

Amazon представила Textract, технологию для корректного распознавания текста

1 минута на чтение
Amazon представила Textract, технологию для корректного распознавания текста

Amazon представила технологию Textract — интеллектуальный инструмент для оптического распознавания символов (OCR) и их конвертации в цифровые форматы.

Amazon представила Textract, технологию для корректного распознавания текста

Технология распознавания текста существует давно. Однако классические методы зачастую неэффективны.

Во-первых, система может легко перепутать единицу со строчной L или прописной I. То же справедливо для нуля и прописной О.

Во-вторых, при изменении шаблона, на основе которого формируется документ, данные могут перемешаться из-за неверного распознавания. Последнюю проблему и решает Textract.

Как заявил CEO AWS Энди Джесси (Andy Jassy), классическое оптическое распознавание просто «читает» текст, тогда как Amazon Textract способен определять форматирование текста, графические элементы и прочие особенности вёрстки. Ясси показал это при сравнении результатов обычного OCR и разработки компании. Первая система распознала таблицу как строку текста, а вторая корректно перенесла данные в цифровой формат.

По словам Ясси, Textract достаточно умён, чтобы определить номера документов, даты рождения и адреса, после чего правильно интерпретировать вне зависимости от того, в каком месте страницы они находятся. В случае изменения шаблона система не пропустит неправильный результат.

Источник: tproger.ru

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от ГигаЧат 
1-bg-изображение-0
img-content-1-изображение-0

ГигаЧат: коротко о главном

Как изменился Код Дурова вместе с ГигаЧат?

Узнай о всех возможностях в FAQ-статье 
OpenAI решила проблему «длинного тире», по которому пользователи судят о сгенерированных текстах

ГигаЧат: коротко о главном

OpenAI решила проблему «длинного тире», по которому пользователи судят о сгенерированных текстах

Полная версия 
Представлена рабочая копия Pip-Boy 3000Представлена рабочая копия Pip-Boy 3000Представлена рабочая копия Pip-Boy 3000

ГигаЧат: коротко о главном

Представлена рабочая копия Pip-Boy 3000

Полная версия 

Реализовано через ГигаЧат 

Сейчас читают
Цифра в деле
Цифра в деле
Смотреть
Реклама. ПАО Сбербанк. erid: 2Vtzqv3u7MN
Карьера
Блоги 450
OTP Bank
билайн
Газпромбанк
МТС
Т-Банк
X5 Tech
Сбер
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы