Amazon представила Textract, технологию для корректного распознавания текста
Amazon представила Textract, технологию для корректного распознавания текста

Amazon представила Textract, технологию для корректного распознавания текста

30 ноября, 20181 минута на чтение
Подписывайтесь на [Код // Дурова] в Telegram[Код // Дурова] в Telegram

Amazon представила технологию Textract — интеллектуальный инструмент для оптического распознавания символов (OCR) и их конвертации в цифровые форматы.

Технология распознавания текста существует давно. Однако классические методы зачастую неэффективны.

Во-первых, система может легко перепутать единицу со строчной L или прописной I. То же справедливо для нуля и прописной О.

Во-вторых, при изменении шаблона, на основе которого формируется документ, данные могут перемешаться из-за неверного распознавания. Последнюю проблему и решает Textract.

Как заявил CEO AWS Энди Джесси (Andy Jassy), классическое оптическое распознавание просто «читает» текст, тогда как Amazon Textract способен определять форматирование текста, графические элементы и прочие особенности вёрстки. Ясси показал это при сравнении результатов обычного OCR и разработки компании. Первая система распознала таблицу как строку текста, а вторая корректно перенесла данные в цифровой формат.

По словам Ясси, Textract достаточно умён, чтобы определить номера документов, даты рождения и адреса, после чего правильно интерпретировать вне зависимости от того, в каком месте страницы они находятся. В случае изменения шаблона система не пропустит неправильный результат.

Источник: tproger.ru

30 ноября, 2018
Подписывайтесь на [Код // Дурова] в Telegram[Код // Дурова] в Telegram
Показать все

Выбор редакции