Сложности применения технологий OCR в DLP-системах, или Как мы OCR готовим

Сложности применения технологий OCR в DLP-системах, или Как мы OCR готовим

Решение задачи распознавания изображений (OCR) сопряжено с различными сложностями. То картинку не получается распознать из-за нестандартной цветовой схемы или из-за искажений. То заказчик хочет распознавать все изображения без каких-либо ограничений, а это далеко не всегда возможно. Проблемы разные, и решить их сходу не всегда удается. В этом посте мы дадим несколько полезных советов, исходя из опыта разруливания реальных ситуаций у заказчиков. Читать дальше →

8 августа 2019, четверг 13:00 Оставить комментарий Источник

Похожие материалы

Российской OCR – 30 лет. Как появилась технология, благодаря которой мы забыли про ручной ввод? (Часть 2. OCR CuneiForm)

В честь 30-летия OCR мы продолжаем вспоминать, как появились первые отечественные технологии распознавания текста. На прошлой неделе мы рассказали про самую первую такую программу – OCR Tiger, предназначавшуюся для оцифровки книг с целью их дальнейшего переиздания. Сегодня речь…

12 декабря 2023, вторник 13:51 Источник
Tesseract OCR tips — создание своего словаря для повышения эффективности OCR

Это мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат. Читать дальше →

31 декабря 2019, вторник 0:11 Источник
Распознавание текста с помощью OCR

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой. OCR использует нейронные сети для поиска и распознавания текста на изображениях. Tesseract ищет шаблоны в пикселях, буквах, словах и…

15 октября 2019, вторник 14:34 Источник

Сложности применения технологий OCR в DLP-системах, или Как мы OCR готовим

Комментарии

Похожие материалы

Российской OCR – 30 лет. Как появилась технология, благодаря которой мы забыли про ручной ввод? (Часть 2. OCR CuneiForm)

Tesseract OCR tips — создание своего словаря для повышения эффективности OCR

Распознавание текста с помощью OCR