Tesseract OCR tips — создание своего словаря для повышения эффективности OCR

Tesseract OCR tips — создание своего словаря для повышения эффективности OCR

Это мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат. Читать дальше →

31 декабря 2019, вторник 0:11 Оставить комментарий Источник

Похожие материалы

Распознавание текста с помощью OCR

Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой. OCR использует нейронные сети для поиска и распознавания текста на изображениях. Tesseract ищет шаблоны в пикселях, буквах, словах и…

15 октября 2019, вторник 14:34 Источник
Tesseract OCR, выделение распознанного текста на изображении

Прочитать картинку, сохранить текст, обработать текст, получить результат довольно просто. Хочу рассказать как этот результат отобразить для пользователя на ранее прочитанной картинке, например выделить кусочек текста содержащий целевое предложение. Такая задача будет полезна при выделении важной части текста и демонстрации её руководству в виде картинки. Читать далее

1 июля 2021, четверг 2:45 Источник
Как выбрать OCR в 2026-м: тестируем девять моделей на трех движках инференса на рукописном русском

Вам нужен OCR. В техобзорах рекомендуют Tesseract, на Хабре все пишут про VLM, идете на Hugging Face — там PaddleOCR-VL, DeepSeek-OCR, Dots.OCR, Qwen2.5-VL, и каждая называет себя SOTA. Прибавим к этому vLLM, SGLang, TGI, Native HF Transformers, и вот вы зависли между десятками комбинаций. Мы протестировали девять моделей на трех движках инференса на рукописном русском и отразили в таблице, какая модель под какую задачу лучше подходит.Велком под кат за таблицей и историей ее создания Читать далее

31 июля 2026, пятница 11:00 Источник

Tesseract OCR tips — создание своего словаря для повышения эффективности OCR

Комментарии

Похожие материалы

Распознавание текста с помощью OCR

Tesseract OCR, выделение распознанного текста на изображении

Как выбрать OCR в 2026-м: тестируем девять моделей на трех движках инференса на рукописном русском