Данная статья описывает процесс создания проложения для распознавания текста на изображении и общения с распознанным текстом. В процессе разработки используются: Язык: PythonОптическое Распознавание Символов(OCR): Paddle OCRПлощадка для языковой модели: OllamaБольшая языковая модель(LLM): qwen2:7bСетевой фреймворк для API: FastAPI Читать далее
Tesseract — это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой. OCR использует нейронные сети для поиска и распознавания текста на изображениях. Tesseract ищет шаблоны в пикселях, буквах, словах и…
Распознать текст на скане документа – задача не новая. А вот уложиться в пару секунд на CPU – уже вызов. Там, где готовые фреймворки долго "думают", я сделала своё OCR решение на основе PaddleOCR с конвертацией в ONNX. В этой статье я расскажу почему в качестве ядра был выбран Paddle, и как работает весь алгоритм на основе его моделей. Читать далее
При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown. Читать далее