Первым делом требуется подготовить данные для прямого прохода (т.н. inference – тот процесс, который мы делаем, когда используем обученную модель в продакшене). Этим занимается т.н. процессор (из терминологии библиотеки transformers). На вход он принимает оригинальное изображение, а также OCR разметку, то есть все слова, имеющиеся на чеке, вместе с соответствующими им координатами и размерами (далее - боксами), которые нормализуются в диапазон [0…1000]. Процессор совершает следующие действия: Читать далее
Компания CleverDATA занимается разработкой платформы для работы с большими данными. В частности, на нашей платформе есть возможность работать с информацией из чеков онлайн-покупок. Перед нами стояла задача научиться обрабатывать текстовые данные чеков и строить на них выводы о…
Статья основана на ответе в StackOverflow. Начну с описания проблемы, с которой я столкнулся. Есть несколько сущностей в базе данных, которые нужно отображать в виде таблиц на UI. Для доступа к базе данных используется Entity Framework. Для этих таблиц есть фильтры, по полям этих сущностей. Нужно написать код для фильтрации сущностей по параметрам. Читать дальше →
Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами: Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых