Умный парсер числа, записанного прописью

Умный парсер числа, записанного прописью

Пролог Добрый день, уважаемые читатели. В данной статье я расскажу о том, как распарсить число, записанное прописью на русском языке. Умным данный парсер делает возможность извлечения чисел из текста с ошибками, допущенными в результате некорректного ввода или в результате оптического распознавания текста из изображения (OCR). Для ленивых: Ссылка на проект github: ссылка. Читать дальше →

27 мая 2019, понедельник 14:18 Оставить комментарий Источник

Похожие материалы

[Из песочницы] Как я html-парсер на php писал, и что из этого вышло. Часть первая

Привет. Сегодня я хочу рассказать, как написать html парсер, а также с какими проблемами я столкнулся, разрабатывая подобный парсер на php. А проблем было много. И в первой части я расскажу о проектировании парсера, и о возникших проблемах, ведь html парсер отличается от парсера привычных всем языков программирования. Читать дальше →

4 июня 2020, четверг 11:50 Источник
Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Два года назад я писал на Хабр статью про Yargy-парсер и библиотеку Natasha, рассказывал про решение задачи NER для русского языка, построенное на правилах. Проект хорошо приняли. Yargy-парсер заменил яндексовый Томита-парсер в крупных проектах внутри Сбера, Интерфакса и РИА Новостей.…

24 августа 2020, понедельник 23:07 Источник
Как я Markdown парсер выбирал

Недавно я решил создать свой сайт, и мне понадобилось выбрать парсер Markdown для отрисовки статей в блоге.То, что начиналось как: «Окей, гугл, какой парсер выбрать?», – вылилось в полноценное исследование существующих реализаций парсеров.О том, какие открытия меня ждали на этом пути, и будет данная статья. Читать далее

19 июня 2022, воскресенье 19:52 Источник

Умный парсер числа, записанного прописью

Комментарии

Похожие материалы

[Из песочницы] Как я html-парсер на php писал, и что из этого вышло. Часть первая

Проект Natasha. Набор качественных открытых инструментов для обработки естественного русского языка (NLP)

Как я Markdown парсер выбирал