Рассказываю, как на практике решать задачу NER. На примере извлечения сущностей из резюме пройдём путь от разметки данных до работающего API. Меньше теории, больше практики. ???? Начинаем ????
Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных. Читать далее
Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.В этой статье расскажу, как мы решали задачу точечного маскирования PII на картинках без обучения специальных визуальных детекторов. Разберём связку оптического распознавания символов (OCR) с NER-моделью, покажем метрики на реальных данных, раскроем ограничения подхода и наши решения для их преодоления. Читать далее
Привет всем! Сегодня продолжим рассказ о том, как наша команда Data Science из CleverData начала выделять бренды в строках онлайн-чеков. Цель такого упражнения — построение отчета для бренд-анализа, о котором мы подробно рассказали в первой статье на эту тему. Из второй части вы узнаете, как на базе пайплайна (сводки с данными) для получения разметки по брендам мы обучили собственную NER-модель. Читать далее