Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной…
Привет, Хабр! В этой статье расскажем вам о том, как создавать собственные токенизаторы с SpaCy. Да-да, тот самый SpaCy, который мы все знаем и любим. Стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck). Читать далее
Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных. Читать далее
Представители Всероссийской Ассоциации преподавателей русского языка и литературы вузов встретились с представителями филологических факультетов вузов Дагестана. Встреча прошла сегодня, 29 января, на филологическом факультете Дагестанского государственного университета. Декан филологического факультета Института русского языка имени А. Пушкина, председатель исполкома Ассоциации преподавателей русского языка и литературы вузов страны Любовь Фарисенкова рассказала о самой ассоциации, ее планах и […]