NER для русского языка в Spacy 3: удобно и легко

NER для русского языка в Spacy 3: удобно и легко

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной…

9 августа 2021, понедельник 16:39 Оставить комментарий Источник

Похожие материалы

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Привет, Хабр! В этой статье расскажем вам о том, как создавать собственные токенизаторы с SpaCy. Да-да, тот самый SpaCy, который мы все знаем и любим. Стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck). Читать далее

14 ноября 2024, четверг 23:48 Источник
Путь разметки данных для NER: от Open Source до Prodigy

Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных. Читать далее

10 ноября 2024, воскресенье 1:15 Источник
Представители Всероссийской Ассоциации преподавателей русского языка и литературы вузов встретились с представителями вузов Дагестана

Представители Всероссийской Ассоциации преподавателей русского языка и литературы вузов встретились с представителями филологических факультетов вузов Дагестана. Встреча прошла сегодня, 29 января, на филологическом факультете Дагестанского государственного университета. Декан филологического факультета Института русского языка имени А. Пушкина, председатель исполкома Ассоциации преподавателей русского языка и литературы вузов страны Любовь Фарисенкова рассказала о самой ассоциации, ее планах и […]

29 января 2015, четверг 17:39 Источник

NER для русского языка в Spacy 3: удобно и легко

Комментарии

Похожие материалы

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Путь разметки данных для NER: от Open Source до Prodigy

Представители Всероссийской Ассоциации преподавателей русского языка и литературы вузов встретились с представителями вузов Дагестана