Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Привет, Хабр! В этой статье расскажем вам о том, как создавать собственные токенизаторы с SpaCy. Да-да, тот самый SpaCy, который мы все знаем и любим. Стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck). Читать далее

14 ноября 2024, четверг 23:48 Оставить комментарий Источник

Похожие материалы

Использование библиотеки spaCy для поиска сущностей в тексте

Снова приветствую всех читателей Хабр.В предыдущей статье был приведен пример создания кода проекта для задачи автоматизации обработки данных, в результате чего получилось подготовить нужную информацию по модели данных ЛОЦМАН: PLM. Эти данные планируется использовать для…

18 декабря 2025, четверг 11:30 Источник
Использование выражений для фильтрации данных из БД

Статья основана на ответе в StackOverflow. Начну с описания проблемы, с которой я столкнулся. Есть несколько сущностей в базе данных, которые нужно отображать в виде таблиц на UI. Для доступа к базе данных используется Entity Framework. Для этих таблиц есть фильтры, по полям этих сущностей. Нужно написать код для фильтрации сущностей по параметрам. Читать дальше →

3 марта 2017, пятница 16:43 Источник
NER для русского языка в Spacy 3: удобно и легко

Славянские языки, в том числе и русский, считаются довольно сложными для обработки. В основном, из-за богатой системы окончаний, свободного порядка слов и других морфологических и синтаксических явлений. Распознавание именованных сущностей (далее, NER) представляется трудной…

9 августа 2021, понедельник 16:39 Источник

Разбей и властвуй: как создать кастомный токенизатор в SpaCy

Комментарии

Похожие материалы

Использование библиотеки spaCy для поиска сущностей в тексте

Использование выражений для фильтрации данных из БД

NER для русского языка в Spacy 3: удобно и легко