Парсим Википедию для задач NLP в 4 команды

Парсим Википедию для задач NLP в 4 команды

Суть Оказывается для этого достаточно запуcтить всего лишь такой набор команд: git clone https://github.com/attardi/wikiextractor.git cd wikiextractor wget http://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2 python3 WikiExtractor.py -o ../data/wiki/ --no-templates --processes 8 ../data/ruwiki-latest-pages-articles.xml.bz2 и потом немного отполировать скриптом для пост-процессинга python3 process_wikipedia.py Результат — готовый .csv файл с вашим корпусом. Читать дальше →

5 октября 2018, пятница 21:46 Оставить комментарий Источник

Похожие материалы

NLP: когда машины начинают понимать нас (Часть 2)

В прошлой статье мы с вами изучили теоретические основы обработки естественного языка (NLP) и теперь готовы перейти к практике. В мире NLP выбор подходящего языка программирования и инструментов играет ключевую роль в успешной реализации проектов. Одним из наиболее популярных языков для решения задач в этой области является Python. Его простота, читаемость и поддержка мощных библиотек делают его идеальным выбором для разработчиков. Читать далее

8 декабря 2024, воскресенье 11:30 Источник
NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи. Читать дальше →

14 мая 2019, вторник 17:07 Источник
Возвращаем интерес к Википедии в эру ИИ

В эпоху стремительного развития ИИ, привычка заглядывать в Википедию постепенно уходит — зачем читать целую статью, когда любой ответ можно получить за доли секунды от чат-бота? Я решил переосмыслить этот тренд и вдохнуть новую жизнь в классический формат рубрик «Что было в этот день». Внутри описание, как мы с помощью игрового телеграм бота, Wikipedia API, GPT-моделей и Flux мотивируем читать людей википедию. Читать далее

21 июня 2025, суббота 22:18 Источник

Парсим Википедию для задач NLP в 4 команды

Комментарии

Похожие материалы

NLP: когда машины начинают понимать нас (Часть 2)

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Возвращаем интерес к Википедии в эру ИИ