Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами: Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых

14 марта 2018, среда 18:12 Оставить комментарий Источник

Похожие материалы

Gorp.NET – новая библиотека для создания реверсивных шаблонов с целью извлечения данных из структурированного текста

Gorp.NET – новая библиотека для создания реверсивных шаблонов с целью извлечения данных из структурированного текста, основанная на имеющейся кодовой базе Salesforce Gorp. Читать дальше →

20 ноября 2019, среда 23:05 Источник
Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM

Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выбрать самый подходящий для нас, можно выяснить похожесть всех остальных текстов на этот. Похожесть(similarity) это численная

12 февраля 2021, пятница 10:38 Источник
BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках

Привет, Хабр!Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст. Читать далее

19 марта 2025, среда 16:28 Источник

Наташа — библиотека для извлечения структурированной информации из текстов на русском языке

Комментарии

Похожие материалы

Gorp.NET – новая библиотека для создания реверсивных шаблонов с целью извлечения данных из структурированного текста

Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках