Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами: Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых
Gorp.NET – новая библиотека для создания реверсивных шаблонов с целью извлечения данных из структурированного текста, основанная на имеющейся кодовой базе Salesforce Gorp. Читать дальше →
Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выбрать самый подходящий для нас, можно выяснить похожесть всех остальных текстов на этот. Похожесть(similarity) это численная
Привет, Хабр!Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст. Читать далее