Привет, Хабр!Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст. Читать далее
Не так давно у автора этой статьи возник вопрос: может ли простой метод сопоставления строк — в сочетании с некоторыми простыми оптимизациями — конкурировать с моделью, обученной с учителем, в биомедицинской задаче распознавания именованных сущностей (NER)? Автор сравнил эти два метода между собой и предположил, что при правильном подходе даже простые модели могут конкурировать со сложными системами, а мы к старту курса "Machine Learning и Deep Learning" перевели его статью. Читать далее
Источник изображения: AnnaElli Система «Антиплагиат» работает с текстами на разных языках. Большинство работ, поступающих на проверку, написаны на русском, английском или казахском языках. Сейчас индекс «Антиплагиата» содержит документы более чем на 50 языках. Читать дальше →
Есть стандартная задача извлечения именованных сущностей из текста (NER). На входе текст, на выходе структурированные, нормализованные объекты, например, с именами, адресами, датами: Задача старая и хорошо изученная, для английского языка существует масса коммерческих и открытых