Сегодня на простом примере рассмотрим – как провести краткий обзор неструктурированных данных в виде графа знаний.Для примера возьмем набор текстов из обращений с портала mos.ru. В данном случае, набор состоит из 90 тыс. обращений. Медианная длина обращений составляет 9 слов. В целом, тексты можно разбить на три основные темы: качество окружающей среды; качество городской среды; доля дорожной среды, соответствующей нормативам.Для начала импортируем необходимые библиотеки: Читать далее
Государственная жилищная инспекция Дагестана с начала 2015 года рассмотрела 827 обращений, сообщили РИА «Дагестан» в пресс-службе органа жилищного надзора. Из этого числа 715 обращений – сообщения физических лиц, 36 обращений – юридических лиц, 2 – от средств массовой информации, 64…
В прошлой статье мы исследовали проблему слишком навязчивой или нерелевантной рекламы, которая может ухудшить пользовательский опыт и вызвать негатив клиентов. Для повышения качества взаимодействия мы исследовали возможности сокращения отказов от рекламного контента,…
В этой статье будет рассказано про разведочный анализ текстовых данных (EDA). Рассмотрим основные методы и этапы — от проверки данных и анализа частотности слов до тематического моделирования. Также разберем применение EDA для конкретных задач NLP, таких как классификация текстов и извлечение сущностей (NER/POS). Весь рассказ будет сопровождаться кодом на Python. ???? Начинаем ????