Привет! Меня зовут Соня Асанина, я работаю в команде Центра технологий искусственного интеллекта Газпромбанка. В этой статье я расскажу, как тематическое моделирование и мягкая кластеризация помогают нам извлекать ценные инсайты из клиентских отзывов.Каждый день мы получаем…
В этой статье будет рассказано про разведочный анализ текстовых данных (EDA). Рассмотрим основные методы и этапы — от проверки данных и анализа частотности слов до тематического моделирования. Также разберем применение EDA для конкретных задач NLP, таких как классификация текстов и извлечение сущностей (NER/POS). Весь рассказ будет сопровождаться кодом на Python. ???? Начинаем ????
Разведочный анализ данных, или EDA, – это как археологические раскопки в мире информации. Это первый шаг, когда мы берем на себя роль исследователя данных и начинаем расследовать, как устроены наши данные, как они взаимосвязаны и что они нам могут рассказать. EDA – это не просто…
Тематическое моделирование — подраздел машинного обучения, посвященный извлечению абстрактных «тем» из набора «документов». Каждый «документ» представлен мешком слов, т.е. множеством слов вместе с их частотами. Введение в тематическое моделирование прекрасно описано проф.…