Кластерный анализ корпуса текстов

Кластерный анализ корпуса текстов

Иногда возникает необходимость провести анализ большого количества текстовых данных, не имея представления о содержании текстов. В таком случае можно попытаться разбить тексты на кластеры, и cгенерировать описание для каждого кластера. Таким образом можно в первом приближении сделать выводы о содержании корпуса текстов. Читать далее

23 ноября 2021, вторник 16:16 Оставить комментарий Источник

Похожие материалы

Простой пример кластерного анализа алкогольных предпочтений по странам на R

Привет, Хабр! Сегодня хочу поделиться небольшим примером того, как можно проводить кластерный анализ. В этом примере читатель не найдет нейронных сетей и прочих модных направлений. Данный пример может служить точкой отсчета для того, чтобы сделать небольшой и полный кластерный анализ для других данных. Всем заинтересованным — добро пожаловать под кат. Читать дальше →

24 мая 2020, воскресенье 17:40 Источник
Перефразирование русских текстов: корпуса, модели, метрики

Автоматическое перефразирование текстов может быть полезно в куче задач, от рерайтинга текстов до аугментации данных. В этой статье я собрал русскоязычные корпуса и модели парафраз, а также попробовал создать собственный корпус, обучить свою модель для перефразирования, и…

28 июня 2021, понедельник 11:53 Источник
Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM

Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выбрать самый подходящий для нас, можно выяснить похожесть всех остальных текстов на этот. Похожесть(similarity) это численная

12 февраля 2021, пятница 10:38 Источник

Кластерный анализ корпуса текстов

Комментарии

Похожие материалы

Простой пример кластерного анализа алкогольных предпочтений по странам на R

Перефразирование русских текстов: корпуса, модели, метрики

Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM