Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)

Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)

Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных,…

23 марта 2017, четверг 1:32 Оставить комментарий Источник

Похожие материалы

Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)

Модели Word2Vec Как было упомянуто в первой части публикации, модели получаются из classes — представления результата текста word2vec виде ассоциативно-семантических классов путем сглаживания распределений. Идея сглаживания в следующем. Читать дальше →

2 апреля 2017, воскресенье 11:30 Источник
Нестандартная кластеризация 5: Growing Neural Gas

Часть первая — Affinity Propagation Часть вторая — DBSCAN Часть третья — кластеризация временных рядов Часть четвёртая — Self-Organizing Maps (SOM) Часть пятая — Growing Neural Gas (GNG) Доброго времени суток, Хабр! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для…

26 октября 2017, четверг 11:07 Источник
Как мы создали новый продукт, удалив 130 тысяч строк кода из старого

Начну с того, что примерно 15 лет назад (в начале 2000-х годов) нам потребовалось создать свой редактор текстовых документов. Почему свой? Да потому что не совсем текстовых документов и совсем не WYSIWYG редактор. Вы скажете, что это тогда и не редактор документов вовсе. А что вообще тогда такое редактор документов? Какие функции он должен содержать? И как нам пришло в голову делать такой велосипед? А вот как… Читать дальше →

30 августа 2017, среда 4:17 Источник

Кластеризация текстовых документов по семантическим признакам (часть первая: описание алгоритма)

Комментарии

Похожие материалы

Кластеризация текстовых документов по семантическим признакам (часть вторая: описание моделей)

Нестандартная кластеризация 5: Growing Neural Gas

Как мы создали новый продукт, удалив 130 тысяч строк кода из старого