Модели Word2Vec Как было упомянуто в первой части публикации, модели получаются из classes — представления результата текста word2vec виде ассоциативно-семантических классов путем сглаживания распределений. Идея сглаживания в следующем. Читать дальше →
Существует огромное количество алгоритмов кластеризации. Основная идея большинства из них – объединить одинаковые последовательности в один класс или кластер на основе сходства. Как правило, выбор алгоритма определяется поставленной задачей. Что касается текстовых данных,…
Часть первая — Affinity Propagation Часть вторая — DBSCAN Часть третья — кластеризация временных рядов Часть четвёртая — Self-Organizing Maps (SOM) Часть пятая — Growing Neural Gas (GNG) Доброго времени суток, Хабр! Сегодня я бы хотел рассказать об одном интересном, но крайне малоизвестном алгоритме для…
Начну с того, что примерно 15 лет назад (в начале 2000-х годов) нам потребовалось создать свой редактор текстовых документов. Почему свой? Да потому что не совсем текстовых документов и совсем не WYSIWYG редактор. Вы скажете, что это тогда и не редактор документов вовсе. А что вообще тогда такое редактор документов? Какие функции он должен содержать? И как нам пришло в голову делать такой велосипед? А вот как… Читать дальше →