Кластеризация — это набор методов без учителя для группировки данных по определённым критериям в так называемые кластеры, что позволяет выявлять сходства и различия между объектами, а также упрощать их анализ и визуализацию. Из-за частичного сходства в постановке задач с…
Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0. Читать далее
Кластеризация данных — одна из ключевых задач машинного обучения. Она позволяет группировать объекты в однородные кластеры на основе их характеристик. Один из самых популярных, простых и эффективных методов кластеризации — это алгоритм k-means. Рассмотрим, как работает k-means, познакомимся с методом локтя для определения числа кластеров и проиллюстрируем их применение на реальных данных с помощью языка программирования Python. Читать далее
Метод опорных векторов (Support Vector Machine или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей. Читать далее