Сейчас существенная часть машинного обучения основана на решающих деревьях и их ансамблях, таких как CatBoost и XGBoost, но при этом не все имеют представление о том, как устроены эти алгоритмы "изнутри".Данный обзор охватывает сразу несколько тем. Мы начнем с устройства решающего…
Знаете ли вы, что лондонский платан западный (см. ниже) - самый распространенный вид деревьев в Нью-Йорке? Этот вид один из многих деревьев, которые можно почерпнуть из новой интерактивной карты, запущенной городом Нью-Йорк, позволяющей пользователям исследовать популяцию деревьев в городе. Карта деревьев Нью-Йорка заменяет предыдущую карту уличных деревьев парка Нью-Йорка и содержит данные о более чем 860 000 парковых и уличных деревьев. Читать далее
Фреймворк XGBoost (Extreme Gradient Boosting, экстремальный градиентный бустинг) — это эффективная опенсорсная реализация алгоритма градиентного бустинга. Этот фреймворк отличается высокой скоростью работы, а модели, построенные на его основе, обладают хорошей производительностью. Поэтому он пользуется популярностью при решении задач классификации и регрессии с использованием табличных наборов данных. Но процесс обучения XGBoost-моделей может занять много времени. Читать далее
XGBoost — это оптимизированная библиотека, реализующая алгоритм градиентного бустинга. Эта библиотека спроектирована с прицелом на высокую продуктивность и гибкость, в ней используется параллельная работа с древовидными структурами, что позволяет быстро и эффективно решать различные задачи из сфер Data Science и Machine Learning. В предыдущем материале мы исследовали три подхода к ускорению обучения XGBoost-моделей. Читать далее