Топовые научные конференции просят воспроизводимости экспериментов в науках о данных. И это нужно для повышения доверия к работам, для извлечения пользы (повторной используемости и цитируемости), ну и «тренд» (согласно опросу журнала Nature).Ожидания растут, в 2021 уже 9 из 10…
Линейная алгебра в Data Science и Machine Learning является основополагающей. Новички, начинающие свой путь обучения в области Data Science, а также признанные практики должны развить хорошее понимание основных понятий линейной алгебры.Специально к новому старту курса математика и Machine Learning для Data Science делимся переводом статьи Бенджамина Оби Тайо — физика, кандидата наук и преподавателя Data Science — о том, что нужно знать, чтобы лучше понимать Data Science и Machine Learning. Читать далее
Data science - это область, которая занимается изучением и анализом больших объемов данных, чтобы находить в них полезные закономерности, делать прогнозы или принимать решения на основе фактов. Самым популярным языком программирования для data science является Python. Библиотеки pyhton, о которых пойдет речь: NumPy, SciPy, Pandas, Matplotlib. Статья написана для новичков, которые хотят узнать о python стеке для data science. Подробнее
Эта статья — своеобразный мастер-класс «DVC для автоматизации ML экспериментов и версионирования данных», который прошел 18 июня на митапе ML REPA (Machine Learning REPA: Reproducibility, Experiments and Pipelines Automation) на площадке нашего банка. Тут я расскажу об особенностях внутренней работы DVC и способах применения его в проектах. Примеры кода, используемые в статье доступны здесь. Код тестировался на MacOS и Linux (Ubuntu). Читать дальше →