Библиотека pandas — это один из лучших инструментов для разведочного анализа данных. Но это не означает, что pandas — это универсальное средство, подходящее для решения любых задач. В частности, речь идёт об обработке больших объемов данных. Мне довелось провести очень и очень много…
Старт открытого курса OpenDataScience Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению! Первая статья посвящена первичному анализу данных с Pandas. Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями. Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas. Читать дальше →
Pandas не нуждается в представлении: на сегодняшний день это главный инструмент для анализа данных на Python. Я работаю специалистом по анализу данных, и несмотря на то, что пользуюсь pandas каждый день, не перестаю удивляться разнообразию функционала этой библиотеки. В этой статье я…
Привет! На связи Грегори Салиба из Spectr.Возможно, вы прочитали название статьи и подумали, что попали на программу «В мире животных». Но нет, речь пойдет о сравнении двух гигантов аналитики данных в Python: Pandas и Polars. В этой статье мы подробно рассмотрим вопрос быстродействия этих двух решений в части работы с файлами больших объемов. В статье мы сравним скорость обработки на примере конкретной задачи одного из проектов, разработку которого ведет наша команда. Читать далее