Работа с данными в DuckDB или не pandas’ом единым сыт DS

Работа с данными в DuckDB или не pandas’ом единым сыт DS

В проектах по разработке ML-моделей я регулярно сталкиваюсь с тем, что значительная часть времени уходит не на саму модель, а на приведение данных в нужный формат: очистку, трансформацию, агрегацию.Этот этап требует не только времени, но и вычислительных ресурсов, особенно когда речь идет о больших объемах информации. В этой статье я расскажу о своем небольшом исследовании DuckDB — инструменте, который может значительно упростить и ускорить работу с данными. Читать далее

3 июля 2025, четверг 14:00 Оставить комментарий Источник

Похожие материалы

Pandas НЕ для анализа данных

В среде питонистов библиотека Pandas пользуется большой популярностью и по большей мере известна в контексте DataSciense и анализа данных. DataFrame пандас позволяет не только всячески манипулировать данными, но и выводить их в нужном формате, предоставляя широкие возможности для кастомизации. Например, использовали ли вы объекты класса Styler, входящего в состав Pandas? Мне показалось интересным взглянуть на Pandas с этой стороны. Читать далее

18 июня 2024, вторник 23:11 Источник
Мир за пределами Pandas: достойные альтернативы для работы с данными

Хабр, привет! Это Леша Жиряков, техлид backend-команды витрины онлайн-кинотеатра KION. В мире дата-аналитики Pandas остается одной из самых популярных библиотек. Но это вовсе не значит, что нет других быстрых, удобных и производительных инструментов. Мой пост покажет альтернативы: от колоночной DuckDB и сверхскоростной Polars до мощного Modin и гибкого Vaex. В подборке я постарался передать главную суть — назначение и преимущества инструмента и его характеристики с GitHub. Читать далее

20 декабря 2024, пятница 20:12 Источник
[Перевод] Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд

Команда Python for Devs подготовила перевод статьи о том, как DuckDB ломает привычные представления о масштабах аналитических данных. Автор на реальных бенчмарках показывает, что 1 ТБ данных можно агрегировать за считанные секунды — без Spark, без распределённых кластеров и без сложной инфраструктуры. Читать далее

12 января 2026, понедельник 11:30 Источник

Работа с данными в DuckDB или не pandas’ом единым сыт DS

Комментарии

Похожие материалы

Pandas НЕ для анализа данных

Мир за пределами Pandas: достойные альтернативы для работы с данными

[Перевод] Как DuckDB обрабатывает 1 ТБ данных менее чем за 30 секунд