Обработка датафреймов: ключевые аспекты и инструментыДатафреймы — это одна из самых популярных структур данных для работы с табличными данными. Они широко используются в анализе данных, машинном обучении и научных исследованиях. Датафреймы представляют собой таблицы, где данные организованы в строках и столбцах, что делает их удобными для обработки и анализа. Рассмотрим основные аспекты работы с датафреймами. Читать далее
В среде питонистов библиотека Pandas пользуется большой популярностью и по большей мере известна в контексте DataSciense и анализа данных. DataFrame пандас позволяет не только всячески манипулировать данными, но и выводить их в нужном формате, предоставляя широкие возможности для кастомизации. Например, использовали ли вы объекты класса Styler, входящего в состав Pandas? Мне показалось интересным взглянуть на Pandas с этой стороны. Читать далее
Предварительная обработка текстовых данных: ключевые этапы и методыТекстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения…
Старт открытого курса OpenDataScience Привет всем, кто ждал запуска открытого курса по практическому анализу данных и машинному обучению! Первая статья посвящена первичному анализу данных с Pandas. Пока в серии планируется 7 статей, идущих вместе с тетрадками Jupyter (репозиторий mlcourse_open), соревнованиями и домашними заданиями. Далее идет список будущих статей, описание курса и собственно, первая тема – введение в Pandas. Читать дальше →