Синтетические данные – это искусственно сгенерированные наборы, имитирующие структуру и статистические закономерности реальных данных. В последние годы вокруг этой технологии возник значительный ажиотаж. Еще недавно аналитики прогнозировали, что уже к 2024 году до 60% данных,…
В задачах машинного обучения качество моделей очень сильно зависит от данных. Но сами данные в реальных задачах редко бывают идеальными. Как правило, самих данных не много, количество доступных для анализа параметров ограничено, в данных шумы и пропуски. Но решать задачу как-то нужно. Я хочу поделиться практическим опытом успешного решения задач машинного обучения. И дать простой набор шагов, позволяющих выжать из данных максимум. Читать дальше →
Привет, Хабр! В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста. В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так. Читать дальше →
С точки зрения нейронных сетей мир плоский. Иерархические данные напоминают, что это не так.Работа нейронных сетей неотделима от допущения, что всего одна функция отображает вводные данные на выходные. Но в реальных условиях данные редко вписываются в такие рамки.Допустим, есть