Резервуарное сэмплирование — это методика выбора справедливого случайного образца, когда неизвестен размер множества, из которого выполняется выборка. К концу этой статьи вы будете знать:• Когда может потребоваться резервуарное сэмплирование.• Математика его работы на основании лишь базовых операций: вычитания, умножения, умножения и деления. Никаких сложных математических формул, обещаю.• Простой способ реализации резервуарного сэмплирования на случай, если вам оно понадобится. Читать далее
Помните нашу предыдущую статью, в которой мы обсуждали сэмплирование как эффективный инструмент для снижения затрат на мониторинг? Тогда мы сделали акцент на том, как выборочная запись трейсoв позволяет резко сократить объёмы хранимых данных — и, соответственно, расходы на серверы и хранилища. Однако сэмплирование, каким бы эффективным оно ни было, — это лишь вершина айсберга.Хотелось бы иметь возможность по щелчку пальцев, сократить затраты на инфраструктуру мониторинга минимум вдвое... Узнать как
Недавно натолкнулся на вопрос в чате ODS: почему алгоритм, генерирующий текст буква-за-буквой, сэмплит буквы не из p (вектор вероятностей следующей буквы, предсказанный языковой моделью), а из p'=softmax(log(p)/t) (где t — это ещё какой-то непонятный положительный скаляр)? Быстрый и непонятный ответ: t — это "температура", и она позволяет управлять разнообразием генерируемых текстов. А ради длинного и детального ответа, собственно, и написан этот пост. Читать дальше →
Если объяснять на пальцах, термоядерный реактор — это когда в магнитном поле удерживают плазму с температурой в 150 раз выше, чем на Солнце, а в трех метрах от нее находится охлаждающий контур гигантских катушек с температурой почти абсолютный ноль по Кельвину. По факту получаем…