Мы десятилетиями решаем одну и ту же задачу двумя разными способами — и называем это прогрессом. Метрики оценки и модели вознаграждения в LLM-комьюнити развиваются как параллельные ветви эволюции, почти не обмениваясь знаниями. Статья 2510.03231 показывает, насколько глубока эта изоляция — и как объединение подходов может сделать оценку моделей проще, точнее и… дешевле в вычислительном смысле. Это не просто обзор — это рефакторинг всей исследовательской экосистемы. Читать далее
Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые
Как "…говорит наука" захватила власть в климатических дискуссиях - и почему она сбила нас с пути"Наука хороша тем, что она истинна, независимо от того, верите вы в нее или нет". - Нил деГрасс Тайсон. Утешительна мысль о том, что наука истинна, независимо от того, принимает ее человек…
Привет, Хабр! Cегодня мы разберемся с одним из ключевых аспектов работы CDN – статусами кеша. Если вы когда-нибудь заглядывали в заголовки ответа сервера или анализировали логи CDN, то наверняка встречали загадочные аббревиатуры HIT, MISS или EXPIRED. Давайте разберемся, что они означают и почему так важны для понимания работы CDN. Читать далее