Почему AI-агент чинит симптом, а не баг: трейсы выполнения и бенчмарки на BugSwarm

Почему AI-агент чинит симптом, а не баг: трейсы выполнения и бенчмарки на BugSwarm

Когда AI-агенту дают только stack trace и текст файла с упавшим тестом, он часто чинит симптом, а не причину. Тест зеленеет, баг переезжает в master, через неделю всплывает в другом месте. На простых багах это незаметно, на нетривиальных — становится правилом.В этой

8 мая 2026, пятница 10:31 Оставить комментарий Источник

Похожие материалы

[Перевод] Самые популярные LLM бенчмарки

Зачем использовать бенчмарки для оценки LLM? Бенчмарки LLM помогают оценивать точность больших языковых моделей, обеспечивая стандартизированную процедуру измерения метрик выполнения различных задач. Бенчмарки содержат все структуры и данные, необходимые для оценки LLM, в том…

23 сентября 2024, понедельник 12:45 Источник
ИИ агент в 1С — графовый агент, файлы и нормальные follow-up запросы 1С

В релизе 1С ИИ агент 0.8.5 агент стал ближе к полноценному рабочему инструменту аналитика: появился более устойчивый графовый цикл выполнения, улучшена работа с файлами и вложениями, а режим «Запрос 1С» теперь поддерживает follow-up уточнения. В статье показываем сценарий: пользователь просит вывести контрагентов, затем добавляет поля ИНН и код, а потом фильтрует только покупателей — агент перестраивает запрос и показывает результат в табличном документе. Читать далее

11 мая 2026, понедельник 4:50 Источник
Наблюдаемость .NET-сервисов с помощью OpenTelemetry (traces/metrics/logs). Практический пример

В этой статье я покажу, как с нуля подключить OpenTelemetry в ASP.NET Core проект и получить полноценную наблюдаемость: распределённые трейсы, метрики и логи. Мы не будем углубляться в теорию (что такое спаны/трейсы/метрики и почему это важно) - сфокусируемся на практике.Мы развернём…

11 января 2026, воскресенье 17:46 Источник

Почему AI-агент чинит симптом, а не баг: трейсы выполнения и бенчмарки на BugSwarm

Комментарии

Похожие материалы

[Перевод] Самые популярные LLM бенчмарки

ИИ агент в 1С — графовый агент, файлы и нормальные follow-up запросы 1С

Наблюдаемость .NET-сервисов с помощью OpenTelemetry (traces/metrics/logs). Практический пример