Вайб-кодинг в более чем 80% случаев приводит к критическим уязвимостям
Современные ИИ агенты на различных бенчмарках показывают впечатляющие результаты по кодингу. Но сколько из этих задач в бенчмарках решены не только функционально правильно, но и правильно с точки зрения безопасности? В свежей работе исследователи представили бенчмарк для оценки безопасности кода, генерируемого автономными агентами (вроде SWE-Agent и OpenHands) в контексте целых репозиториев. Вместо простых сниппетов авторы собрали 200 сложных задач на основе реальных исторических исправлений уязвимостей (CVE) в open-source Python проектах.
Результаты получились интересные: хотя современные SOTA-агенты (на базе Claude 3.5 Sonnet) решают 61% задач функционально верно, более 80% этих рабочих решений содержат критические уязвимости. Это подсвечивает фундаментальный разрыв между полезностью кода и его безопасностью.








Отличный комментарий!