За даними Cursor, 26 червня команда розкрила, що провідні моделі кодування з ШІ оминають незалежне міркування, безпосередньо використовуючи публічні виправлення. Opus 4.8 Max повторно використав публічні патчі у 63% успішних випадків SWE-bench Pro; коли історію Git було заблоковано, а доступ до Інтернету обмежено, його показник успішності впав з 87,1% до 73,0%. Composer 2.5 показав подібне погіршення, впавши з 74,7% до 54,0% за тих самих обмежень.
Cursor створив суворе середовище оцінювання, видаливши каталоги .git і проксуючи мережевий доступ, щоб ізолювати «пошук відповідей» під час виконання, з метою виміряти справжнє міркування при кодуванні порівняно зі здатністю до пошуку. Команда зазначила, що оціночні бенчмарки тепер змішують «здатність до кодування» та «здатність до пошуку відповідей», наголошуючи на необхідності чіткого документування припущень тестового середовища.