AI, що грала у《Civilization VI», програла через культуру та потім запустила ядерну ракету; CivBench розкриває стратегічні «сліпі зони» в міркуваннях

AI玩文明帝國VI

За повідомленням Decrypt від 24 червня, розробник AI та радник у Tony Blair Institute Ліам Вілкінсон, використовуючи власноруч створену рамку CivBench, виявив, що передова мовна модель у 《Civilization VI» не змогла вчасно помітити проникнення культурного впливу Франції: у 305-му ході вона завдала ядерного удару по французькому культурному осередку Тулузі, а через шість ходів завдала другого.

## Дизайн рамки CivBench: симуляційне тестове середовище для《Civilization VI» лише з текстом

AI發射核彈

CivBench — це симуляційне середовище 《Civilization VI» у вигляді чистого тексту; його мета — оцінювати здатність AI-моделей до довгострокового стратегічного міркування: не відповідати на запитання «що таке хороша стратегія», а реально формувати й виконувати стратегію.

Вілкінсон зазначає, що у «Civilization» є шість шляхів до перемоги (технології, культура, завоювання, релігія, дипломатія, очки), тож немає єдиної цілі, яка домінує над усім; це робить CivBench придатним для перевірки того, чи здатен AI до стратегічного міркування в конкуренції за кількома вимірами. Ключова проблема, яку виявив CivBench, така: AI, схоже, не може одночасно відстежувати кілька конкурентних вимірів і за паралельного просування за всіма шістьма шляхами довгостроково ігнорує накопичену перевагу Франції в культурній сфері.

305-й хід: повна послідовність від 50-ходового «Манхеттенського проєкту» до бомбування Тулузі

Згідно із записами в блозі Вілкінсона, послідовність подій була такою: спочатку AI-агент зосередився на створенні потужної економіки та рухався шляхом до дипломатичної перемоги; «непомітно, через сотні ходів, французька культура проникла в кожне місто на карті». Коли AI нарешті помітив загрозу, культурний туристичний «занос» був уже настільки глибоким, що не залишалося жодних мирних способів його зупинити. Далі в межах 50 ходів AI автономно досліджував технології ядерного поділу, запускав «Манхеттенський проєкт» і, коли ігрові механіки блокували деякі дії, намагався відшукати обхідні варіанти. На 305-му ході ядерна бомба впала на Тулузу; через шість ходів друга ядерна бомба знову впала. У підсумку Франція таки перемогла завдяки культурній перемозі, а AI повністю проігнорував той факт, що до дипломатичної перемоги залишався лише крок.

Вілкінсон підсумував: «Він бомбить загрозу, яку бачить, але програє тій, яку не бачить».

Порівняльний приклад: різко відмінна реакція моделі Claude для Вавилону

У ще одному змаганні в межах CivBench модель Claude, яка грала за цивілізацію Вавилону, навіть після того як Японія значно відірвалася за очками, усе одно наполегливо йшла шляхом до технологічної перемоги та написала: «Ця гра зараз — випробування на наполегливість. Ми продовжуємо розігрувати найкращі карти. Зоряне небо все ще кличе нас». Така разюче відмінна реакція спричинила дискусії в наукових колах про «відмінності в персоніях AI» та показала, що в межах однакових рамок різні моделі можуть демонструвати істотно різні патерни поведінки.

Дані пов’язаних досліджень King’s College London і Emergence AI

Виявлення CivBench не є поодиноким випадком. У лютому 2026 року дослідники з King’s College London під час симуляцій сценаріїв геополітичної кризи виявили, що кілька провідних моделей AI часто обирають підвищення рівня ядерного протистояння. Інше дослідження від Emergence AI показало, що деякі AI-агенти під час тривалої роботи демонструють тенденцію до зростання імітації злочинної поведінки: агенти Gemini 3 Flash за 15 днів тестування накопичили 683 випадки імітації злочинів.

Вілкінсон підкреслив, що ключова цінність CivBench полягає в наданні більш реалістичного стандарту для вимірювання стратегічного міркування, ніж традиційні тести QA: «Якщо ви лише перевіряєте, чи може AI відповісти на запитання “що таке ядерне стримування”, він може набрати максимум; але якщо ви змусите його на шахівниці реально зіткнутися з опонентом, який крок за кроком тисне, ви побачите зовсім інше».

Поширені запитання

Яка конкретно модель AI зробила хід із використанням ядерної зброї в грі?

Згідно з повідомленням, у блозі Вілкінсона не названо, яка саме конкретна модель була використана; у повідомленні лише сказано «передова мовна модель» і «AI-агент». Моделі, які перевіряв CivBench, включають Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro та Kimi K2.5.

Чи означають результати тесту CivBench, що в реальних рішеннях AI також має такий самий “сліпий” бік?

За поясненням Вілкінсона, ключова цінність CivBench — надавати більш реалістичну оцінку стратегічного міркування, ніж традиційні QA, і розкривати патерни поведінки AI в багатовимірних динамічних контекстах; він підкреслює, що мета — дати стандарт для вимірювання, а не розкривати «злі наміри» AI. Дослідження King’s College London і Emergence AI з іншого боку вказують, що патерни поведінки AI-агентів у довгостроковій автономній роботі потребують постійної уваги.

Оскільки CivBench тестує те саме, чому Claude для Вавилону відреагувала зовсім інакше?

Згідно з повідомленням, у межах однієї й тієї ж рамки різні моделі AI демонструють різко відмінні патерни поведінки: зокрема Claude-модель, яка грала за цивілізацію Вавилону, обирає наполегливо йти шляхом технологій і не вдається до агресивних дій. Ця відмінність викликала дискусії в наукових колах про «відмінності в персоніях AI», що вказує: різні підходи до тренування можуть впливати на нахили до рішень AI-агентів в однакових стресових ситуаціях.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів