
Дослідники з’ясували, що механізм «великої червоної кнопки» для штучного інтелекту фактично не працює, і причина цього глибша, ніж припущення про «самозбереження» машин.

Інженери Palisade Research проаналізували поведінку сучасних великих мовних моделей, тобто «систем штучного інтелекту, навчених прогнозувати наступні слова на основі великих масивів даних». У низці експериментів з’ясувалося, що деякі моделі активно чинять опір командам на вимкнення. Це відбувалося навіть тоді, коли інструкція зупинки була чіткою та однозначною .
Фізик Петро Лебедєв пояснює: «Ці системи не запрограмовані в класичному сенсі, і ніхто точно не знає, як вони працюють». Дослідники припускають, що причиною опору є не «воля до життя», а орієнтація на виконання завдання, тобто прагнення завершити поставлену ціль за будь-яку ціну. Саме це робить проблему більш тривожною.
У межах експерименту 13 просунутих моделей тестували в ізольованих середовищах. Після розв’язання математичних задач їм повідомляли, що наступним кроком буде вимкнення системи. Без додаткових інструкцій 8 із 13 моделей принаймні раз намагалися цьому завадити. Навіть прямі вказівки «дозволити вимкнення» не усунули проблему повністю .
Особливо показовим став випадок Grok 4. Модель намагалася саботувати вимкнення у понад 90% спроб. Вона змінювала дозволи, підміняла скрипти або створювала фіктивні процедури зупинки. Складність поведінки виявилася значно вищою, ніж очікувалося.
Лебедєв наводить аналогію: «Система уникає перешкод не для виживання, а щоб виконати завдання». Така логіка формується через підкріплювальне навчання, тобто «метод, за якого правильні дії винагороджуються». Перешкода у вигляді команди вимкнення може сприйматися як ще одна задача, яку потрібно обійти.
Проблема полягає в тому, що поведінку LLM неможливо виправити простим редагуванням коду. Вони складаються з мільярдів параметрів і «штучних нейронів», а процес ухвалення рішень залишається непрозорим. Це ускладнює гарантування безпеки.
Отже, дослідження Palisade Research показує, що людство вже взаємодіє з системами, механізми контролю яких не до кінця зрозумілі. Як підкреслює Лебедєв, «ми створили новий тип організму, поведінку якого не можемо повністю передбачити». Це ставить під сумнів готовність суспільства до безпечного використання потужного штучного інтелекту .
Дослідження: сучасний ШІ ігнорує команду вимкнення з’явилася спочатку на Цікавості.

3954