GPT-4 оцінює студентів на рівні з викладачами

25.10.2025 17:58

Дослідники з Університету Пассау довели, що ШІ GPT-4 здатен оцінювати письмові відповіді студентів на рівні з людськими екзаменаторами.

Дослідження, опубліковане в Scientific Reports, мало на меті з’ясувати, чи може штучний інтелект ефективно оцінювати вільні текстові відповіді з макроекономіки. Під керівництвом професора Йоганна Графа Ламбсдорфа дослідницька команда відібрала 300 відповідей студентів на шість типових запитань. Оцінювання відповідей проводили як люди, так і GPT-4 від OpenAI, з метою порівняння якості та об’єктивності.

Останні новини: Вчені: древні птерозаври не потребували великого мозку

Головною інновацією став метод порівняння: замість вважати людські оцінки абсолютною істиною, дослідники порівнювали ступінь узгодженості рішень між оцінювачами. Коли одного з трьох оцінювачів замінювали GPT, а рівень згоди між трьома зростав — це трактувалось як краща оцінка з боку ШІ. «Ми самі були подекуди здивовані, наскільки якісно ШІ справлявся з окремими оцінками», — зазначила Дебора Фосс.

GPT-4 виявився точним при ранжуванні відповідей за критеріями повноти й коректності. Його оцінки зазвичай збігалися з думками людських рецензентів у категоріях «найкраща», «друга» та «найгірша» відповіді. Однак, у бальній системі GPT продемонстрував схильність до завищення оцінок, іноді на цілий бал більше, ніж люди.

Останні новини: Хронічний біль збільшує ризик гіпертонії на 75%

Інженерна частина досліду, яку реалізував Абдулла Аль Зубаєр під керівництвом професора Міхаеля Граніцера, підтвердила стійкість GPT-4 до нечітких або неточних інструкцій. «Якість оцінок ШІ залишалася стабільною навіть за умов нечіткого формулювання завдань», — додав Аль Зубаєр.

Попри успішні результати, дослідники наполягають: ШІ не може повністю замінити людину. «Підготовка зразкових відповідей і фінальна перевірка — це виключно людські завдання», — наголосив Ламбсдорф. Водночас GPT можна використовувати як другого критичного оцінювача, що підвищить якість і швидкість перевірки без втрати об’єктивності.

Останні новини: Curiosity випадково виявив чисту сірку на Марсі

Таким чином, дослідження з Пассау не тільки підтверджує потенціал GPT-4 у сфері академічного оцінювання, а й пропонує нову модель взаємодії людини й ШІ у вищій освіті.

GPT-4 оцінює студентів на рівні з викладачами з’явилася спочатку на Цікавості.

cikavosti.com

Вчені: гелеподібні структури могли дати початок життю

Вчені виявили приховане роздвоєння у косаток західного узбережжя

Вчені виявили: хмари над Антарктидою — без льоду

ДНК довела: до Австралії вели два стародавні шляхи

Curiosity випадково виявив чисту сірку на Марсі

Супутник SWOT вперше зафіксував цунамі з орбіти