Новий ШІ генерує картинки за один крок і в 30 разів швидше

25.03.2024   12:06    21

Дослідники Лабораторії комп’ютерних наук і штучного інтелекту Массачусетського технологічного інституту представили нову структуру, яка спрощує багатоетапні процеси традиційних дифузійних моделей ШІ до одного кроку, усуваючи попередні обмеження. Це дало змогу прискорити наявні моделі дифузії, як-от Stable Diffusion і DALLE-3, у 30 разів, при цьому якість візуального контенту залишилася на високому рівні.

Підхід учених під назвою Distribution matching distillation (DMD) об’єднує принципи генеративно-змагальних мереж із принципами дифузійних моделей. Генеративно-змагальні мережі складаються з генератора, який створює нові дані, і дискримінатора, який намагається визначити, чи є ці дані реальними або згенерованими. Дифузійні моделі працюють шляхом додавання шуму до доступних навчальних даних, а потім обертають процес для відновлення даних.

Останні новини:  NASA виділяє $11,5 млн на розробку літака майбутнього

DMD складається з двох компонентів. Перший упорядковує зображення, роблячи їхні властивості та характеристики більш передбачуваними. У результаті навчання стає стабільнішим. Другий гарантує, що ймовірність генерації певного зображення моделлю-“учнем” відповідає тому, як часто таке зображення зустрічається в реальному світі. Для цього використовуються спеціальні моделі дифузії, які допомагають системі відрізнити справжні зображення від згенерованих.

Система досягає більш швидкої генерації, оскільки мережа-“учень” навчається мінімізувати розбіжності між згенерованими нею зображеннями та зображеннями з навчального набору даних, що використовується традиційними моделями дифузії.

Вчені скопіювали і налаштували параметри вихідних моделей, що дало їм змогу швидко навчити нову модель-“учня”. Так, як “вчителя” використовували Stable Diffusion v1.5. Дослідники ніби стиснули знання складнішої моделі-“вчителя” в простішу і швидшу модель, обходячи проблеми, властиві генеративно-змагальним мережам. Використовуючи ту саму архітектуру, ця модель могла генерувати високоякісні зображення. Комбінуючи різні методи оптимізації на основі оригінальної архітектури, можна було прискорити генерацію.

Останні новини:  Творці ChatGPT планують випустити власний браузер

Новий метод дозволив генерувати візуальний контент за один крок. За словами авторів дослідження, зменшення кількості ітерацій було “Святим Граалем” дифузійних моделей з моменту їхнього створення. Порівнюючи зі звичайними методами з використанням безлічі тестів DMD показав стабільну продуктивність. Це перший метод одноетапної генерації, який створює зображення практично на одному рівні із зображеннями вихідних, складніших моделей. Крім того, DMD справляється з перетворенням тексту в зображення в промисловому масштабі. Однак у складніших завданнях перетворення тексту в картинки все ще існує невелика різниця в якості.




Ще одна проблема полягає в тому, що якість зображень, створених за допомогою DMD, переймає недоліки моделі-“вчителя”, використовуваної в процесі навчання. У поточній формі, де в якості “вчителя” виступала Stable Diffusion v1.5, модель-“учень” успадковує обмеження в детальній візуалізації тексту та облич. Тому зображення, згенеровані DMD, можна додатково поліпшити за допомогою більш просунутих моделей-“вчителів”.

Останні новини:  NASA виділяє $11,5 млн на розробку літака майбутнього


cikavosti.com