На минулому тижні Meta випустила нову модель штучного інтелекту Llama 3.1 405B. Компанія одразу стала позиціонувати її як найпотужнішу модель з відкритим кодом, яка знаходиться у вільному доступі.
Чим відрізняється відкрита модель від закритої? Що може Llama 3.1 405B від Meta? І як ця новинка вплине на розвиток штучного інтелекту в майбутньому? Редакція ІT-News надала відповіді на ці та інші питання.
Архітектура моделі
Перше чим відрізняється нова модель штучного інтелекту Llama від Meta — її архітектура та процес навчання. Llama 3.1 405B складається з декодера, який підтримує стабільність навчання.
Модель навчалася на 15 трильйонах токенів. Щоб уможливити процес обробки інформації такого масштабу навчання було перенесено на 16 тисяч графічних процесорів H100, а саму модель квантували з 16-бітної до 8-бітної.
Процес навчання проводився в два етапи:
-
Попереднє навчання. Дослідники токенізували текстові матеріали та змушували LLM виконувати спеціальні завдання, для розуміння структури мови.
-
Пост-тренування. Розробники проводили тонке налаштування моделі, вирівнюючи її реакцію на інформаційні запити.
Особливу увагу приділили чату. Контекстне вікно моделі збільшили до 128 тисяч токенів. Це значить, що Llama 3.1 405B краще розуміє великі тексти та правильно оцінює контекст.
Наскільки модель Llama 3.1 405B потужна
Щоб оцінити продуктивність було використано 150 тисяч еталонних наборів даних. Результати показали, що модель з відкритим кодом Llama 3.1 405B може конкурувати з провідними моделями з закритим кодом, такими як GPT-4 та Claude 3.5 Sonnet.
Користь користувачам
Llama 3.1 405B отримала 405 мільярдів параметрів. Вона показує відмінні навички в роботі з загальними знаннями, нею легко керувати. Модель чудово розуміє складні контексти, знає вісім мов та може вирішувати математичні рівняння. Вона швидко генерує текст, може підсумувати великі об’єми даних та швидко реагує на запити користувачів. Це робить її незамінним помічником в роботі та навчанні.
Вигідний інструмент для розробників
Llama 3.1 405B може створювати синтетичні дані. Завдяки ним можна швидко навчати нові моделі генеративного ШІ. Окрім цього Llama 3.1 наділена модельною дистиляцією, що дозволяє переносити її функції в інші моделі штучного інтелекту.
Llama 3.1 405B може підключатися до зовнішніх інструментів, щоб розширювати свої можливості. Наприклад, використовувати інструменти для оптимізації пошуку, написання коду тощо.
Чи стане Llama 3.1 405B рушієм прогресу
В Meta зазначають, що запуск Llama 3.1 405B прискорить розвиток інновацій, адже вона надає безпрецедентні можливості для швидкої розробки програмних забезпечень.
Модель штучного інтелекту з відкритим кодом відрізняється тим, що її архітектуру можна скопіювати та змінити при потребі. Llama 3.1 405B може працювати на одному сервері в середовищі розробника, а це значить, що інформація яку обробляє ця модель не потрапить на загальний сервер розробника та не буде умисно, чи не умисно, використана.
Llama 3.1 405B, здатна створювати синтетичні дані, які можна використовувати для створення нових моделей ШІ з унікальними функціями.
Відкритий код гарантує, що більше людей матимуть доступ до генеративних функцій штучного інтелекту. В свою чергу більше користувачів отримають унікальні можливості для створення та інтеграції інноваційних інструментів.