Meta: Llama 3.2 11B Vision Instruct
meta-llama/llama-3.2-11b-vision-instruct
Опис
Llama 3.2 11B Vision — це мультимодальна модель з 11 мільярдами параметрів, розроблена для виконання завдань, що поєднують візуальні та текстові дані. Вона відмінно справляється з такими завданнями, як генерування підписів до зображень та відповіді на візуальні питання, долаючи розрив між генерацією мови та візуальним мисленням. Попередньо навчена на величезному наборі даних пар зображень і тексту, вона добре працює в складному та високоточному аналізі зображень.
Її здатність інтегрувати візуальне розуміння з обробкою мови робить її ідеальним рішенням для галузей, що потребують комплексних візуально-лінгвістичних ШІ-додатків, таких як створення контенту, ШІ-орієнтоване обслуговування клієнтів та дослідження.
Порівняння з каталогом
Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.
Ціна (за 1M токенів)
Мін
Макс
Ця модель
339 моделей у цій групіЦіна (за 1M токенів)
- Мін
- 0,04 USD
- Сер
- 12,395447 USD
- Макс
- 750,00 USD
Ця модель: 0,245 USD / 1M токенів
Довжина контексту (токени)
Мін
Макс
Ця модель
339 моделей у цій групіДовжина контексту (токени)
- Мін
- 4 095 токенів
- Сер
- 379 884,782 токенів
- Макс
- 10 000 000 токенів
Ця модель: 131 072 токенів
Можливості
Текст + Зображення → ТекстКонтекст: 131,072 токенів
Вхід:
ТекстЗображення
Вихід:
Текст