Qwen: Qwen3 VL 235B A22B Instruct

qwen/qwen3-vl-235b-a22b-instruct

Опис

Qwen3-VL-235B-A22B Instruct — це відкрита мультимодальна модель, яка поєднує потужну генерацію тексту з візуальним розумінням зображень та відео. Модель Instruct орієнтована на загальне використання зору та мови (VQA, аналіз документів, вилучення діаграм/таблиць, багатомовне оптичне розпізнавання символів). Серія акцентує увагу на надійному сприйнятті (розпізнавання різноманітних реальних та синтетичних категорій), просторовому розумінні (2D/3D позиціонування) та довгостроковому візуальному сприйнятті, демонструючи конкурентні результати на публічних мультимодальних бенчмарках як для сприйняття, так і для міркування. Крім аналізу, Qwen3-VL підтримує агентну взаємодію та використання інструментів: вона може виконувати складні інструкції у багатозображенкових, багатоетапних діалогах; синхронізувати текст з часовими шкалами відео для точних часових запитів; та керувати елементами графічного інтерфейсу для завдань автоматизації. Моделі також дозволяють візуальні робочі процеси кодування — перетворюючи ескізи або макети на код та допомагаючи з налагодженням інтерфейсу користувача — зберігаючи при цьому високу продуктивність лише для тексту, порівнянну з флагманськими мовними моделями Qwen3. Це робить Qwen3-VL придатною для виробничих сценаріїв, що охоплюють ШІ для документів, багатомовне оптичне розпізнавання символів, допомогу в програмному забезпеченні/інтерфейсі, просторові/тілесні завдання та дослідження візуально-мовних агентів.

Порівняння з каталогом

Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.

Ціна (за 1M токенів)

Мін
Макс
Ця модель
336 моделей у цій групіЦіна (за 1M токенів)
Мін
0,04 USD
Сер
12,383596 USD
Макс
750,00 USD
Ця модель: 0,88 USD / 1M токенів

Довжина контексту (токени)

Мін
Макс
Ця модель
336 моделей у цій групіДовжина контексту (токени)
Мін
4 095 токенів
Сер
382 115,467 токенів
Макс
10 000 000 токенів
Ця модель: 262 144 токенів

Можливості

Текст + Зображення → ТекстКонтекст: 262,144 токенів
Вхід:
ТекстЗображення
Вихід:
Текст