Qwen: Qwen3 VL 30B A3B Instruct

qwen/qwen3-vl-30b-a3b-instruct

Опис

Qwen3-VL-30B-A3B-Instruct — це мультимодальна модель, яка поєднує потужну генерацію тексту з візуальним розумінням для зображень та відео. Її варіант Instruct оптимізує виконання інструкцій для загальних мультимодальних завдань. Вона чудово справляється з розпізнаванням реальних/синтетичних категорій, просторовою прив'язкою 2D/3D та глибоким візуальним розумінням, досягаючи конкурентних результатів у мультимодальних бенчмарках. Для використання в агентних системах, вона обробляє багатозображувальні багатоетапні інструкції, вирівнювання часових шкал відео, автоматизацію графічного інтерфейсу та візуальне кодування від ескізів до налагодженого інтерфейсу. Продуктивність тексту відповідає флагманським моделям Qwen3, що робить її придатною для штучного інтелекту документів, оптичного розпізнавання символів (OCR), допомоги з інтерфейсом користувача, просторових завдань та досліджень агентних систем.

Порівняння з каталогом

Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.

Ціна (за 1M токенів)

Мін
Макс
Ця модель
339 моделей у цій групіЦіна (за 1M токенів)
Мін
0,04 USD
Сер
12,395447 USD
Макс
750,00 USD
Ця модель: 0,52 USD / 1M токенів

Довжина контексту (токени)

Мін
Макс
Ця модель
339 моделей у цій групіДовжина контексту (токени)
Мін
4 095 токенів
Сер
379 884,782 токенів
Макс
10 000 000 токенів
Ця модель: 262 144 токенів

Можливості

Текст + Зображення → ТекстКонтекст: 131,072 токенів
Вхід:
ТекстЗображення
Вихід:
Текст
    Qwen: Qwen3 VL 30B A3B Instruct