Qwen: Qwen3 VL 32B Instruct

qwen/qwen3-vl-32b-instruct

Опис

Qwen3-VL-32B-Instruct — це великомасштабна мультимодальна візуально-мовна модель, розроблена для високоточного розуміння та міркування щодо тексту, зображень і відео. Завдяки 32 мільярдам параметрів вона поєднує глибоке візуальне сприйняття з розширеним розумінням тексту, забезпечуючи точне просторове міркування, аналіз документів і сцен, а також довгострокове розуміння відео. Надійна оптична розпізнавання символів (OCR) 32 мовами та покращена мультимодальна інтеграція завдяки архітектурам Interleaved-MRoPE та DeepStack. Оптимізована для агентської взаємодії та використання візуальних інструментів, Qwen3-VL-32B забезпечує найсучаснішу продуктивність для складних реальних мультимодальних завдань.

Порівняння з каталогом

Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.

Ціна (за 1M токенів)

Мін
Макс
Ця модель
336 моделей у цій групіЦіна (за 1M токенів)
Мін
0,04 USD
Сер
12,381012 USD
Макс
750,00 USD
Ця модель: 0,416 USD / 1M токенів

Довжина контексту (токени)

Мін
Макс
Ця модель
336 моделей у цій групіДовжина контексту (токени)
Мін
4 095 токенів
Сер
382 115,467 токенів
Макс
10 000 000 токенів
Ця модель: 262 144 токенів

Можливості

Текст + Зображення → ТекстКонтекст: 131,072 токенів
Вхід:
ТекстЗображення
Вихід:
Текст
    Qwen: Qwen3 VL 32B Instruct