Qwen: Qwen3 VL 8B Instruct
qwen/qwen3-vl-8b-instruct
Опис
Qwen3-VL-8B-Instruct — це мультимодальна візуально-мовна модель із серії Qwen3-VL, розроблена для високоточного розуміння та міркування з текстом, зображеннями та відео. Вона характеризується покращеною мультимодальною інтеграцією за допомогою Interleaved-MRoPE для довгострокового часового міркування, DeepStack для деталізованого візуально-текстового вирівнювання та вирівнювання тексту за часовими мітками для точної локалізації подій.
Модель підтримує нативне контекстне вікно на 256 тисяч токенів, що розширюється до 1 мільйона токенів, і обробляє як статичні, так і динамічні медіа-вхідні дані для таких завдань, як аналіз документів, візуальні запитання-відповіді, просторове міркування та керування графічним інтерфейсом. Вона досягає розуміння тексту, порівнянного з провідними великими мовними моделями (LLM), одночасно розширюючи покриття оптичного розпізнавання символів (OCR) до 32 мов та підвищуючи стійкість в різних візуальних умовах.
Порівняння з каталогом
Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.
Ціна (за 1M токенів)
Мін
Макс
Ця модель
336 моделей у цій групіЦіна (за 1M токенів)
- Мін
- 0,04 USD
- Сер
- 12,385977 USD
- Макс
- 750,00 USD
Ця модель: 0,50 USD / 1M токенів
Довжина контексту (токени)
Мін
Макс
Ця модель
336 моделей у цій групіДовжина контексту (токени)
- Мін
- 4 095 токенів
- Сер
- 382 115,467 токенів
- Макс
- 10 000 000 токенів
Ця модель: 256 000 токенів
Можливості
Текст + Зображення → ТекстКонтекст: 131,072 токенів
Вхід:
ЗображенняТекст
Вихід:
Текст