Qwen: Qwen3 VL 8B Instruct

Qwen3-VL-8B-Instruct — це мультимодальна візуально-мовна модель із серії Qwen3-VL, розроблена для високоточного розуміння та міркування з текстом, зображеннями та відео. Вона характеризується покращеною мультимодальною інтеграцією за допомогою Interleaved-MRoPE для довгострокового часового міркування, DeepStack для деталізованого візуально-текстового вирівнювання та вирівнювання тексту за часовими мітками для точної локалізації подій. Модель підтримує нативне контекстне вікно на 256 тисяч токенів, що розширюється до 1 мільйона токенів, і обробляє як статичні, так і динамічні медіа-вхідні дані для таких завдань, як аналіз документів, візуальні запитання-відповіді, просторове міркування та керування графічним інтерфейсом. Вона досягає розуміння тексту, порівнянного з провідними великими мовними моделями (LLM), одночасно розширюючи покриття оптичного розпізнавання символів (OCR) до 32 мов та підвищуючи стійкість в різних візуальних умовах.

Qwen: Qwen3 VL 8B Instruct

Опис

Порівняння з каталогом

Ціна (за 1M токенів)

Довжина контексту (токени)

Можливості