Qwen: Qwen3 VL 8B Thinking

Qwen3-VL-8B-Thinking є оптимізованим для міркувань варіантом мультимодальної моделі Qwen3-VL-8B, розробленим для розширеного візуального та текстового аналізу в складних сценах, документах та часових послідовностях. Він інтегрує покращене мультимодальне вирівнювання та обробку довгого контексту (власні 256 тис., розширювані до 1 млн токенів) для таких завдань, як науковий візуальний аналіз, причинно-наслідковий висновок та математичні міркування на основі зображень або відеовходів. Порівняно з версією Instruct, версія Thinking запроваджує глибше візуально-мовне злиття та шляхи цілеспрямованих міркувань, які покращують продуктивність у завданнях з довголанцюговою логікою, вирішенні проблем STEM та багатоетапному розумінні відео. Він досягає сильнішого часового прив'язування за допомогою Interleaved-MRoPE та вбудовувань, що враховують часові мітки, зберігаючи при цьому надійне оптичне розпізнавання символів (OCR), багатомовне розуміння та генерацію тексту на рівні з великими текстовими LLM.

Qwen: Qwen3 VL 8B Thinking

Опис

Порівняння з каталогом

Ціна (за 1M токенів)

Довжина контексту (токени)

Можливості