Qwen: Qwen3 VL 8B Thinking
qwen/qwen3-vl-8b-thinking
Опис
Qwen3-VL-8B-Thinking є оптимізованим для міркувань варіантом мультимодальної моделі Qwen3-VL-8B, розробленим для розширеного візуального та текстового аналізу в складних сценах, документах та часових послідовностях. Він інтегрує покращене мультимодальне вирівнювання та обробку довгого контексту (власні 256 тис., розширювані до 1 млн токенів) для таких завдань, як науковий візуальний аналіз, причинно-наслідковий висновок та математичні міркування на основі зображень або відеовходів.
Порівняно з версією Instruct, версія Thinking запроваджує глибше візуально-мовне злиття та шляхи цілеспрямованих міркувань, які покращують продуктивність у завданнях з довголанцюговою логікою, вирішенні проблем STEM та багатоетапному розумінні відео. Він досягає сильнішого часового прив'язування за допомогою Interleaved-MRoPE та вбудовувань, що враховують часові мітки, зберігаючи при цьому надійне оптичне розпізнавання символів (OCR), багатомовне розуміння та генерацію тексту на рівні з великими текстовими LLM.
Порівняння з каталогом
Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.
Ціна (за 1M токенів)
Мін
Макс
Ця модель
336 моделей у цій групіЦіна (за 1M токенів)
- Мін
- 0,04 USD
- Сер
- 12,381012 USD
- Макс
- 750,00 USD
Ця модель: 1,365 USD / 1M токенів
Довжина контексту (токени)
Мін
Макс
Ця модель
336 моделей у цій групіДовжина контексту (токени)
- Мін
- 4 095 токенів
- Сер
- 382 115,467 токенів
- Макс
- 10 000 000 токенів
Ця модель: 256 000 токенів
Можливості
Текст + Зображення → ТекстКонтекст: 131,072 токенів
Вхід:
ЗображенняТекст
Вихід:
Текст