NVIDIA: Nemotron Nano 12B 2 VL (free)

nvidia/nemotron-nano-12b-v2-vl:free

Опис

NVIDIA Nemotron Nano 2 VL – це відкрита мультимодальна модель міркування з 12 мільярдами параметрів, розроблена для розуміння відео та інтелектуальної обробки документів. Вона представляє гібридну архітектуру Transformer-Mamba, що поєднує точність рівня Transformer з пам'яттю-ефективним моделюванням послідовностей Mamba для значно вищої пропускної здатності та нижчої затримки. Модель підтримує введення тексту та багатозображувальних документів, генеруючи вивід природною мовою. Вона навчена на високоякісних синтетичних наборах даних, відібраних NVIDIA, оптимізованих для оптичного розпізнавання символів, аналізу діаграм та мультимодального розуміння. Nemotron Nano 2 VL досягає провідних результатів на OCRBench v2 та отримує в середньому ≈ 74 бали на MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA та Video-MME — перевершуючи попередні відкриті VL базові моделі. Завдяки ефективній вибірці відео (EVS) вона обробляє довгі відео, одночасно знижуючи витрати на виведення. Відкриті ваги, навчальні дані та рецепти тонкого налаштування випущені під дозволеною відкритою ліцензією NVIDIA, з підтримкою розгортання через NeMo, NIM та основні середовища виконання висновків.

Порівняння з каталогом

Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.

Ціна (за 1M токенів)

Мін
Макс
Ця модель
339 моделей у цій групіЦіна (за 1M токенів)
Мін
0,04 USD
Сер
12,395447 USD
Макс
750,00 USD
Ця модель: 0,00 USD / 1M токенів

Довжина контексту (токени)

Мін
Макс
Ця модель
339 моделей у цій групіДовжина контексту (токени)
Мін
4 095 токенів
Сер
379 884,782 токенів
Макс
10 000 000 токенів
Ця модель: 128 000 токенів

Можливості

text+image+video->textКонтекст: 128,000 токенів
Вхід:
ЗображенняТекстВідео
Вихід:
Текст
    NVIDIA: Nemotron Nano 12B 2 VL (free)