Baidu: ERNIE 4.5 VL 424B A47B

baidu/ernie-4.5-vl-424b-a47b

Опис

ERNIE-4.5-VL-424B-A47B — це мультимодальна модель Mixture-of-Experts (MoE) із серії ERNIE 4.5 від Baidu, що має 424 мільярди загальних параметрів з 47 мільярдами активних на один токен. Вона навчається спільно на текстових та графічних даних з використанням гетерогенної архітектури MoE та маршрутизації, ізольованої за модальностями, щоб забезпечити високоякісне крос-модальне міркування, розуміння зображень та генерацію довгого контексту (до 131 тисячі токенів). Модель тонко налаштована за допомогою таких методів, як SFT, DPO, UPO та RLVR, і підтримує режими виведення як з "мисленням", так і без. Розроблена для завдань бачення-мови англійською та китайською мовами, вона оптимізована для ефективного масштабування та може працювати з 4-бітною/8-бітною квантизацією.

Порівняння з каталогом

Загалом — увесь каталог. За тарифом — лише моделі, доступні на цьому рівні (ті самі правила, що й «доступні» у списку). Позиція в діапазоні мін–середнє–макс. Ціна — більша з prompt або completion за токен, за 1M токенів.

Ціна (за 1M токенів)

Мін
Макс
Ця модель
336 моделей у цій групіЦіна (за 1M токенів)
Мін
0,04 USD
Сер
12,385977 USD
Макс
750,00 USD
Ця модель: 1,25 USD / 1M токенів

Довжина контексту (токени)

Мін
Макс
Ця модель
336 моделей у цій групіДовжина контексту (токени)
Мін
4 095 токенів
Сер
382 115,467 токенів
Макс
10 000 000 токенів
Ця модель: 131 072 токенів

Можливості

Текст + Зображення → ТекстКонтекст: 123,000 токенів
Вхід:
ЗображенняТекст
Вихід:
Текст
    Baidu: ERNIE 4.5 VL 424B A47B