🔮
通义千问-VL Max
阿里云 · 多模态
📝 简介
通义千问多模态版本,支持图像和视频理解,中文场景表现优异。
✨ 核心特性
✓图像理解
✓视频理解
✓中文OCR
✓文档解析
✓多轮对话
💰 定价信息
计费模式按量计费
输入价格¥2.8 / 百万tokens
输出价格¥2.8 / 百万tokens
📊 性能评分
速度
8
质量
8.5
4.4
★★★★
345 条评测
综合评分基于用户反馈和各项性能指标
📋 详细信息
厂商阿里云
分类多模态
发布日期2024-09-01
最近更新2025-02-01
支持语言中文、英文
上下文窗口—
🔗 同类模型
🔮
GPT-4o Vision
OpenAI
GPT-4o的视觉理解能力,可分析图片、截图、文档,理解复杂视觉内容。
★ 4.7·890 评测
🔮
Gemini Pro Vision
Google
Google多模态大模型,支持图像理解、视频分析和图文混合推理。
★ 4.6·892 评测
🔮
Claude 3 Vision
Anthropic
Anthropic多模态模型,擅长复杂图像分析和图文结合推理任务。
★ 4.7·1023 评测
🔮
GLM-4V
智谱AI
智谱AI多模态大模型,支持图像理解、视觉问答和图文创作。
★ 4.4·567 评测
🔮
百度文心一格VL
百度
百度文心系列多模态模型,支持图像理解与中文视觉问答。
★ 4.2·412 评测
🔮
LLaVA
开源社区
开源多模态大语言模型,将视觉编码器与LLM结合实现视觉推理。
★ 4.3·678 评测
💬 用户评测 (0)
📝
暂无评测,成为第一个分享使用体验的人吧!