小米 MiMo-V2.5 系列 vs DeepSeek V4 性价比分析

Pro 旗舰级定价完全一致,标准级小米凭多模态实现差异化优势

小米 5 月 27 日降价与 DeepSeek 5 月 22 日宣布的永久降价!!!


一、降价后完整定价对比

计费项MiMo-V2.5-ProDeepSeek V4-ProMiMo-V2.5(标准版)DeepSeek V4-Flash
输入(缓存命中)0.025 元0.025 元0.020 元0.02 元
输入(缓存未命中)3 元3 元1 元1 元
输出6 元6 元2 元2 元
上下文窗口1M1M1M1M
多模态纯文本纯文本图像/音频/视频纯文本
开源协议MITMITMITMIT

数据来源:MiMo 官方调价公告 DeepSeek 官方定价页

两个层级的定价几乎完全镜像:Pro 级别三项单价完全一致,标准/Flash 级别也完全一致。但这里有一个关键差异——MiMo-V2.5 标准版是原生全模态模型(支持图像、音频、视频理解),而 DeepSeek V4-Flash 只是轻量级纯文本模型。同样的价格,小米给了多模态能力。


二、小米独有的成本优化机制

Token Plan 计费体系升级是小米本次降价的隐性加分项,很容易被忽略:

  • 同等价格下可用 tokens 提升至原方案的 5-8 倍
  • 引入 Credits 统一计量,计费规则”所见即所得”
  • 所有有效期内的 Token Plan 用户 Credits 于 5 月 27 日 0:00 全量重置
  • 北京时间 00:00~08:00 期间,所有模型 Credits 消耗速率再打 8 折

这意味着如果你使用 Token Plan 订阅制,小米的实际单位成本还会进一步降低。DeepSeek 目前没有同等规模的订阅优惠体系。

上下文窗口不再区分定价也是重要改进。此前小米对 256K 以上的长上下文窗口收取双倍价格,现在一律同价,这对 Agent 场景(经常需要长上下文)是直接利好。


三、性能与能力对比

根据独立第三方 Artificial Analysis Intelligence Index v4.0(截至 2026 年 5 月 6 日)的数据:

评测维度MiMo-V2.5-ProDeepSeek V4-Pro优势方
AA Intelligence Index54 分(并列开源第 1)52 分(并列第 2)MiMo
GDPval-AA Agent并列开源第 1并列开源第 1持平
ClawEval(长程 Agent)63.8%59.8%MiMo
τ³-bench(跨任务协作)72.9%71.8%MiMo
SWE-bench Verified78.9%80.6%DeepSeek
SWE-bench Pro(复杂工程)57.2%55.4%MiMo
LiveCodeBench Pass@193.5%DeepSeek
Codeforces Rating3206(人类第 23)DeepSeek
Terminal-Bench 2.068.4%67.9%MiMo
幻觉率(AA-Omniscience)暂无数据94%(极高)MiMo 无数据但 DS 确认高

数据来源:CSDN 技术博客 搜狐

Token 效率是 MiMo 的重要差异化优势。MiMo-V2.5-Pro 在 Agent 长程任务中比 Kimi K2.6 节省约 42% Token,在 ClawEval 评测中比 Claude Opus 4.6、Gemini 3.1 Pro 节省 40%~60%。由于 Agent 任务 token 消耗指数级增长,省 token 直接等于省真金白银——在相同定价下,MiMo 完成同等任务的实际花费更低。


四、场景化性价比结论

场景 1:Agent 自动化与长程工作流(多步工具调用、代码工程 Agent)
推荐 MiMo-V2.5-Pro。Agent 能力在第三方评测中领先,Token 效率更高意味着实际成本更低,响应速度更快。小米取消上下文窗口差异化定价后,Agent 场景的长上下文调用不再有价格惩罚。

场景 2:竞赛编程与深度数学推理
推荐 DeepSeek V4-Pro。LiveCodeBench 93.5% 和 Codeforces 3206 分是开源最强,思考时间更长但推理深度更深。不过需要注意 94% 的幻觉率在可靠性要求高的场景中是硬伤。

场景 3:多模态任务(图像理解、音视频处理、办公自动化)
推荐 MiMo-V2.5(标准版)。DeepSeek V4 全系为纯文本模型,而 MiMo-V2.5 标准版原生支持图像/音频/视频理解,输出价格仅 2 元/百万 tokens,同等价位下 DeepSeek V4-Flash 只能处理文本。

场景 4:高频轻量调用与批量处理
MiMo-V2.5 标准版与 DeepSeek V4-Flash 定价完全相同(0.02 / 1 / 2),但 MiMo-V2.5 多模态能力覆盖更广,且 Token Plan 订阅可进一步压低成本。如果纯文本且高频调用,V4-Flash 也是可靠选择。

场景 5:订阅制与大用量部署
MiMo 占优。Token Plan 体系下同等价格可用 tokens 提升 5~8 倍,加上凌晨 8 折优惠和 Credits 全量重置,大规模部署的实际单位成本显著低于按量计费的 DeepSeek。


五、总结判断

在 Pro 级别,两家定价完全相同,性价比之争完全回归到能力差异:MiMo-V2.5-Pro 综合评分更高(54 vs 52),Agent 和 Token 效率领先;DeepSeek V4-Pro 在纯编程和数学推理上更强,但幻觉率是重大隐患。

在标准级,同样是相同定价,但 MiMo-V2.5 标准版凭多模态能力实现了真正的差异化——同样的 2 元输出价格,小米给的是图像/音频/视频全模态模型,DeepSeek V4-Flash 只是轻量纯文本模型。

叠加 Token Plan 5~8 倍加量、取消上下文窗口差异化定价、凌晨 8 折等优惠机制,小米 MiMo-V2.5 系列在整体性价比上略胜一筹,尤其对于 Agent 场景、多模态需求和订阅制用户。但如果你是竞赛编程或需要极致数学推理深度的用户,DeepSeek V4-Pro 仍然是更专业的工具。

DeepSeek-V4-Pro 2.5折

模型 & 价格

下表所列模型价格以“百万 tokens”为单位。Token 是模型用来表示自然语言文本的的最小单位,可以是一个词、一个数字或一个标点符号等。我们将根据模型输入和输出的总 token 数进行计量计费。

模型细节

模型deepseek-v4-flash(1)deepseek-v4-pro
BASE URL (OpenAI 格式)https://api.deepseek.com
BASE URL (Anthropic 格式)https://api.deepseek.com/anthropic
模型版本DeepSeek-V4-FlashDeepSeek-V4-Pro
思考模式支持非思考与思考模式(默认)
切换方式详见思考模式
上下文长度1M
输出长度最大 384K
功能Json Output支持支持
Tool Calls支持支持
对话前缀续写(Beta)支持支持
FIM 补全(Beta)仅非思考模式支持仅非思考模式支持
价格百万tokens输入(缓存命中)(2)0.02元0.025元(限时2.5折(3)0.1元
百万tokens输入(缓存未命中)1元3元(限时2.5折(3)12元
百万tokens输出2元6元(限时2.5折(3)24元

(1) deepseek-chat 与 deepseek-reasoner 两个模型名将于日后弃用。出于兼容考虑,二者分别对应 deepseek-v4-flash 的非思考与思考模式。
(2) 全系列模型,输入缓存命中的价格已降至首发价格的 1/10。
(3) 当前 deepseek-v4-pro 模型限时 2.5 折,优惠期至北京时间 2026/05/31 23:59。

扣费规则

扣减费用 = token 消耗量 × 模型单价,对应的费用将直接从充值余额或赠送余额中进行扣减。 当充值余额与赠送余额同时存在时,优先扣减赠送余额。

产品价格可能发生变动,DeepSeek 保留修改价格的权利。请您依据实际用量按需充值,定期查看此页面以获知最新价格信息。

Vibe Coding

贴身精髓

  • 用AI工具减少重复劳动
  • 专注于创意和业务逻辑
  • 快速验证想法

要点分析:

? 效率提升

  • 减少检索时间 → 专注核心问题
  • 效率大幅提升 → 快速迭代验证

? 技术简化

  • 降低技术复杂性 → 降低门槛
  • 技术大同 → 统一标准,减少选择困难

? 创新探索

  • 探索未知可能 → 更多创意实现
  • 便利性更佳 → 更好的开发体验

Hermes Agent:会”成长”的数字同事

一个边干边学的新人

  • 每完成15个任务,他会自己复盘总结,把经验变成新技能
  • 三月份刚开始处理客服,六月份就已经熟练很多了
  • 你不需要手动更新他的”手册”,他自己会进化
  • 适合长期运营的业务场景

优势:越用越强,有”复利效应”

Anthropic 最新 Claude 模型用两周为 Firefox 挖出 22 个漏洞

Anthropic 近日公布了一项与 Mozilla 的安全合作成果:其大模型 Claude Opus 4.6 在短短两周内发现了浏览器 Mozilla Firefox 中的 22 个安全漏洞,其中 14 个被评为高危漏洞,显示出 AI 在软件安全审计中的潜力。

根据官方披露,这项合作属于 Mozilla 与 Anthropic 开展的安全研究项目。研究人员让 Claude Opus 4.6 在受控环境中分析 Firefox 代码和组件,结果在两周内发现 22 个此前未知的漏洞。

其中:

  • 14 个漏洞被认定为高严重级别
  • 约占 2025 年全年 Firefox 高危漏洞修复数量的近五分之一
  • 这些漏洞大多已在 Firefox 148 等版本中得到修复

研究团队指出,这一发现速度远高于传统人工安全审计,显示 AI 可以显著加速漏洞挖掘流程。除了安全漏洞之外,Claude 还检测到了约 90 个其他类型的软件问题,包括断言失败、逻辑错误等。其中一部分问题与传统模糊测试(fuzzing)能够发现的类型重叠,但也有一些新的逻辑错误类别 是此前自动化测试工具没有发现过的。

研究团队还进一步测试了 Claude 的能力:向模型提供已发现漏洞的细节,以及要求其尝试生成可利用的攻击代码(exploit)。

结果显示,在数百次实验、约 4000 美元 API 成本的测试中,Claude 成功将漏洞转化为可利用攻击的情况只有两次。这表明 AI 在漏洞发现方面表现突出,但在稳定生成攻击利用方面仍然有限,需要人工研究者参与验证。Anthropic 认为,这次合作说明大型语言模型可以成为安全研究人员的 “加速器”:

  • 自动探索复杂代码库
  • 提供可复现的漏洞测试用例
  • 帮助安全团队更快定位问题

Mozilla 方面也表示,AI 辅助安全测试未来可能成为浏览器开发流程的一部分。

https://www.oschina.net/news/409110/anthropic-mozilla-firefox-security

GPT-5.3-Codex最强Agentic Coding模型

OpenAI 最新发布了 GPT-5.3-Codex,这是一个专注于 Agentic Coding 的强大模型。

✨ 主要特性

性能提升

  • 速度:比 GPT-5.2-Codex 快约 25%
  • 基准测试:在 SWE-Bench Pro、Terminal-Bench、OSWorld 等多个测试中表现领先
  • 能力范围:不仅限于代码生成,还能处理复杂任务和长上下文理解

交互体验

  • 支持实时交互和工作中反馈
  • 可以在任务执行过程中进行提问、修正和调整
  • 更像是一个可以持续沟通的工作伙伴

功能扩展

  • 自动化调试、部署和监控
  • 撰写产品需求文档和测试方案
  • 处理数据分析和用户研究
  • 制作表格和演示文稿

? 安全特性

  • 被定义为网络安全领域的高能力模型
  • 推出了 “Trusted Access for Cyber” 安全访问计划
  • 包含身份验证和自动监控机制
  • 帮助合法组织发现和修复漏洞

? 使用方式

  • Codex 桌面/网页版客户端
  • 命令行工具(CLI)
  • IDE 扩展插件
  • ChatGPT 付费计划

? 个人思考

这个模型在研发过程中参与了自身的训练和测试,自举式开发方式很有意思。从代码生成工具演变为通用工作助手,代表AI 编程工具的发展方向。