AI 大模型 – 第 2 页 – 东方无解

2026年3月10日2026年6月13日

Anthropic 最新 Claude 模型用两周为 Firefox 挖出 22 个漏洞

Anthropic 近日公布了一项与 Mozilla 的安全合作成果：其大模型 Claude Opus 4.6 在短短两周内发现了浏览器 Mozilla Firefox 中的 22 个安全漏洞，其中 14 个被评为高危漏洞，显示出 AI 在软件安全审计中的潜力。

根据官方披露，这项合作属于 Mozilla 与 Anthropic 开展的安全研究项目。研究人员让 Claude Opus 4.6 在受控环境中分析 Firefox 代码和组件，结果在两周内发现 22 个此前未知的漏洞。

其中：

14 个漏洞被认定为高严重级别
约占 2025 年全年 Firefox 高危漏洞修复数量的近五分之一
这些漏洞大多已在 Firefox 148 等版本中得到修复

研究团队指出，这一发现速度远高于传统人工安全审计，显示 AI 可以显著加速漏洞挖掘流程。除了安全漏洞之外，Claude 还检测到了约 90 个其他类型的软件问题，包括断言失败、逻辑错误等。其中一部分问题与传统模糊测试（fuzzing）能够发现的类型重叠，但也有一些新的逻辑错误类别是此前自动化测试工具没有发现过的。

研究团队还进一步测试了 Claude 的能力：向模型提供已发现漏洞的细节，以及要求其尝试生成可利用的攻击代码（exploit）。

结果显示，在数百次实验、约 4000 美元 API 成本的测试中，Claude 成功将漏洞转化为可利用攻击的情况只有两次。这表明 AI 在漏洞发现方面表现突出，但在稳定生成攻击利用方面仍然有限，需要人工研究者参与验证。Anthropic 认为，这次合作说明大型语言模型可以成为安全研究人员的 “加速器”：

自动探索复杂代码库
提供可复现的漏洞测试用例
帮助安全团队更快定位问题

Mozilla 方面也表示，AI 辅助安全测试未来可能成为浏览器开发流程的一部分。

https://www.oschina.net/news/409110/anthropic-mozilla-firefox-security

2026年2月10日2026年6月13日

GPT-5.3-Codex最强Agentic Coding模型

OpenAI 最新发布了 GPT-5.3-Codex，这是一个专注于 Agentic Coding 的强大模型。

✨ 主要特性

性能提升

速度：比 GPT-5.2-Codex 快约 25%
基准测试：在 SWE-Bench Pro、Terminal-Bench、OSWorld 等多个测试中表现领先
能力范围：不仅限于代码生成，还能处理复杂任务和长上下文理解

交互体验

支持实时交互和工作中反馈
可以在任务执行过程中进行提问、修正和调整
更像是一个可以持续沟通的工作伙伴

功能扩展

自动化调试、部署和监控
撰写产品需求文档和测试方案
处理数据分析和用户研究
制作表格和演示文稿

? 安全特性

被定义为网络安全领域的高能力模型
推出了 “Trusted Access for Cyber” 安全访问计划
包含身份验证和自动监控机制
帮助合法组织发现和修复漏洞

? 使用方式

Codex 桌面/网页版客户端
命令行工具（CLI）
IDE 扩展插件
ChatGPT 付费计划

? 个人思考

这个模型在研发过程中参与了自身的训练和测试，自举式开发方式很有意思。从代码生成工具演变为通用工作助手，代表AI 编程工具的发展方向。

2025年12月12日2026年6月13日

OpenAI 正式发布 GPT-5.2，为专业知识型工作而打造

OpenAI正式推出GPT-5.2系列模型，涵盖Instant、Thinking与Pro三个版本，显著提升在电子表格制作、代码生成、长文本理解、多步推理及视觉分析等专业任务中的表现。

Instant：强调低延迟与高响应，适配信息查询、文档翻译、基础写作等常规任务
Thinking：聚焦编程、长文档分析、数学推理与项目规划，定位企业级复杂场景的智能助手
Pro：面向科研、金融与高难度任务，强调极致准确性与可靠性，被称为“能力天花板”

GPT-5.2 Thinking在GDPval评测中以70.9%的胜率超越行业专家，幻觉率降低38%，并支持高达256k Token的长上下文处理。

2025年4月15日2026年6月13日

智谱最新的模型

GLM-Z1-AirX（极速版）：定位国内最快推理模型，推理速度可达 200 tokens / 秒，比常规快 8 倍；

GLM-Z1-Air（高性价比版）：价格仅为 DeepSeek-R1 的 1/30，适合高频调用场景；

GLM-Z1-Flash（免费版）：支持免费使用，旨在进一步降低模型使用门槛。

2024年7月29日2026年6月13日

Llama3.1版本

Llama 3.1 的新功能和集成

Llama 3.1 三种规格: 8B、70B 和 405B，适用于不同规模的应用。
引入六个新开源的大型语言模型（LLM）。
支持128K token的上下文长度和8种语言。
在定制GPU集群上训练，总训练量达到15万亿token，总计39.3M GPU小时。
允许使用模型输出来改进其他LLM，包括合成数据生成和蒸馏。

Llama 3.1 的发布及其规格介绍

发布并进入 Hugging Face 平台，与 Meta 合作实现优化集成。
三种规格：8B、70B 和 405B，分别适用于不同规模的应用和场景。
引入了多项新功能，包括指令模型的微调和工具调用支持。

Llama 3.1 的特性、性能及使用分析

包括六个开源LLM模型分为三种规格：8B、70B 和 405B。
两个新模型：Llama Guard 3 和 Prompt Guard，用于保护模型和检测提示注入和越狱。

Llama 3.1 的许可证变动

许可证允许使用模型输出来改进其他LLM，包括合成数据生成和蒸馏。
用户可以使用Llama 3.1 模型生成的数据集来微调更小、更专业的模型。

Llama 3.1 的硬件需求

三种规格在训练和推理中的内存需求各不相同。
运行Llama 3.1 需要考虑硬件资源，特别是内存。