AI HOT 日报 · 2026-05-29 | AIRef

星期五 · 今日共 30 条资讯

模型发布/更新

1. Claude Opus 4.8 发布：在编码、智能体技能与推理方面实现全面升级

Anthropic 发布了新一代模型 Claude Opus 4.8，作为 Opus 4.7 的升级版本，其在编码、智能体技能、推理和实用知识工作等各项基准测试中均取得进步。Claude Opus 4.8 现已可用，价格与前代相同。同步推出的新功能包括：用户可控制任务投入程度、Claude Code 新增“动态工作流”特性，以及 Opus 4.8 的 2.5 倍速模式价格降低为以往的三分之一。早期测试者反馈其在智能体任务中的判断力更可靠、工具调用更高效。该模型在 Online-Mind2Web 测评中得分 84%，超越了 Opus 4.7 和 GPT-5.5。此外，其诚实度与对齐表现也得到提升，代码错误漏检率降低了约 75%。

关键信息：

维度	详情
来源	Anthropic：Newsroom（网页）
链接	查看原文

2. Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练，支持网页开发、调试和 MCP，同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒，定价为输入 $1/m tokens，输出 $2/m tokens。除编码外，它也适用于通用智能体及工具调用场景，并可通过 OpenRouter 和 Vercel AI Gateway 获取。

关键信息：

维度	详情
来源	xAI：News（网页）
链接	查看原文

3. Nano Banana Pro与Nano Banana 2正式发布

🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布，可通过 Gemini API 投入生产使用。查看这些优秀的社区示例，了解两个模型的实际能力 🧵↓

关键信息：

维度	详情
来源	X：Google AI for Developers (@googleaidevs)
链接	查看原文

4. 商汤发布信息图生成模型升级，增强多项核心能力

商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B，在四个关键维度进行了优化：文本准确性与可读性增强，减少了重复和不当放大；布局的一致性与合理性提升，背景更稳定；图表与示意图的质量提高；并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

关键信息：

维度	详情
来源	X：商汤 SenseTime (@SenseTime_AI)
链接	查看原文

产品发布/更新

5. 在Claude Code中引入动态工作流

Claude Code 推出“动态工作流”功能，使 Claude 能端到端处理复杂任务。该功能通过动态编写脚本，在单个会话中并行运行数十到数百个子智能体来完成工作，并会在结果呈现前进行验证。它适用于跨代码库的 bug 查找、大规模迁移（如将 Bun 从 Zig 移植到 Rust）等需要多角度分析的任务。该功能现已在研究预览阶段可用，支持 Claude Code CLI、桌面端、VS Code 扩展以及 API、Amazon Bedrock、Vertex AI 等平台，面向 Max、Team 及已启用的 Enterprise 计划用户。

关键信息：

维度	详情
来源	Claude：Blog（网页）
链接	查看原文

6. Perplexity Computer现已集成微软Office套件

Perplexity Computer现已登陆Microsoft Excel、Word、PowerPoint和Outlook。您可以在应用程序的侧边栏中直接使用Computer来协调工作，起草文档、建模、制作演示文稿并处理电子邮件。现已推出：https://www.perplexity.ai/hub/products/integrations/microsoft

关键信息：

维度	详情
来源	X：Perplexity (@perplexity_ai)
链接	查看原文

7. 发布 Search Toolkit

Mistral AI 发布了 Search Toolkit 的公共预览版。这是一个用于构建 AI 应用生产级搜索管道的可组合框架。该框架旨在解决团队在搭建搜索基础设施时，因数据摄取、检索和评估工具分散而耗费过多工程时间的问题。Search Toolkit 将这三者整合到单一框架与共享接口中，使团队能更专注于提升搜索质量。该工具开源，可部署在云端、本地或边缘环境，并支持企业搜索、RAG 等多种检索场景。

关键信息：

维度	详情
来源	Mistral AI：News（网页）
链接	查看原文

8. MiniMax M2.7 免费智能体编程限时开放

在 @OpenHandsDev 上使用 MiniMax M2.7 进行免费智能体编程？是的，请给我！限时提供 ⚡👀

关键信息：

维度	详情
来源	X：MiniMax (@MiniMax_AI)
链接	查看原文

9. Replit Canvas：智能体设计工具发布

最好的设计工作不会在聊天框里发生。你需要空间来探索想法、创建变体并进行迭代。认识新的 Replit Canvas。你的智能体设计工具，用于构建精美的网站、应用、营销资产等。

关键信息：

维度	详情
来源	X：Replit (@Replit)
链接	查看原文

10. 使用 Google Pay & Wallet Developer MCP server 加速你的集成工作流

Google 推出 Google Pay & Wallet Developer MCP server，这是一款开放标准工具，旨在将 AI 开发助手和 IDE 安全连接到实时的 API 与账户上下文。开发者无需离开开发环境，即可搜索官方文档、验证 Wallet pass 定义、检查集成状态以及管理商户账户。该集成旨在通过减少上下文切换并提供实时、可靠的 AI 支持来减少开发摩擦，从而加速开发工作流。

关键信息：

维度	详情
来源	Google Developers Blog（RSS）
链接	查看原文

11. Sesame，这家由Oculus创始人创办的对话式AI初创公司，发布其iOS应用

由Oculus创始人创办的AI初创公司Sesame发布了其iOS应用，该应用将对话式AI智能体带给公众。应用提供更自然的来回交互体验，设计上区别于传统聊天机器人，旨在让用户感觉更像在和真人对话。

关键信息：

维度	详情
来源	TechCrunch：AI（RSS）
链接	查看原文

12. MuleRun登陆阿里云市场，提供全天候AI劳动力

在阿里云市场遇见 MuleRun——一个全天候的AI劳动力，用于研究、报告、代码、设计等。功能强大，适合个人使用；企业就绪，适合团队协作——支持SSO、RBAC、私有网络、团队知识管理和无缝集成。想得更大。让 MuleRun 处理其余事务。方案起价 $20/月 → https://int.alibabacloud.com/m/1000413520/ #AlibabaCloud #AIAgents #AIWorkforce #FutureOfWork #EnterpriseAI

关键信息：

维度	详情
来源	X：阿里云 / Alibaba Cloud (@alibaba_cloud)
链接	查看原文

行业动态

13. Anthropic 完成 650 亿美元 H 轮融资，估值达 9650 亿美元

Anthropic 宣布完成由 Altimeter Capital 等领投的 650 亿美元 H 轮融资，投后估值达 9650 亿美元。公司表示其旗舰模型 Claude 的企业部署持续增长，年化收入已突破 470 亿美元。此轮融资将用于推进 AI 安全与可解释性研究、扩展算力以满足 Claude 的需求，并规模化产品与合作伙伴关系。Anthropic 近期已显著扩大计算容量，并宣布 Claude 已登陆 AWS、Google Cloud 和 Microsoft Azure 三大云平台。

关键信息：

维度	详情
来源	Anthropic：Newsroom（网页）
链接	查看原文

14. DeepSeek计划在完成融资后立即申请科创板IPO

独家：DeepSeek计划在完成当前约500亿美元（3500亿人民币）融资轮后，立即申请科创板（A股）IPO。来源：参与本轮融资的一位大型基金经理。

关键信息：

维度	详情
来源	X：X.PIN (@thexpin)
链接	查看原文

15. 萨姆·阿尔特曼和达里奥·阿莫代伊都纷纷收回了关于AI将引发就业危机的预测

关键信息：

维度	详情
来源	Hacker News 热门（buzzing.cc 中文翻译）
链接	查看原文

16. AI Now Summit 2026

Mistral AI 在 AI Now Summit 2026 上宣布多项进展。其工业 AI 解决方案“Mistral for Industrial Engineering”整合了物理模型与工程知识，正与空客、宝马集团和 ASML 合作，加速工程设计与优化。AI 智能体产品 Vibe 进行了升级，增强了推理和智能体任务能力。此外，公司计划在 2026 年第三季度启用位于 Les Ulis、功率达 10 MW 的新数据中心，专注推理操作以增强算力安全。

关键信息：

维度	详情
来源	Mistral AI：News（网页）
链接	查看原文

17. Qwen3.7-Max 登顶 OpenRouter 热门大模型榜

Qwen3.7-Max 以 77.3B tokens 的使用量登顶 @OpenRouter 热门大语言模型榜单。而我们才刚刚开始。 👇 https://int.alibabacloud.com/m/1000413314/

关键信息：

维度	详情
来源	X：阿里云 / Alibaba Cloud (@alibaba_cloud)
链接	查看原文

18. OpenRouter 获得1.13亿美元B轮融资

AI模型聚合平台OpenRouter宣布完成1.13亿美元B轮融资。本轮融资由CapitalG领投，NVentures、ServiceNow Ventures等多家机构参投，现有投资者Andreessen Horowitz与Menlo Ventures也参与了本轮融资。

关键信息：

维度	详情
来源	OpenRouter：Announcements（RSS）
链接	查看原文

19. Apple 正努力将庞大的 Gemini 模型塞进 iPhone 以驱动新 Siri

Apple 正尝试将大型 Gemini 模型集成到 iPhone 中，以支持全新的 Siri 功能。由于模型规模庞大，本地处理可能无法完全实现，因此一个云端组件很可能是必然的选择。

关键信息：

维度	详情
来源	Ars Technica：AI（RSS）
链接	查看原文

20. OpenAI 的前沿治理框架

OpenAI 发布了“前沿治理框架”，阐述其 AI 安全、安全与风险管理实践如何与欧盟和加州新出台的法规要求对齐。该框架旨在规范其前沿模型的开发与部署流程。

关键信息：

维度	详情
来源	OpenAI：官网动态（RSS · 排除企业/客户案例）
链接	查看原文

论文研究

21. hexoai开源SIA框架：AI智能体实现递归自我改进

hexoai开源了SIA（自我改进AI）框架。该框架展示了AI智能体不仅能优化其外部工作流（harness），还能通过任务反馈直接更新自身的模型权重，从而在领域知识和能力上实现自主提升，而非仅依赖人类提供的提示或工具改进。论文报告显示，SIA在LawBench基准上性能提升56.6%，在GPU kernels运行上耗时减少91.9%，在单细胞RNA去噪任务中相比基线提升502%。

关键信息：

维度	详情
来源	X：Rohan Paul (@rohanpaul_ai)
链接	查看原文

22. SGLang 团队与 AMD 合作，使 AMD Instinct™ MI355X GPU 的大规模 DeepSeek-R1 分离式推理在总拥有成本上具备竞争力

SGLang 与 AMD 团队合作，通过一系列全栈优化，使 AMD Instinct™ MI355X GPU 在运行 DeepSeek-R1 大模型推理时实现了极具竞争力的总拥有成本。在 129 tok/s/user 的交互延迟下，其成本为每百万 token $0.169，比 NVIDIA B200（Dynamo TRT-LLM）方案低 5%，比 B200（SGLang）方案低 40%。吞吐量方面，24 块 AMD GPU 达到 2,436 tok/s/GPU，比使用 48 块 GPU 的 B200 SGLang 方案每 GPU 吞吐量高 1.25 倍。核心优化包括：MoRI 混合 FP4/FP8 量化全到全通信、MoRI-IO K…

关键信息：

维度	详情
来源	LMSYS：Blog（Chatbot Arena 团队）
链接	查看原文

技巧与观点

23. 人民日报专访华为何庭波：今年秋季的新麒麟手机芯片，性能等相比去年是“跳跃性”提升

华为何庭波提出半导体新演进路径“韬（τ）定律”，以“时间缩微”（如逻辑折叠）替代“几何缩微”作为新指导原则。她表示，过去6年华为已基于此自主研发381款芯片。今年秋季将发布新的麒麟手机芯片，这是首个完整的“韬芯片”，其性能、集成度相比去年是“跳跃性”提升。

关键信息：

维度	详情
来源	IT之家（RSS）
链接	查看原文

24. 英伟达推出 AI 框架 Polar，让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架（如 Codex CLI、Claude Code、Qwen Code、Pi），通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示，基于 Qwen3.5-4B 模型，Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%（增涨 594.74%）。效率上，其 prefix_merging 技术将训练步骤从 1185 次降至 218 次，速度提升约 5.39 倍，GPU 平均利用率从 20.4% 升至 87.7%。

关键信息：

维度	详情
来源	IT之家（RSS）
链接	查看原文

25. pgvector驱动的语义、混合、稀疏与量化向量搜索系统构建编码指南

本教程在Google Colab中构建一个完整的pgvector实验环境，展示PostgreSQL如何作为向量数据库服务于现代AI应用。内容涵盖安装PostgreSQL、编译pgvector扩展、通过Psycopg建立连接，并注册向量类型以实现与Python的平滑集成。最后使用SentenceTransformers创建并存储嵌入向量。

关键信息：

维度	详情
来源	MarkTechPost（RSS）
链接	查看原文

26. OpenRouter 支持模型现可选 Flex 与 Priority 服务层级

提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档：https://openrouter.ai/docs/guides/features/service-tiers

关键信息：

维度	详情
来源	X：OpenRouter (@OpenRouter)
链接	查看原文

27. 四步保障AI生成应用安全

如何用四步保障你的vibecoded应用安全 🔒 速度若无安全加持，便是隐患。以下是使用Replit发布应用时，如何避免留下后门的方法。 🧵展开阅读 ↓

关键信息：

维度	详情
来源	X：Replit (@Replit)
链接	查看原文

28. 社区如何利用Tunix和TPU训练Gemma学会“思考”

Google在Kaggle举办的Tunix黑客马拉松，挑战开发者利用TPU和有限算力，将小型基础模型转变为通用推理引擎。获胜团队通过多阶段后训练流程实现了这一目标，该流程结合了监督微调（SFT）与GRPO、SimPO等先进对齐技术。比赛结果表明，社区能够借助开源资源成功训练出高能力的结构化推理模型。

关键信息：

维度	详情
来源	Google Developers Blog（RSS）
链接	查看原文

29. AI智能体时代下的安全变革

Lemonade的CISO Jonathan Jaffe探讨了AI智能体时代的安全新挑战。他指出，AI对攻击者和防御者同样强大，但可被利用的漏洞窗口正在缩小，因为AI能更快地生成、审查和修补代码。为此，安全团队正向工程团队转型，例如Lemonade的安全部门均由工程师组成，并构建了包含智能体的内部AI平台。同时，每个智能体（单个终端上可能运行200到10000个）都需要被赋予身份，并在操作点由策略进行更复杂的管控，这超越了当前身份与访问管理系统的能力。

关键信息：

维度	详情
来源	Tomer Tunguz 博客（VC 分析）
链接	查看原文

30. 我们如何构建Cloudflare的数据平台及其上的AI智能体

Cloudflare构建了名为Town Lake的统一分析平台，并基于此开发了内部AI智能体Skipper。

关键信息：

维度	详情
来源	Cloudflare Blog
链接	查看原文

共 30 条资讯 · 数据来自 AI HOT · 2026-05-29