🤖 AI Research Daily - 2026-04-05

2026-04-05

信息已全部收集完毕。以下是完整报告，Telegram HTML 格式：

🌐 AI 行业周报 | 2026.04.05

━━━━━━━━━━━━━━━━━━━━

一、前沿模型动态

◆ Google DeepMind — Gemini 3.1 Pro 2 月 19 日发布，当前综合实力最强模型。在 16 项基准中 13 项领先，ARC-AGI-2 得分 77.1%（前代 31.1%），大幅领先 Claude Opus 4.6（68.8%）和 GPT-5.2（52.9%）。ARC-AGI-2 是纯逻辑推理测试，无法靠记忆通过——这个分数意味着推理能力的实质性跃升。 ARC-AGI-2 排行榜

◆ OpenAI — GPT-5.4 3 月 5 日发布。在 computer-use 基准（OSWorld-Verified、WebArena Verified）上创纪录，GDPval 知识工作测试得分 83%。重点方向：Agentic 能力，不再只是聊天。

◆ Anthropic — Claude Opus 4.6 / Sonnet 4.6 Opus 4.6（2 月 5 日）、Sonnet 4.6（2 月 17 日）。100 万 token 上下文窗口进入 beta。全用户开放 memory 功能（跨会话记忆）。另发布 Claude Mythos 5（10 万亿参数，面向安全和编码）。

◆ Microsoft — MAI 自研模型 4 月 2 日，Microsoft 发布三个自研基础模型：MAI-Transcribe-1（语音转文字，FLEURS WER 全球第一，超 Whisper）、MAI-Voice-1（1 秒生成 60 秒音频）、MAI-Image-2（文生图排行榜第三）。这是与 OpenAI 130 亿美元合作以来最明确的独立信号——2025 年 9 月重新谈判后，Microsoft 获得了自研通用 AI 的自由。 TechCrunch 报道

◆ xAI — 被 SpaceX 收购 2 月 2 日，SpaceX 以全股票交易收购 xAI（估值 2500 亿美元），合并后估值 1.25 万亿。Grok 基础设施正在与 Starlink 整合，目标是「太空端 AI 推理」。9 位联合创始人中已有 9 人离职。SpaceX 计划 2026 年中 IPO，预估 1.75 万亿美元。 xAI 联创出走详情

━━━━━━━━━━━━━━━━━━━━

二、中国 AI 实验室

◆ DeepSeek V4 — 即将发布 预计 4 月中下旬发布。1 万亿总参数，每次响应激活约 370 亿。关键突破：完全运行在华为 Ascend-950PR 芯片上，绕过 NVIDIA CUDA 生态，使用华为 CANN 架构。阿里、字节、腾讯已大量预订芯片，芯片价格数周内上涨 20%。这标志着中国「平行技术栈」正在走向前沿成熟。 V4 详细规格

◆ Alibaba Qwen 3.5 2 月 16 日发布，成本比 Qwen 2.5 降低 60%。中国开源模型在 Hugging Face 全球开放模型使用量中占比已达 30%（2024 年底仅 1.2%）。

◆ ByteDance Doubao 2.0 复杂推理和多步任务执行能力对标 ChatGPT / Gemini 当前版本。同期发布 SeeDance 2.0（图生视频/文生视频）。

◆ Zhipu AI GLM-5 2 月 11 日开源发布，定位「Agentic Intelligence」——多步推理、编码、创意写作。

━━━━━━━━━━━━━━━━━━━━

三、日本 / 欧洲

◆ Sakana AI — Sakana Chat + Namazu 系列 3 月 24 日发布 Sakana Chat，底层 Namazu 模型基于 DeepSeek-V3.1、Llama 3.1 405B、gpt-oss-120B 微调，专门对齐日本文化规范。三菱电机 3 月宣布投资。Sakana 估值 26.5 亿美元，计划 2026 年进入制造业和国防领域。 Sakana AI 官网

◆ 日本国家 AI 战略 经产省联合 SoftBank、Preferred Networks 等 10+ 企业，5 年投入约 200 亿美元开发本土大模型。

◆ Mistral AI（法国） 3 月融资 8.3 亿美元债务（欧洲 AI 公司最大债务融资），用于巴黎建设 13,800 块 NVIDIA GB300 GPU 数据中心，Q2 投入运营。CEO Arthur Mensch 提议对在欧洲运营的 AI 模型征收「数据税」。估值 140 亿美元。 Mistral CEO 数据税提议

━━━━━━━━━━━━━━━━━━━━

四、关键技术突破

◆ Google TurboQuant — ICLR 2026 3 月 25 日公布。KV Cache 内存压缩 6 倍，H100 推理加速 8 倍，零精度损失。核心技术：PolarQuant 向量旋转 + 极坐标量化，消除传统方法的 per-block 归一化开销。直接影响 Gemini 等大模型的部署成本。芯片股当日下跌 6%——因为这意味着同等能力需要更少的 GPU。 Google Research 博客

◆ Agentic 时代正式到来 行业共识：2026 Q1 标志着从「聊天机器人」到「Agent」的转折。企业 Agentic AI 市场达 75.1 亿美元，CAGR 27.3%。近 40% 企业软件已内置任务型 AI Agent。MCP 协议 3 月安装量突破 9700 万次。

◆ Ilya Sutskever / SSI SSI 累计融资超 30 亿美元，估值 320 亿——仍无任何产品。Sutskever 坚持：先解决核心研究问题，再谈商业化。2 月，早期工程师 Shahar Papini 离职创业。联创 Daniel Gross 已于去年加入 Meta。 SSI 官网

━━━━━━━━━━━━━━━━━━━━

五、重要人物 & 思想

◆ Andrej Karpathy — LLM Knowledge Bases 4 月 3 日发布。核心洞察：「我最近的 token 消耗越来越多地从操作代码转向操作知识。」提出绕过 RAG 的替代方案：让 LLM 充当「研究图书馆员」，主动编译、校验、互链 Markdown 文件。三阶段架构：Data Ingest → Compilation → Active Maintenance。每条 AI 生成的知识都可追溯到具体 .md 文件，人类可读可编辑——解决了向量嵌入的黑箱问题。 VentureBeat 深度解读 | LLM Wiki Gist

◆ Karpathy on X 「作为程序员，我从未感到如此落后。这个职业正在被彻底重构——程序员贡献的 bits 越来越稀疏。」

◆ Yann LeCun — Brown 大学演讲（4 月 1 日） 直言「AI sucks」。认为 LLM 路线本质上是死胡同——操纵语言让我们误以为系统很聪明。主张 World Models：处理图像、视频、音频、科学数据等多模态噪声输入，而非只堆文本。AGI 时间线与 Chollet 一致：2038-2048。 Brown 大学报道

◆ Davos 辩论：Hassabis vs LeCun vs Amodei 1 月 23 日，三人就「通用智能」定义激烈交锋。Hassabis（DeepMind）和 Amodei（Anthropic）相对乐观，LeCun 持保留态度。 Fortune 报道

◆ Sebastian Raschka — Components of a Coding Agent（4 月 4 日） 系统性拆解 Coding Agent 架构：Live Repo Context、Prompt Caching、Structured Tool Access、Context Reduction、Dual-Layer Memory、Bounded Subagents。核心结论：区分好用的 Coding Agent 和普通聊天的，不是模型本身，而是 Harness 架构。原文

━━━━━━━━━━━━━━━━━━━━

六、资本动向

• 2026 Q1 全球 VC 交易总额 2672 亿美元 • OpenAI 融资 1220 亿（Amazon 500 亿 + NVIDIA 300 亿 + SoftBank 300 亿） • Anthropic Series G 融资 300 亿 • Mistral 债务融资 8.3 亿，估值 140 亿 • SSI 累计融资 30 亿+，估值 320 亿（零产品）

━━━━━━━━━━━━━━━━━━━━

七、值得玩的东西 🛠️

Agent / Coding 工具

• openclaude（15.8K ⭐）— Claude Code 架构的开源复刻，支持 OpenAI/Gemini/DeepSeek/Ollama 等 200+ 模型。想用非 Anthropic 模型跑 Coding Agent 的首选。

• NanoCoder（236 ⭐）— 950 行 Python 实现的最小 Coding Agent，支持任意 LLM。「nanoGPT for coding agents」，适合学习 Agent 内部原理。

• claude-code-from-scratch（739 ⭐）— ~3000 行 TypeScript 复现核心架构，含 11 章教程。

• OpenHarness（4.7K ⭐）— 港大出品，通用 Coding Agent 运行和评估框架。

• open-multi-agent（4.7K ⭐）— TypeScript 多 Agent 框架，一个 runTeam() 调用完成目标到结果。

效率 / 省钱

• caveman（707 ⭐）— Claude Code skill，让 Claude 用「洞穴人语法」回复，token 消耗减少 75%。HN 332 分。好笑又实用。

• lean-ctx（461 ⭐）— Rust 单二进制，shell hook + MCP server，LLM token 消耗减少 89-99%。

• claude-token-efficient（3.3K ⭐）— 单个 CLAUDE.md 文件，Drop-in 减少输出冗余。

可自部署的有趣项目

• apfel（2K ⭐）— 从 CLI 调用 Apple Intelligence（FoundationModels 框架），无 API key，无云，无依赖。macOS only。

• stirling-image（506 ⭐）— 「Stirling-PDF 的图片版」，30+ 图像工具 + 本地 AI，单个 Docker 容器。

• ministack（1.6K ⭐）— 免费开源本地 AWS 模拟器，35+ 服务，Terraform 兼容。独立开发者的本地测试神器。

• HolyClaude（1.9K ⭐）— Docker 一键部署 AI 编码工作站：Claude Code + Web UI + 7 个 AI CLI + 无头浏览器 + 50+ 工具。

• figma-mcp-go（349 ⭐）— 免费用户可用的 Figma MCP Server，无速率限制，设计稿直接转代码。

创意 / 实验

• codebase-to-course（3.1K ⭐）— Claude Code skill，把任意代码库变成漂亮的交互式单页 HTML 课程。

• ResearcherSkill（161 ⭐）— 一个文件，让 AI Agent 变成科学家，睡觉时自动跑 30+ 实验。

• recursive-improve（155 ⭐）— 让 Agent 递归自我改进。小而新颖。

• agent-flow（601 ⭐）— 实时可视化 Claude Code Agent 的思考、分支、协调过程。

HN 热门

• Build a GPU（游戏）（857 分）— 交互式 GPU 架构教学游戏，从零搭建 GPU。 • The Machines Are Fine（510 分）— 关于过度依赖 AI 而丧失理解力的反思。 • sllm（171 分）— 多人共享 GPU 节点，无限 token。 • Lisette（181 分）— 受 Rust 启发、编译到 Go 的新语言。

━━━━━━━━━━━━━━━━━━━━

编辑注：本期最值得关注的三件事——(1) DeepSeek V4 在华为芯片上运行，中国平行技术栈走向成熟；(2) Karpathy 的 LLM Knowledge Base 范式，RAG 的替代思路；(3) Google TurboQuant 6 倍内存压缩零损失，直接改变推理经济学。