🤖 AI Research Daily - 2026-04-05
信息已全部收集完毕。以下是完整报告,Telegram HTML 格式:
🌐 AI 行业周报 | 2026.04.05
━━━━━━━━━━━━━━━━━━━━
一、前沿模型动态
◆ Google DeepMind — Gemini 3.1 Pro 2 月 19 日发布,当前综合实力最强模型。在 16 项基准中 13 项领先,ARC-AGI-2 得分 77.1%(前代 31.1%),大幅领先 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%)。ARC-AGI-2 是纯逻辑推理测试,无法靠记忆通过——这个分数意味着推理能力的实质性跃升。 ARC-AGI-2 排行榜
◆ OpenAI — GPT-5.4 3 月 5 日发布。在 computer-use 基准(OSWorld-Verified、WebArena Verified)上创纪录,GDPval 知识工作测试得分 83%。重点方向:Agentic 能力,不再只是聊天。
◆ Anthropic — Claude Opus 4.6 / Sonnet 4.6 Opus 4.6(2 月 5 日)、Sonnet 4.6(2 月 17 日)。100 万 token 上下文窗口进入 beta。全用户开放 memory 功能(跨会话记忆)。另发布 Claude Mythos 5(10 万亿参数,面向安全和编码)。
◆ Microsoft — MAI 自研模型 4 月 2 日,Microsoft 发布三个自研基础模型:MAI-Transcribe-1(语音转文字,FLEURS WER 全球第一,超 Whisper)、MAI-Voice-1(1 秒生成 60 秒音频)、MAI-Image-2(文生图排行榜第三)。这是与 OpenAI 130 亿美元合作以来最明确的独立信号——2025 年 9 月重新谈判后,Microsoft 获得了自研通用 AI 的自由。 TechCrunch 报道
◆ xAI — 被 SpaceX 收购 2 月 2 日,SpaceX 以全股票交易收购 xAI(估值 2500 亿美元),合并后估值 1.25 万亿。Grok 基础设施正在与 Starlink 整合,目标是「太空端 AI 推理」。9 位联合创始人中已有 9 人离职。SpaceX 计划 2026 年中 IPO,预估 1.75 万亿美元。 xAI 联创出走详情
━━━━━━━━━━━━━━━━━━━━
二、中国 AI 实验室
◆ DeepSeek V4 — 即将发布 预计 4 月中下旬发布。1 万亿总参数,每次响应激活约 370 亿。关键突破:完全运行在华为 Ascend-950PR 芯片上,绕过 NVIDIA CUDA 生态,使用华为 CANN 架构。阿里、字节、腾讯已大量预订芯片,芯片价格数周内上涨 20%。这标志着中国「平行技术栈」正在走向前沿成熟。 V4 详细规格
◆ Alibaba Qwen 3.5 2 月 16 日发布,成本比 Qwen 2.5 降低 60%。中国开源模型在 Hugging Face 全球开放模型使用量中占比已达 30%(2024 年底仅 1.2%)。
◆ ByteDance Doubao 2.0 复杂推理和多步任务执行能力对标 ChatGPT / Gemini 当前版本。同期发布 SeeDance 2.0(图生视频/文生视频)。
◆ Zhipu AI GLM-5 2 月 11 日开源发布,定位「Agentic Intelligence」——多步推理、编码、创意写作。
━━━━━━━━━━━━━━━━━━━━
三、日本 / 欧洲
◆ Sakana AI — Sakana Chat + Namazu 系列 3 月 24 日发布 Sakana Chat,底层 Namazu 模型基于 DeepSeek-V3.1、Llama 3.1 405B、gpt-oss-120B 微调,专门对齐日本文化规范。三菱电机 3 月宣布投资。Sakana 估值 26.5 亿美元,计划 2026 年进入制造业和国防领域。 Sakana AI 官网
◆ 日本国家 AI 战略 经产省联合 SoftBank、Preferred Networks 等 10+ 企业,5 年投入约 200 亿美元开发本土大模型。
◆ Mistral AI(法国) 3 月融资 8.3 亿美元债务(欧洲 AI 公司最大债务融资),用于巴黎建设 13,800 块 NVIDIA GB300 GPU 数据中心,Q2 投入运营。CEO Arthur Mensch 提议对在欧洲运营的 AI 模型征收「数据税」。估值 140 亿美元。 Mistral CEO 数据税提议
━━━━━━━━━━━━━━━━━━━━
四、关键技术突破
◆ Google TurboQuant — ICLR 2026 3 月 25 日公布。KV Cache 内存压缩 6 倍,H100 推理加速 8 倍,零精度损失。核心技术:PolarQuant 向量旋转 + 极坐标量化,消除传统方法的 per-block 归一化开销。直接影响 Gemini 等大模型的部署成本。芯片股当日下跌 6%——因为这意味着同等能力需要更少的 GPU。 Google Research 博客
◆ Agentic 时代正式到来 行业共识:2026 Q1 标志着从「聊天机器人」到「Agent」的转折。企业 Agentic AI 市场达 75.1 亿美元,CAGR 27.3%。近 40% 企业软件已内置任务型 AI Agent。MCP 协议 3 月安装量突破 9700 万次。
◆ Ilya Sutskever / SSI SSI 累计融资超 30 亿美元,估值 320 亿——仍无任何产品。Sutskever 坚持:先解决核心研究问题,再谈商业化。2 月,早期工程师 Shahar Papini 离职创业。联创 Daniel Gross 已于去年加入 Meta。 SSI 官网
━━━━━━━━━━━━━━━━━━━━
五、重要人物 & 思想
◆ Andrej Karpathy — LLM Knowledge Bases 4 月 3 日发布。核心洞察:「我最近的 token 消耗越来越多地从操作代码转向操作知识。」提出绕过 RAG 的替代方案:让 LLM 充当「研究图书馆员」,主动编译、校验、互链 Markdown 文件。三阶段架构:Data Ingest → Compilation → Active Maintenance。每条 AI 生成的知识都可追溯到具体 .md 文件,人类可读可编辑——解决了向量嵌入的黑箱问题。 VentureBeat 深度解读 | LLM Wiki Gist
◆ Karpathy on X 「作为程序员,我从未感到如此落后。这个职业正在被彻底重构——程序员贡献的 bits 越来越稀疏。」
◆ Yann LeCun — Brown 大学演讲(4 月 1 日) 直言「AI sucks」。认为 LLM 路线本质上是死胡同——操纵语言让我们误以为系统很聪明。主张 World Models:处理图像、视频、音频、科学数据等多模态噪声输入,而非只堆文本。AGI 时间线与 Chollet 一致:2038-2048。 Brown 大学报道
◆ Davos 辩论:Hassabis vs LeCun vs Amodei 1 月 23 日,三人就「通用智能」定义激烈交锋。Hassabis(DeepMind)和 Amodei(Anthropic)相对乐观,LeCun 持保留态度。 Fortune 报道
◆ Sebastian Raschka — Components of a Coding Agent(4 月 4 日) 系统性拆解 Coding Agent 架构:Live Repo Context、Prompt Caching、Structured Tool Access、Context Reduction、Dual-Layer Memory、Bounded Subagents。核心结论:区分好用的 Coding Agent 和普通聊天的,不是模型本身,而是 Harness 架构。 原文
━━━━━━━━━━━━━━━━━━━━
六、资本动向
• 2026 Q1 全球 VC 交易总额 2672 亿美元 • OpenAI 融资 1220 亿(Amazon 500 亿 + NVIDIA 300 亿 + SoftBank 300 亿) • Anthropic Series G 融资 300 亿 • Mistral 债务融资 8.3 亿,估值 140 亿 • SSI 累计融资 30 亿+,估值 320 亿(零产品)
━━━━━━━━━━━━━━━━━━━━
七、值得玩的东西 🛠️
Agent / Coding 工具
• openclaude(15.8K ⭐)— Claude Code 架构的开源复刻,支持 OpenAI/Gemini/DeepSeek/Ollama 等 200+ 模型。想用非 Anthropic 模型跑 Coding Agent 的首选。
• NanoCoder(236 ⭐)— 950 行 Python 实现的最小 Coding Agent,支持任意 LLM。「nanoGPT for coding agents」,适合学习 Agent 内部原理。
• claude-code-from-scratch(739 ⭐)— ~3000 行 TypeScript 复现核心架构,含 11 章教程。
• OpenHarness(4.7K ⭐)— 港大出品,通用 Coding Agent 运行和评估框架。
• open-multi-agent(4.7K ⭐)— TypeScript 多 Agent 框架,一个 runTeam() 调用完成目标到结果。
效率 / 省钱
• caveman(707 ⭐)— Claude Code skill,让 Claude 用「洞穴人语法」回复,token 消耗减少 75%。HN 332 分。好笑又实用。
• lean-ctx(461 ⭐)— Rust 单二进制,shell hook + MCP server,LLM token 消耗减少 89-99%。
• claude-token-efficient(3.3K ⭐)— 单个 CLAUDE.md 文件,Drop-in 减少输出冗余。
可自部署的有趣项目
• apfel(2K ⭐)— 从 CLI 调用 Apple Intelligence(FoundationModels 框架),无 API key,无云,无依赖。macOS only。
• stirling-image(506 ⭐)— 「Stirling-PDF 的图片版」,30+ 图像工具 + 本地 AI,单个 Docker 容器。
• ministack(1.6K ⭐)— 免费开源本地 AWS 模拟器,35+ 服务,Terraform 兼容。独立开发者的本地测试神器。
• HolyClaude(1.9K ⭐)— Docker 一键部署 AI 编码工作站:Claude Code + Web UI + 7 个 AI CLI + 无头浏览器 + 50+ 工具。
• figma-mcp-go(349 ⭐)— 免费用户可用的 Figma MCP Server,无速率限制,设计稿直接转代码。
创意 / 实验
• codebase-to-course(3.1K ⭐)— Claude Code skill,把任意代码库变成漂亮的交互式单页 HTML 课程。
• ResearcherSkill(161 ⭐)— 一个文件,让 AI Agent 变成科学家,睡觉时自动跑 30+ 实验。
• recursive-improve(155 ⭐)— 让 Agent 递归自我改进。小而新颖。
• agent-flow(601 ⭐)— 实时可视化 Claude Code Agent 的思考、分支、协调过程。
HN 热门
• Build a GPU(游戏)(857 分)— 交互式 GPU 架构教学游戏,从零搭建 GPU。 • The Machines Are Fine(510 分)— 关于过度依赖 AI 而丧失理解力的反思。 • sllm(171 分)— 多人共享 GPU 节点,无限 token。 • Lisette(181 分)— 受 Rust 启发、编译到 Go 的新语言。
━━━━━━━━━━━━━━━━━━━━
编辑注:本期最值得关注的三件事——(1) DeepSeek V4 在华为芯片上运行,中国平行技术栈走向成熟;(2) Karpathy 的 LLM Knowledge Base 范式,RAG 的替代思路;(3) Google TurboQuant 6 倍内存压缩零损失,直接改变推理经济学。