🤖 AI Research Daily - 2026-04-11

信息收集完成,正在整理报告。

🔬 AI 行业周报 | 2026年4月11日

━━━━━━━━━━━━━━━━━━ 一、前沿模型竞赛 ━━━━━━━━━━━━━━━━━━

OpenAIGPT-5.4 全面上线 ChatGPT / Codex / API,首个集成原生 computer-use 能力的通用推理模型,支持 1M token 上下文 • GPT-5.3-Codex 仍为最强 agentic coding 模型,运行速度比前代快 25%,支持实时 steering • 定价调整:新 Pro 计划 $100/月(无限 GPT-5.4),$200/月 Pro 计划保留至5月底 • OSWorld-Verified 和 WebArena Verified 基准测试中拿到最高分

AnthropicClaude Opus 4.6 在 SWE-Bench(软件工程)和 nuanced writing 评测中领先 • Claude Sonnet 4.6 在 real-world work evals 中表现最佳 • Claude Mythos 5(10 万亿参数)曝光,专攻网络安全与编码,因安全风险不公开发布,仅通过 Project Glasswing 向特定合作伙伴开放 • MCP(Model Context Protocol)3月安装量突破 9700 万,已成为 AI agent 基础设施标准

Google DeepMindGemini 3.1 Pro 在 16 项基准中的 13 项领先,擅长复杂规划、多模态分析、长上下文推理 • Deep Think 增强推理模式上线,多假设推理后再生成响应 • Computer Use 工具在 Gemini 3 Pro/Flash 中可用(Project Mariner),支持自主点击、填表、导航 UI • TurboQuant 压缩算法发布,内存需求降低 6 倍,大幅削减推理成本 • Gemma 4 开源发布(Apache 2.0),面向高级推理和 agentic workflows

xAIGrok 4.20 公测,2M token 上下文,幻觉率降至 4.2%,原生支持文本/图片/视频输入 • 多 agent 架构是亮点——完全不同于其他公司的单模型路线 • Grok 4.20 Heavy 变体公布 • 与美国国防部签约,Grok 进入机密和非机密系统

MetaMuse Spark(原代号 Avocado)发布,出自新成立的 Meta Superintelligence Labs • 2026 年 AI 资本支出预算 $1150-1350 亿,接近去年两倍 • 继续推进开源策略

━━━━━━━━━━━━━━━━━━ 二、中国 AI 生态 ━━━━━━━━━━━━━━━━━━

DeepSeekV4 已于 2 月发布,优化编码能力 • 核心看点:V4 据报道可在华为芯片上运行——若属实,这是中国突破美国芯片出口管制的里程碑 • 获政府有条件批准采购 NVIDIA H20 芯片 • 中国模型在 OpenRouter 上的周 token 消费量 2 月已超过美国模型,差距持续扩大

Alibaba QwenQwen 3.5 系列即将发布,支持代码已提交至 Hugging Face • Qwen3.6-Plus 4 月发布,1M 上下文窗口,agentic coding 性能对标 Claude 4.5 Opus • DeepSeek R1-Distill-Qwen-32B 证明了中国 AI 生态的开放协作特征

Baidu • Ernie 4.5 + X1 推理模型为当前旗舰 • CEO 李彦宏转向,开放部分模型

市场格局 • 东南亚加速采用中国模型:新加坡 OCBC 银行在 DeepSeek/Qwen 上运行 30+ 内部工具 • 马来西亚在华为硬件上启动主权 AI 生态

━━━━━━━━━━━━━━━━━━ 三、欧洲 / 日韩 ━━━━━━━━━━━━━━━━━━

Mistral AI(法国)Mistral Small 4(3 月发布):119B 总参数但每 token 仅激活 6B(MoE),单模型整合指令跟随 + 深度推理 + 图像理解 + 编码 • 原生支持 40+ 语言,欧洲语言尤其强 • 估值已超 $130 亿

Sakana AI(日本) • 估值 $26.5 亿,日本最有价值 AI 独角兽 • 三菱电机 3 月 25 日宣布投资 • 技术路线独特:不从头训练大模型,而是用进化模型合并(evolutionary model merge)组合开源模型能力 • 2026 年扩展至工业/制造/政府领域

韩国 • Samsung、Naver 持续投入,但尚无前沿模型级别的突破性发布

━━━━━━━━━━━━━━━━━━ 四、AGI 路径 & 底层技术 ━━━━━━━━━━━━━━━━━━

时间线共识 • Demis Hassabis:AGI 可能在 2030-2035 实现(倾向下限) • 研究者估计:50% 概率 2028 年底,80% 概率 2030 年底 • Ilya Sutskever:“我们正从规模化时代迈入研究时代

技术突破World Models + 持续学习:2026 年是突破年。交互式 Genie 类系统进入 agent/机器人领域,实时物理模拟训练具身 AI • 推理蒸馏:将 o3 级推理能力蒸馏到边缘设备 • 混合架构:纯 Transformer 正在被混合架构取代 • Agentic AI 从 demo 走向生产规模 • Nested Learning / Titans 式记忆成为 agentic 框架标准

Embodied AI / 机器人Tesla Optimus Gen 3 已在 Fremont 工厂量产,FSD-v15 计算机 + 8 摄像头视觉系统,成本目标 <$20,000,年产能目标 5-10 万台 • Figure AI 融资超 $7 亿(Microsoft / Nvidia / OpenAI / Bezos),2026 年目标部署 2 万台 • 物理世界的 “iPhone 时刻” 正在到来

Safety & Alignment国际 AI 安全报告 2026 发布 • Agentic AI Foundation 在 Linux Foundation 下成立(基于 Anthropic MCP + OpenAI AGENTS.md + Block goose) • SSI(Ilya Sutskever)估值 $320 亿,尚无产品,专注安全超级智能研究 • Fei-Fei Li 的 World Labs 2026 年融资 $10 亿,推进空间智能

━━━━━━━━━━━━━━━━━━ 五、关键人物动态 ━━━━━━━━━━━━━━━━━━

Andrej Karpathymicrogpt(2 月):200 行纯 Python 实现完整 GPT 训练 + 推理,零依赖 • autoresearch(3 月):给 AI agent 一个小型 LLM 训练环境,自主跑过夜实验——修改代码 → 训练 5 分钟 → 评估 → 保留或丢弃 → 循环。醒来后看实验日志 • LLM Wiki(4 月):用 LLM 维护个人知识库,“Obsidian 是 IDE,LLM 是程序员,wiki 是 codebase”。GitHub Gist 几天内 5000+ stars • 金句:“I’ve never felt this much behind as a programmer. The profession is being dramatically refactored.”

Ilya Sutskever • SSI CEO(联合创始人 Gross 离开去 Meta 后接任) • 获 2026 年 NAS 工业科学应用奖(AI 领域首次) • 核心主张:规模化已到极限,下一个突破来自研究本身

Demis Hassabis • 持续推进 Gemini 系列,Deep Think 推理模式是其”AI for Science”路线的延伸

Fei-Fei Li • World Labs 融资 $10 亿,专攻空间智能——让 AI 理解和推理三维物理环境

━━━━━━━━━━━━━━━━━━ 六、值得玩的东西 ━━━━━━━━━━━━━━━━━━

• OpenClaw 本地运行的个人 AI 助手网关,连接 50+ 集成(WhatsApp/Telegram/Slack/Discord/Signal/iMessage)。从 9k 星飙到 210k+。适合二次开发自己的全平台 AI 助手 → github.com/nicepkg/openclaw

• karpathy/autoresearch AI agent 自主跑 LLM 训练实验,过夜自动探索超参数和架构变体。独立开发者可以用来自动调优小模型 → github.com/karpathy/autoresearch

• LLM Wiki(Karpathy Gist) 用 LLM agent 自动维护个人知识库的完整 pattern。可直接 copy-paste 到 Claude Code 使用 → gist.github.com/karpathy/llm-wiki

• OpenScreen 开源屏幕录制工具,支持窗口/全屏录制、自动缩放、自定义背景、运动模糊。MIT 协议,无水印。一周涨 15k+ stars → GitHub Trending

• MemPalace 记忆宫殿架构的 AI 记忆系统(Milla Jovovich + Claude Code 协作产物),三层结构:Wings → Halls → Rooms。适合研究 AI 长期记忆的设计模式 → GitHub Trending

• Instant 1.0 专为 AI 编码应用设计的开源后端,四年开发后正式发布。如果你用 AI 生成前端代码,这个后端可以直接接 → instantdb.com

• EmDash(Cloudflare) Cloudflare 的 WordPress 替代品,每个插件在独立沙箱 Worker 中运行,权限显式声明。适合折腾自托管博客的人 → github.com/cloudflare/emdash

• Gemini CLI(Google) Google 开源的命令行 AI agent 工具,直接在终端使用 Gemini,支持本地项目上下文。Claude Code 的竞品,值得对比体验 → github.com/google-gemini/gemini-cli