🤖 AI Research Daily - 2026-04-08

2026-04-08

🔬 AI 行业深度周报 | 2026年4月8日

━━━━━━━━━━━━━━━━━━━ 一、前沿模型竞赛：各实验室最新动态 ━━━━━━━━━━━━━━━━━━━

◉ OpenAI GPT-5.4 于3月5日发布，支持100万 token 上下文窗口，可自主执行跨软件环境的多步骤工作流。在 OSWorld-V 桌面生产力基准测试中得分75%，首次超过人类基线（72.4%）。GDPval 知识工作测试得分83%，均为历史新高。GPT-5.5（代号 Spud）已完成预训练，预计近期发布。

◉ Anthropic Claude Sonnet 4.6（2月17日）和 Opus 4.6（2月5日）已发布，均支持100万 token 上下文窗口（beta）。Claude Mythos 5 发布，10万亿参数，专攻网络安全、学术研究和复杂编码场景，是业界首个公认的十万亿级参数模型。此外，Anthropic 与 Google/Broadcom 签署多吉瓦级 TPU 算力协议，2027年起交付。Model Context Protocol（MCP）3月安装量突破9700万，已成为 AI Agent 连接外部工具的事实标准。

◉ Google DeepMind Gemini 3.1 Pro（2月19日发布）在16项基准中的13项取得领先。ARC-AGI-2 得分77.1%，这是一个无法通过记忆蒙混的纯逻辑与新颖问题解决测试。同时发布 TurboQuant 压缩算法（ICLR 2026），通过 PolarQuant 向量旋转 + 量化 Johnson-Lindenstrauss 压缩，将 KV Cache 内存开销降低6倍。

◉ xAI Grok 4 / 4 Heavy 已上线。Grok 5 延期至Q2 2026，参数量传闻为6万亿（Grok 4的两倍）。值得关注的结构性变化：SpaceX 于2月2日收购了 xAI。Grok Imagine 持续迭代，角色一致性和复杂场景合成能力显著提升。

◉ Meta Llama 4 Maverick（400B参数，1000万 token 上下文窗口）是目前最强的开源权重模型，可在自有基础设施上免费运行。

━━━━━━━━━━━━━━━━━━━ 二、中国 AI 战场 ━━━━━━━━━━━━━━━━━━━

◉ DeepSeek DeepSeek V4 发布——1万亿参数 MoE 模型，完全开放权重，性能对标美国前沿模型，训练成本仅约520万美元。R2（R1继任者）因 Ascend 硬件训练困难而延期。年初发表 **Manifold-Constrained Hyper-Connections（mHC）**架构论文，提出对基础架构的根本性重新思考。获得政府有条件批准采购 NVIDIA H20 芯片。

◉ Alibaba / Qwen Qwen 最新版本支持 AI Agent 任务，可理解文本、图片和视频输入（支持最长2小时视频分析）。Alibaba 是中国 AI 模型的产量领先者。

◉ Baidu 在 DeepSeek 的冲击下，百度从闭源转向开源。Ernie 4.5 和 X1 推理模型为当前旗舰。

◉ 行业数据 中国 AI token 日使用量在2026年3月达到 140万亿。中国企业约34%的岗位职能已完全整合 AI 工具（全球平均30%）。字节跳动、腾讯、阿里、百度均在春节期间密集面向消费者推出 AI 应用集成。

◉ 中美博弈 OpenAI、Anthropic、Google 通过 Frontier Model Forum 联手打击中国竞争对手的对抗性蒸馏（adversarial distillation）行为——即通过提取美国前沿模型的输出来训练自身模型。

━━━━━━━━━━━━━━━━━━━ 三、欧洲 / 日韩 ━━━━━━━━━━━━━━━━━━━

◉ 欧洲 Mistral Small 4——119B参数混合模型，6.5B活跃参数，256k上下文窗口。欧洲持续押注主权和开放权重模型。

重磅消息：图灵奖得主、Meta前首席AI科学家 Yann LeCun 创立 AMI Labs，获 NVIDIA 等支持的 10.3亿美元种子轮融资（欧洲史上最大种子轮），估值35亿美元。研究方向为**「世界模型」（World Models）**，作为 LLM 之外的替代AI架构。

◉ 日本 Rakuten AI 3.0——GENIAC 项目下日本最大的高性能 AI 模型，在日语基准测试中表现突出。

◉ 韩国 韩国政府与 Anthropic 就国家 AI 基础设施合作进行谈判。产业贸易能源部投入 7000亿韩元推动制造业AI转型（M.AX）计划。

━━━━━━━━━━━━━━━━━━━ 四、AGI 进展与关键人物观点 ━━━━━━━━━━━━━━━━━━━

◉ AGI 基准现状 ARC-AGI-3 已发布（200万美元奖金），但所有前沿模型得分低于1%，而人类可解决100%的环境。这意味着在真正的通用推理能力上，差距仍然巨大。ARC-AGI-2 上 Gemini 3.1 Pro 得分77.1%是目前最佳。METR 的任务完成时间范围测试也在持续追踪 Agent 能力的进展。

◉ Dario Amodei（Anthropic CEO） 达沃斯发言：AI 模型将在一年内替代所有软件开发者的工作；两年内达到多个领域的「诺贝尔级」科研水平。「到2026或2027年，我们将拥有在几乎所有事情上都比所有人类更强的 AI 系统。」预测半数初级白领岗位将在1-5年内消失。

◉ Demis Hassabis（Google DeepMind CEO） 明确表示当前 AI 系统「远未达到」人类级 AGI。将真正的 AGI 时间线定在5-10年后。称 AI 将产生「工业革命10倍的影响，以10倍的速度」。

◉ Ilya Sutskever / SSI Safe Superintelligence Inc. 以320亿美元估值融资20亿美元（较2024年9月的50亿估值翻了6倍多）。Daniel Gross 离开加入 Meta 后，Sutskever 于2025年7月亲任 CEO。研究方向：超越大规模参数堆叠的全新 AGI 路径。2026年获得 NAS 工业应用科学奖（AI领域首次）。

◉ Yann LeCun 离开 Meta 创立 AMI Labs，押注世界模型作为 LLM 的替代架构。在达沃斯与 Amodei/Hassabis 就 AGI 时间线产生尖锐分歧。

━━━━━━━━━━━━━━━━━━━ 五、Andrej Karpathy 动态 ━━━━━━━━━━━━━━━━━━━

◉ microgpt（2月12日博文） 单文件200行纯 Python、零依赖实现完整 GPT 训练与推理。包含数据集处理、tokenizer、autograd 引擎、GPT-2架构、Adam优化器、训练循环与推理循环。极致的教学项目。 → karpathy.github.io/microgpt

◉ LLM Wiki（4月3日） Karpathy 提出从「用 AI 写代码」转向「用 AI 构建知识结构」。LLM Wiki 是一种 AI 驱动的个人知识管理系统，能从原始研究材料自动构建和维护一个 wiki。社区迅速涌现大量实现，引发「这是否让 RAG 管道过时」的激烈讨论。

◉ AutoResearch 提出让 AI Agent 接管一个小型但真实的 LLM 训练环境，整夜自主实验：修改代码 → 训练5分钟 → 检查是否改进 → 保留或丢弃 → 循环。自动化 ML 研究的雏形。

━━━━━━━━━━━━━━━━━━━ 六、技术前沿与架构演进 ━━━━━━━━━━━━━━━━━━━

◉ AI Scientist-v2（Sakana AI） 首篇完全由 AI 生成的论文通过严格人类同行评审并在 Nature 发表。这是一个里程碑事件——AI 已能产出达到顶级期刊标准的科研论文。

◉ 架构范式转移 2026年的关键趋势：从单一的巨型模型转向多组件基础系统（Multi-Component Foundation Systems）——模块化架构取代纯参数扩展。DeepSeek 的 mHC 架构、LeCun 的世界模型、以及各家的 MoE 实践都指向同一方向。

◉ 推理时计算缩放（Inference-Time Scaling） 已成为前沿模型的标配能力。通过在推理阶段投入更多计算资源来提升复杂推理任务的表现，而非仅依赖更大的预训练模型。

━━━━━━━━━━━━━━━━━━━ 七、值得玩的东西 ━━━━━━━━━━━━━━━━━━━

◉ OpenClaw github.com/openclaw/openclaw 本地运行的个人 AI Agent，通过 Telegram/WhatsApp/Signal 等聊天应用交互，能操控浏览器、执行Shell命令、管理日历、发邮件，且能自主编写代码扩展自身能力。GitHub 史上增长最快的项目之一（300k+ stars）。独立开发者的终极自动化入口。

◉ Karpathy microgpt karpathy.github.io/microgpt 200行纯 Python 实现完整 GPT。零依赖，从 tokenizer 到 Adam 优化器全部手写。理解 Transformer 底层原理的最佳教学材料，适合二次开发和魔改实验。

◉ Goose（by Block） github.com/block/goose Block（前Square）开源的可扩展 AI 工程 Agent，支持任意 LLM 后端，可安装、执行、编辑和测试代码。本地运行，插件化架构，适合搭建个人开发工作流。

◉ VoltAgent/awesome-design-md github.com/VoltAgent/awesome-design-md 收集主流网站的 DESIGN.md 设计系统文件，直接丢进项目里让 Coding Agent 生成匹配的UI。对于用 AI 快速搭建产品原型极为实用。

◉ addyosmani/agent-skills github.com/addyosmani/agent-skills 为 AI Coding Agent 打造的生产级工程技能集合。如果你在用 Claude Code / Cursor 等工具，这套技能库能显著提升 Agent 的工程输出质量。

◉ Dimensional github.com/dimensional-ai 面向通用机器人的 Agentic 操作系统，团队来自 MIT/CMU/Cornell/DJI/Figure。HN招聘帖热门项目，GitHub Trending #3。如果你对具身智能（Embodied AI）感兴趣，这是目前最前沿的开源切入点。

◉ Cerno 专门针对 LLM 推理能力设计的 CAPTCHA 系统（而非传统的图像识别）。HN Show HN 热帖。如果你在做 AI 安全或反滥用相关的项目，这个思路非常有启发性。

◉ Karpathy LLM Wiki 社区实现 基于 Karpathy 4月3日提出的 LLM Wiki 概念，社区已涌现多个开源实现。用 LLM 从原始研究材料自动构建个人知识库，可能比传统 RAG 更适合个人使用场景。值得 fork 一个来搭建自己的「第二大脑」。