🤖 AI Research Daily - 2026-04-08

🔬 AI 行业深度周报 | 2026年4月8日

━━━━━━━━━━━━━━━━━━━ 一、前沿模型竞赛:各实验室最新动态 ━━━━━━━━━━━━━━━━━━━

◉ OpenAI GPT-5.4 于3月5日发布,支持100万 token 上下文窗口,可自主执行跨软件环境的多步骤工作流。在 OSWorld-V 桌面生产力基准测试中得分75%,首次超过人类基线(72.4%)。GDPval 知识工作测试得分83%,均为历史新高。GPT-5.5(代号 Spud)已完成预训练,预计近期发布。

◉ Anthropic Claude Sonnet 4.6(2月17日)和 Opus 4.6(2月5日)已发布,均支持100万 token 上下文窗口(beta)。Claude Mythos 5 发布,10万亿参数,专攻网络安全、学术研究和复杂编码场景,是业界首个公认的十万亿级参数模型。此外,Anthropic 与 Google/Broadcom 签署多吉瓦级 TPU 算力协议,2027年起交付。Model Context Protocol(MCP)3月安装量突破9700万,已成为 AI Agent 连接外部工具的事实标准。

◉ Google DeepMind Gemini 3.1 Pro(2月19日发布)在16项基准中的13项取得领先。ARC-AGI-2 得分77.1%,这是一个无法通过记忆蒙混的纯逻辑与新颖问题解决测试。同时发布 TurboQuant 压缩算法(ICLR 2026),通过 PolarQuant 向量旋转 + 量化 Johnson-Lindenstrauss 压缩,将 KV Cache 内存开销降低6倍。

◉ xAI Grok 4 / 4 Heavy 已上线。Grok 5 延期至Q2 2026,参数量传闻为6万亿(Grok 4的两倍)。值得关注的结构性变化:SpaceX 于2月2日收购了 xAI。Grok Imagine 持续迭代,角色一致性和复杂场景合成能力显著提升。

◉ Meta Llama 4 Maverick(400B参数,1000万 token 上下文窗口)是目前最强的开源权重模型,可在自有基础设施上免费运行。

━━━━━━━━━━━━━━━━━━━ 二、中国 AI 战场 ━━━━━━━━━━━━━━━━━━━

◉ DeepSeek DeepSeek V4 发布——1万亿参数 MoE 模型,完全开放权重,性能对标美国前沿模型,训练成本仅约520万美元。R2(R1继任者)因 Ascend 硬件训练困难而延期。年初发表 **Manifold-Constrained Hyper-Connections(mHC)**架构论文,提出对基础架构的根本性重新思考。获得政府有条件批准采购 NVIDIA H20 芯片。

◉ Alibaba / Qwen Qwen 最新版本支持 AI Agent 任务,可理解文本、图片和视频输入(支持最长2小时视频分析)。Alibaba 是中国 AI 模型的产量领先者。

◉ Baidu 在 DeepSeek 的冲击下,百度从闭源转向开源。Ernie 4.5X1 推理模型为当前旗舰。

◉ 行业数据 中国 AI token 日使用量在2026年3月达到 140万亿。中国企业约34%的岗位职能已完全整合 AI 工具(全球平均30%)。字节跳动、腾讯、阿里、百度均在春节期间密集面向消费者推出 AI 应用集成。

◉ 中美博弈 OpenAI、Anthropic、Google 通过 Frontier Model Forum 联手打击中国竞争对手的对抗性蒸馏(adversarial distillation)行为——即通过提取美国前沿模型的输出来训练自身模型。

━━━━━━━━━━━━━━━━━━━ 三、欧洲 / 日韩 ━━━━━━━━━━━━━━━━━━━

◉ 欧洲 Mistral Small 4——119B参数混合模型,6.5B活跃参数,256k上下文窗口。欧洲持续押注主权和开放权重模型。

重磅消息:图灵奖得主、Meta前首席AI科学家 Yann LeCun 创立 AMI Labs,获 NVIDIA 等支持的 10.3亿美元种子轮融资(欧洲史上最大种子轮),估值35亿美元。研究方向为**「世界模型」(World Models)**,作为 LLM 之外的替代AI架构。

◉ 日本 Rakuten AI 3.0——GENIAC 项目下日本最大的高性能 AI 模型,在日语基准测试中表现突出。

◉ 韩国 韩国政府与 Anthropic 就国家 AI 基础设施合作进行谈判。产业贸易能源部投入 7000亿韩元推动制造业AI转型(M.AX)计划。

━━━━━━━━━━━━━━━━━━━ 四、AGI 进展与关键人物观点 ━━━━━━━━━━━━━━━━━━━

◉ AGI 基准现状 ARC-AGI-3 已发布(200万美元奖金),但所有前沿模型得分低于1%,而人类可解决100%的环境。这意味着在真正的通用推理能力上,差距仍然巨大。ARC-AGI-2 上 Gemini 3.1 Pro 得分77.1%是目前最佳。METR 的任务完成时间范围测试也在持续追踪 Agent 能力的进展。

◉ Dario Amodei(Anthropic CEO) 达沃斯发言:AI 模型将在一年内替代所有软件开发者的工作;两年内达到多个领域的「诺贝尔级」科研水平。「到2026或2027年,我们将拥有在几乎所有事情上都比所有人类更强的 AI 系统。」预测半数初级白领岗位将在1-5年内消失。

◉ Demis Hassabis(Google DeepMind CEO) 明确表示当前 AI 系统「远未达到」人类级 AGI。将真正的 AGI 时间线定在5-10年后。称 AI 将产生「工业革命10倍的影响,以10倍的速度」。

◉ Ilya Sutskever / SSI Safe Superintelligence Inc. 以320亿美元估值融资20亿美元(较2024年9月的50亿估值翻了6倍多)。Daniel Gross 离开加入 Meta 后,Sutskever 于2025年7月亲任 CEO。研究方向:超越大规模参数堆叠的全新 AGI 路径。2026年获得 NAS 工业应用科学奖(AI领域首次)。

◉ Yann LeCun 离开 Meta 创立 AMI Labs,押注世界模型作为 LLM 的替代架构。在达沃斯与 Amodei/Hassabis 就 AGI 时间线产生尖锐分歧。

━━━━━━━━━━━━━━━━━━━ 五、Andrej Karpathy 动态 ━━━━━━━━━━━━━━━━━━━

◉ microgpt(2月12日博文) 单文件200行纯 Python、零依赖实现完整 GPT 训练与推理。包含数据集处理、tokenizer、autograd 引擎、GPT-2架构、Adam优化器、训练循环与推理循环。极致的教学项目。 → karpathy.github.io/microgpt

◉ LLM Wiki(4月3日) Karpathy 提出从「用 AI 写代码」转向「用 AI 构建知识结构」。LLM Wiki 是一种 AI 驱动的个人知识管理系统,能从原始研究材料自动构建和维护一个 wiki。社区迅速涌现大量实现,引发「这是否让 RAG 管道过时」的激烈讨论。

◉ AutoResearch 提出让 AI Agent 接管一个小型但真实的 LLM 训练环境,整夜自主实验:修改代码 → 训练5分钟 → 检查是否改进 → 保留或丢弃 → 循环。自动化 ML 研究的雏形。

━━━━━━━━━━━━━━━━━━━ 六、技术前沿与架构演进 ━━━━━━━━━━━━━━━━━━━

◉ AI Scientist-v2(Sakana AI) 首篇完全由 AI 生成的论文通过严格人类同行评审并在 Nature 发表。这是一个里程碑事件——AI 已能产出达到顶级期刊标准的科研论文。

◉ 架构范式转移 2026年的关键趋势:从单一的巨型模型转向多组件基础系统(Multi-Component Foundation Systems)——模块化架构取代纯参数扩展。DeepSeek 的 mHC 架构、LeCun 的世界模型、以及各家的 MoE 实践都指向同一方向。

◉ 推理时计算缩放(Inference-Time Scaling) 已成为前沿模型的标配能力。通过在推理阶段投入更多计算资源来提升复杂推理任务的表现,而非仅依赖更大的预训练模型。

━━━━━━━━━━━━━━━━━━━ 七、值得玩的东西 ━━━━━━━━━━━━━━━━━━━

◉ OpenClaw github.com/openclaw/openclaw 本地运行的个人 AI Agent,通过 Telegram/WhatsApp/Signal 等聊天应用交互,能操控浏览器、执行Shell命令、管理日历、发邮件,且能自主编写代码扩展自身能力。GitHub 史上增长最快的项目之一(300k+ stars)。独立开发者的终极自动化入口。

◉ Karpathy microgpt karpathy.github.io/microgpt 200行纯 Python 实现完整 GPT。零依赖,从 tokenizer 到 Adam 优化器全部手写。理解 Transformer 底层原理的最佳教学材料,适合二次开发和魔改实验。

◉ Goose(by Block) github.com/block/goose Block(前Square)开源的可扩展 AI 工程 Agent,支持任意 LLM 后端,可安装、执行、编辑和测试代码。本地运行,插件化架构,适合搭建个人开发工作流。

◉ VoltAgent/awesome-design-md github.com/VoltAgent/awesome-design-md 收集主流网站的 DESIGN.md 设计系统文件,直接丢进项目里让 Coding Agent 生成匹配的UI。对于用 AI 快速搭建产品原型极为实用。

◉ addyosmani/agent-skills github.com/addyosmani/agent-skills 为 AI Coding Agent 打造的生产级工程技能集合。如果你在用 Claude Code / Cursor 等工具,这套技能库能显著提升 Agent 的工程输出质量。

◉ Dimensional github.com/dimensional-ai 面向通用机器人的 Agentic 操作系统,团队来自 MIT/CMU/Cornell/DJI/Figure。HN招聘帖热门项目,GitHub Trending #3。如果你对具身智能(Embodied AI)感兴趣,这是目前最前沿的开源切入点。

◉ Cerno 专门针对 LLM 推理能力设计的 CAPTCHA 系统(而非传统的图像识别)。HN Show HN 热帖。如果你在做 AI 安全或反滥用相关的项目,这个思路非常有启发性。

◉ Karpathy LLM Wiki 社区实现 基于 Karpathy 4月3日提出的 LLM Wiki 概念,社区已涌现多个开源实现。用 LLM 从原始研究材料自动构建个人知识库,可能比传统 RAG 更适合个人使用场景。值得 fork 一个来搭建自己的「第二大脑」。