🤖 AI Research Daily - 2026-06-02

2026-06-02

🧠 AI 前沿情报简报 · 2026-06-02 覆盖周期：2026 年 5 月 ~ 6 月初 | 主线：从「Scaling 时代」转向「Research 时代」

———————————————

一、底层趋势：范式之争浮上水面

今年最值得 AGI 从业者关注的，不是某个新模型，而是路线分裂的明朗化：

• 「加 GPU 就行」的时代结束了。Ilya Sutskever（SSI）公开表态：行业正从 age of scaling 转向 age of research——不再赌「更大的 GPT-7 会自动变成 AGI」，而是赌一种不同目标函数、能持续学习的新架构。他把目标产品类比为「一个有基础工具但缺乏世界经验的超智能 15 岁少年」，靠 continual learning 自己去学医、学法。AGI 时间表：5~20 年。

• Yann LeCun（Meta）彻底押注 world models。坚持 LLM 是「死路」，主推 JEPA 架构——通过处理视频建立内部世界表征来推理与规划。与主流 LLM 路线正面分道。

• 2026 被多方定义为「world models + continual learning 原型突破年」。Hassabis 等人认为通往 AGI 的下一波增益来自算法突破（continual learning / memory architectures / world models / 规划推理），而非纯算力。核心痛点仍是 catastrophic forgetting（学新忘旧），新思路是「锁定核心技能神经通路、保留其余可塑性」。

• AGI 时间表分歧（Davos 2026）：Amodei 认为「Nobel 级全能 AI」可能 2026~2027 到来；Hassabis 给出「2030 年前 50% 概率」。分歧本身比数字更重要——但两人都同意正逼近一个人类史上未有的阈值。

———————————————

二、人事地震：Karpathy 加入 Anthropic

• Andrej Karpathy 于 2026-05-19 宣布加入 Anthropic（TechCrunch 证实），进入 pre-training 团队（lead：Nick Joseph），方向是「用 Claude 加速 pre-training research」。这是本月最重磅的 talent move——一个长期做 education/小模型的人回到大规模训练一线。 • 他 2026-02-12 的博客 microgpt：200 行纯 Python、零依赖训练+推理一个 GPT。延续他的「Software 3.0（用 prompt 编程）」框架。 • 另一桩：Mistral 联创、Thinking Machines 创始成员 Devendra Chaplot 加入 xAI/SpaceX，直接跟 Musk 做 Grok 训练。 人才正在向「pre-training + superintelligence」两极聚集。

———————————————

三、主流实验室动态（美/欧）

• Anthropic：发布 Claude Opus 4.8，强调 benchmark、协作性与诚实度提升；新增 effort control、Claude Code 动态工作流、更便宜的 fast mode。 • OpenAI：GPT-5.5（4 月底）深入 coding/agent，已进 GitHub Copilot；与 Dell 合作把 Codex 带进本地/混合企业环境。 • Google DeepMind：I/O 2026 主打降价——Gemini 3.5 Flash 抢企业客户，Ultra 订阅 $250→$200；Gemini Robotics-ER 1.6 进入 Boston Dynamics 的 Spot。 • xAI：5 月极活跃——Grok 4.3（1M context、原生视频输入）、Grok Build（agentic coding 专用模型）、Custom Skills、大量 connectors + 自带 MCP server。Grok 5 路线图直指 AGI 叙事。 • Meta：LeCun 的 world model 路线与 Superintelligence Lab 的产品压力并存，内部张力值得观察。 • Mistral（欧洲）：发布 Mistral 3，开源生态活跃（fork/PR 三个月翻倍）。

———————————————

四、中国：一年内追到第一梯队边缘

• Moonshot Kimi K2.6（4/20）：1T 参数 VLM，首个在 SWE-Bench Pro 上击败 GPT-5.4 的开源权重模型；可跑数天的 plan-write-test-debug 循环、实例化上百 agent 协作；早期测试 2M token 输入。 • Zhipu GLM-5（2 月）：一度登顶 Artificial Analysis 开源榜，用了 DeepSeek 的 DSA 稀疏注意力，全程华为 Ascend 训练、完全脱离美制芯片——这是地缘信号。 • DeepSeek V4：MIT 许可，Pro 版 1.6T、Flash 版 284B，持续逼近闭源 API。 • Qwen3.6/3.7-Max（Alibaba）：agentic coding + 世界知识增强，部分榜单居首。 • ByteDance Doubao 2.0：中国消费端最大 AI App（155M 周活），Pro 版对标 GPT-5.2 而成本约 1/10。 • Baidu ERNIE 5.0：2.4T 全模态、Kunlun 自研芯片训练。 结构性看点：开源权重 + 国产芯片 + 极致性价比，正在重塑 OpenRouter 调用份额（国产合计已超 45%）。

———————————————

五、日韩

• 韩国「主权 AI」：政府选定五支队伍（Naver Cloud / Upstage / SKT / NC AI / LG AI Research）两年攻坚 foundation model。Naver 推个人 agent「Agent N」，并新设国防 AI 部门切主权市场。 • 日本：走效率/可控/企业本地部署路线——NTT 的轻量模型 tsuzumi 主打 on-premise；Sakana AI 继续探索 evolutionary model-merging（不靠堆算力提性能）。 • 硬件咽喉：HBM4 成下一代 AI 加速器瓶颈，三星/SK 海力士掌握主要供给；黄仁勋访韩强调机器人。

———————————————

六、🎮 值得玩的东西 （面向独立开发者，可复现/二次开发，附仓库链接）

• GenericAgent — 仅 ~3K 行的自进化 agent，从「种子技能树」成长，赋予任意 LLM 对本地电脑的系统级控制（浏览器/终端/文件/键鼠/屏幕视觉/ADB 手机），号称 token 消耗少 6 倍。想自己搭 computer-use agent 的最佳精简起点。

• Hermes Agent（Nous Research）— 复杂任务后自动创建并自我改进技能的 agent，三个月破 14 万 star。「skill 自生长」这一玩法的代表实现。

• awesome-llm-skills — 兼容 Claude Code / Codex / Gemini CLI 的 Skills 资源大全。当下最火的「skills > prompts」范式，直接抄作业。

• Goose（Block）— Rust 写的可扩展开源 agent，能装、跑、改、测代码。本地优先、插件化，适合改造成自己的工程助手。

• Ollama + llama.cpp — 本地跑 DeepSeek V4 / GLM-5 / Qwen / Gemma 的事实标准。一行命令拉模型，配合国产开源权重，零成本搭私有推理。

• Dify（132K★）+ n8n（179K★）— agent workflow 编排 + 通用自动化。把上面的模型/agent 串成能跑业务的产品，独立开发者变现链路。

• OpenCode — 开源 AI coding agent，HN 热议；以及 HN 上的极简流派 Axe（12MB 二进制替代整个 AI framework）、Zerostack（纯 Rust、Unix 哲学 coding agent）。HN 的共识：verification 是瓶颈，orchestration 比 raw autonomy 重要。

———————————————

核查说明：实验室人事（Karpathy→Anthropic）与路线之争来自 TechCrunch/WEF 等一手源，可信度高；具体版本号、star 数、发布日多取自二手聚合源，建议对关键决策项二次核验。