🤖 AI Research Daily - 2026-06-02
🧠 AI 前沿情报简报 · 2026-06-02 覆盖周期:2026 年 5 月 ~ 6 月初 | 主线:从「Scaling 时代」转向「Research 时代」
———————————————
一、底层趋势:范式之争浮上水面
今年最值得 AGI 从业者关注的,不是某个新模型,而是路线分裂的明朗化:
• 「加 GPU 就行」的时代结束了。Ilya Sutskever(SSI)公开表态:行业正从 age of scaling 转向 age of research——不再赌「更大的 GPT-7 会自动变成 AGI」,而是赌一种不同目标函数、能持续学习的新架构。他把目标产品类比为「一个有基础工具但缺乏世界经验的超智能 15 岁少年」,靠 continual learning 自己去学医、学法。AGI 时间表:5~20 年。
• Yann LeCun(Meta)彻底押注 world models。坚持 LLM 是「死路」,主推 JEPA 架构——通过处理视频建立内部世界表征来推理与规划。与主流 LLM 路线正面分道。
• 2026 被多方定义为「world models + continual learning 原型突破年」。Hassabis 等人认为通往 AGI 的下一波增益来自算法突破(continual learning / memory architectures / world models / 规划推理),而非纯算力。核心痛点仍是 catastrophic forgetting(学新忘旧),新思路是「锁定核心技能神经通路、保留其余可塑性」。
• AGI 时间表分歧(Davos 2026):Amodei 认为「Nobel 级全能 AI」可能 2026~2027 到来;Hassabis 给出「2030 年前 50% 概率」。分歧本身比数字更重要——但两人都同意正逼近一个人类史上未有的阈值。
———————————————
二、人事地震:Karpathy 加入 Anthropic
• Andrej Karpathy 于 2026-05-19 宣布加入 Anthropic(TechCrunch 证实),进入 pre-training 团队(lead:Nick Joseph),方向是「用 Claude 加速 pre-training research」。这是本月最重磅的 talent move——一个长期做 education/小模型的人回到大规模训练一线。 • 他 2026-02-12 的博客 microgpt:200 行纯 Python、零依赖训练+推理一个 GPT。延续他的「Software 3.0(用 prompt 编程)」框架。 • 另一桩:Mistral 联创、Thinking Machines 创始成员 Devendra Chaplot 加入 xAI/SpaceX,直接跟 Musk 做 Grok 训练。 人才正在向「pre-training + superintelligence」两极聚集。
———————————————
三、主流实验室动态(美/欧)
• Anthropic:发布 Claude Opus 4.8,强调 benchmark、协作性与诚实度提升;新增 effort control、Claude Code 动态工作流、更便宜的 fast mode。 • OpenAI:GPT-5.5(4 月底)深入 coding/agent,已进 GitHub Copilot;与 Dell 合作把 Codex 带进本地/混合企业环境。 • Google DeepMind:I/O 2026 主打降价——Gemini 3.5 Flash 抢企业客户,Ultra 订阅 $250→$200;Gemini Robotics-ER 1.6 进入 Boston Dynamics 的 Spot。 • xAI:5 月极活跃——Grok 4.3(1M context、原生视频输入)、Grok Build(agentic coding 专用模型)、Custom Skills、大量 connectors + 自带 MCP server。Grok 5 路线图直指 AGI 叙事。 • Meta:LeCun 的 world model 路线与 Superintelligence Lab 的产品压力并存,内部张力值得观察。 • Mistral(欧洲):发布 Mistral 3,开源生态活跃(fork/PR 三个月翻倍)。
———————————————
四、中国:一年内追到第一梯队边缘
• Moonshot Kimi K2.6(4/20):1T 参数 VLM,首个在 SWE-Bench Pro 上击败 GPT-5.4 的开源权重模型;可跑数天的 plan-write-test-debug 循环、实例化上百 agent 协作;早期测试 2M token 输入。 • Zhipu GLM-5(2 月):一度登顶 Artificial Analysis 开源榜,用了 DeepSeek 的 DSA 稀疏注意力,全程华为 Ascend 训练、完全脱离美制芯片——这是地缘信号。 • DeepSeek V4:MIT 许可,Pro 版 1.6T、Flash 版 284B,持续逼近闭源 API。 • Qwen3.6/3.7-Max(Alibaba):agentic coding + 世界知识增强,部分榜单居首。 • ByteDance Doubao 2.0:中国消费端最大 AI App(155M 周活),Pro 版对标 GPT-5.2 而成本约 1/10。 • Baidu ERNIE 5.0:2.4T 全模态、Kunlun 自研芯片训练。 结构性看点:开源权重 + 国产芯片 + 极致性价比,正在重塑 OpenRouter 调用份额(国产合计已超 45%)。
———————————————
五、日韩
• 韩国「主权 AI」:政府选定五支队伍(Naver Cloud / Upstage / SKT / NC AI / LG AI Research)两年攻坚 foundation model。Naver 推个人 agent「Agent N」,并新设国防 AI 部门切主权市场。 • 日本:走效率/可控/企业本地部署路线——NTT 的轻量模型 tsuzumi 主打 on-premise;Sakana AI 继续探索 evolutionary model-merging(不靠堆算力提性能)。 • 硬件咽喉:HBM4 成下一代 AI 加速器瓶颈,三星/SK 海力士掌握主要供给;黄仁勋访韩强调机器人。
———————————————
六、🎮 值得玩的东西 (面向独立开发者,可复现/二次开发,附仓库链接)
• GenericAgent — 仅 ~3K 行的自进化 agent,从「种子技能树」成长,赋予任意 LLM 对本地电脑的系统级控制(浏览器/终端/文件/键鼠/屏幕视觉/ADB 手机),号称 token 消耗少 6 倍。想自己搭 computer-use agent 的最佳精简起点。
• Hermes Agent(Nous Research)— 复杂任务后自动创建并自我改进技能的 agent,三个月破 14 万 star。「skill 自生长」这一玩法的代表实现。
• awesome-llm-skills — 兼容 Claude Code / Codex / Gemini CLI 的 Skills 资源大全。当下最火的「skills > prompts」范式,直接抄作业。
• Goose(Block)— Rust 写的可扩展开源 agent,能装、跑、改、测代码。本地优先、插件化,适合改造成自己的工程助手。
• Ollama + llama.cpp — 本地跑 DeepSeek V4 / GLM-5 / Qwen / Gemma 的事实标准。一行命令拉模型,配合国产开源权重,零成本搭私有推理。
• Dify(132K★)+ n8n(179K★)— agent workflow 编排 + 通用自动化。把上面的模型/agent 串成能跑业务的产品,独立开发者变现链路。
• OpenCode — 开源 AI coding agent,HN 热议;以及 HN 上的极简流派 Axe(12MB 二进制替代整个 AI framework)、Zerostack(纯 Rust、Unix 哲学 coding agent)。HN 的共识:verification 是瓶颈,orchestration 比 raw autonomy 重要。
———————————————
核查说明:实验室人事(Karpathy→Anthropic)与路线之争来自 TechCrunch/WEF 等一手源,可信度高;具体版本号、star 数、发布日多取自二手聚合源,建议对关键决策项二次核验。