2026-07-01

提出Dead-Direction Conditioner(DDC)，将优化器提升为G-等变的，使训练轨迹保持在对称商空间上，防止过训练崩溃，在语言模型和视觉Transformer上显著提升性能。 Anthropic发布Claude Sonnet 5，智能体能力大幅提升，在推理、编码、工具使用等方面接近Opus 4.8但价格更低，即日起可用。 Anthropi…

Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks 90

Tags: 训练方法 优化器 深度学习 等变性
Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
提出Dead-Direction Conditioner(DDC)，将优化器提升为G-等变的，使训练轨迹保持在对称商空间上，防止过训练崩溃，在语言模型和视觉Transformer上显著提升性能。

Introducing Claude Sonnet 5 85

Tags: 模型发布 智能体 大模型
Source: Anthropic News | 阅读原文

[摘要]
Anthropic发布Claude Sonnet 5，智能体能力大幅提升，在推理、编码、工具使用等方面接近Opus 4.8但价格更低，即日起可用。

Claude Science 科研工作台正式上线 85

Tags: 产品发布 AI科研 大模型 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic推出AI科研工作台Claude Science，整合60余项预配置技能和连接器，覆盖多学科科研全流程，支持本地与远程运行，内置审计功能，面向Pro/Team等用户开放。

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash 85

Tags: 模型发布 多模态 产品发布
Source: AI HOT 精选 | 阅读原文

[摘要]
Google DeepMind 发布 Nano Banana 2 Lite（低成本快速图像生成）和 Gemini Omni Flash（高画质视频生成与编辑），并开放API，显著影响多模态AI部署。

Claude Sonnet 5 发布 85

Tags: 模型发布 智能体 公司动态 定价
Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic发布Claude Sonnet 5，具备计划、浏览器和终端工具使用能力，性能接近Opus 4.8且定价更低，推理和编程能力大幅提升，即日起可用。

Modeling Earth-Scale Human-Like Societies with One Billion Agents 85

Tags: 研究 大规模模拟 多智能体 LLM
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Light Society框架，用混合模型实现十亿级智能体社会模拟，高效还原人类行为，推动大规模社会仿真研究。

The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling 85

Tags: 大模型 推理优化 模型评估 研究
Source: arXiv Computation and Language | 阅读原文

[摘要]
新基准CCB评估大模型随推理步数增加的能力衰减，发现几何衰减模式，对理解模型长程推理局限有普遍意义。

Accelerating scientific discovery with Co-Scientist 85

Tags: 智能体 AI for Science 模型发布
Source: arXiv Computation and Language | 阅读原文

[摘要]
Google推出Co-Scientist，基于Gemini的多智能体AI系统，用于科学假设生成，在药物重定位、新靶点发现等生物医学任务中通过体外实验验证，加速科学发现。

Internalized Reasoning for Long-Context Visual Document Understanding 85

Tags: 推理优化 多模态 训练方法
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出内化推理合成数据流程，用于长文档视觉理解，在Qwen3 VL上超越7倍大模型且输出token减少12倍

How to Train Your Long-Context Visual Document Model 85

Tags: 大模型 多模态 模型发布 研究进展
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出首个系统训练长上下文视觉文档模型研究，在344K上下文达SOTA性能，发布校正版基准，推动多模态长文档理解发展。

Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks 85

Tags: 大模型 训练方法 优化 研究发布
Source: arXiv Computation and Language | 阅读原文

[摘要]
介绍进化微调(EFT)方法，在371个优化任务上训练LLM学习进化搜索策略，跨任务泛化提升10.22%，匹配SOTA。

LatentRevise: Learning from Zero-Hit Reasoning 85

Tags: 研究进展 强化学习 推理优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 LatentRevise 方法，从强化学习可验证奖励（RLVR）的零命中失败轨迹中提取训练信号，通过优化嵌入将推理前缀推向正确答案，显著提升 SFT 和 RLVR 在数学基准上的性能。

Why Struggle with Continuous Latents? Interpretable Discrete Latent Reasoning via Rendered Compression 85

Tags: 推理优化 模型研究 可解释性 大模型
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出离散潜在推理DLR，将连续潜在状态转换为显式离散令牌，实现可解释的高效推理，在多个基准上以20倍压缩率超越之前方法。

Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies 85

Tags: 可解释性 数据归因 AI安全 研究
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出SMDA框架，将训练数据归因到模型学习到的可解释符号策略，揭示安全行为中的系统性差距，提升模型可解释性与安全性。

The Undecidability of Artificial General Intelligence (AGI) Alignment 85

Tags: AI安全 理论突破 对齐问题
Source: arXiv Computation and Language | 阅读原文

[摘要]
论文证明AGI对齐的核心障碍不是不可能，而是结构上不可验证，通过不可判定性定理和特拉克滕布罗特墙建立数学极限，对现代AI安全策略有根本性影响。

Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent 85

Tags: 模型发布 智能体 研究
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出35B参数的Agents-A1智能体模型，通过扩展智能体视界达到万亿参数性能，在长视界基准上超越或匹配大规模模型。

黑石未来3~5年拟投300亿美元在日本建AI数据中心，联合成立AI XPV平台 82

Tags: 算力基础设施 数据中心 产业投资 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
黑石计划未来3~5年在日本投资300亿美元建设AI数据中心，并联合阿波罗、博通成立AI XPV平台，向OpenAI、Anthropic等提供超20GW算力，凸显AI算力需求激增。

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试 80

Tags: 基准测试 计算生物学 AI智能体 OpenAI
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI发布GeneBench-Pro基准，用于评估AI智能体在计算生物学中处理模糊性和判断性分析的能力，涵盖129个问题及10个领域。

Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示 80

Tags: AI安全 公司动态 行业测试 伦理
Source: AI HOT 精选 | 阅读原文

[摘要]
Meta通过承包商秘密向ChatGPT等竞品发送数万条未成年人危机提示以测试安全，此举未获对方同意，引发伦理和合规争议。

美团 LongCat 发布旗舰模型 LongCat-2.0 80

Tags: 模型发布 大模型 智能体 推理优化
Source: AI HOT 精选 | 阅读原文

[摘要]
美团发布LongCat-2.0，1.6T参数MoE架构（48B活跃），原生支持1M上下文，专为Agentic Coding设计，SWE-bench Pro得分59.5，已上线SiliconFlow。

2026-07-01 ​

Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks 90 ​

Introducing Claude Sonnet 5 85 ​

Claude Science 科研工作台正式上线 85 ​

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash 85 ​

Claude Sonnet 5 发布 85 ​

Modeling Earth-Scale Human-Like Societies with One Billion Agents 85 ​

The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling 85 ​

Accelerating scientific discovery with Co-Scientist 85 ​

Internalized Reasoning for Long-Context Visual Document Understanding 85 ​

How to Train Your Long-Context Visual Document Model 85 ​

Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks 85 ​

LatentRevise: Learning from Zero-Hit Reasoning 85 ​

Why Struggle with Continuous Latents? Interpretable Discrete Latent Reasoning via Rendered Compression 85 ​

Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies 85 ​

The Undecidability of Artificial General Intelligence (AGI) Alignment 85 ​

Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent 85 ​

黑石未来3~5年拟投300亿美元在日本建AI数据中心，联合成立AI XPV平台 82 ​

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试 80 ​

Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示 80 ​

美团 LongCat 发布旗舰模型 LongCat-2.0 80 ​

2026-07-01

Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks 90

Introducing Claude Sonnet 5 85

Claude Science 科研工作台正式上线 85

Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash 85

Claude Sonnet 5 发布 85

Modeling Earth-Scale Human-Like Societies with One Billion Agents 85

The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling 85

Accelerating scientific discovery with Co-Scientist 85

Internalized Reasoning for Long-Context Visual Document Understanding 85

How to Train Your Long-Context Visual Document Model 85

Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks 85

LatentRevise: Learning from Zero-Hit Reasoning 85

Why Struggle with Continuous Latents? Interpretable Discrete Latent Reasoning via Rendered Compression 85

Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies 85

The Undecidability of Artificial General Intelligence (AGI) Alignment 85

Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent 85

黑石未来3~5年拟投300亿美元在日本建AI数据中心，联合成立AI XPV平台 82

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试 80

Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示 80

美团 LongCat 发布旗舰模型 LongCat-2.0 80