Skip to content

2026-07-01

提出Dead-Direction Conditioner(DDC),将优化器提升为G-等变的,使训练轨迹保持在对称商空间上,防止过训练崩溃,在语言模型和视觉Transformer上显著提升性能。 Anthropic发布Claude Sonnet 5,智能体能力大幅提升,在推理、编码、工具使用等方面接近Opus 4.8但价格更低,即日起可用。 Anthropi…

Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks 90

  • Tags: 训练方法 优化器 深度学习 等变性

  • Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
提出Dead-Direction Conditioner(DDC),将优化器提升为G-等变的,使训练轨迹保持在对称商空间上,防止过训练崩溃,在语言模型和视觉Transformer上显著提升性能。


Introducing Claude Sonnet 5 85

  • Tags: 模型发布 智能体 大模型

  • Source: Anthropic News | 阅读原文

[摘要]
Anthropic发布Claude Sonnet 5,智能体能力大幅提升,在推理、编码、工具使用等方面接近Opus 4.8但价格更低,即日起可用。


Claude Science 科研工作台正式上线 85

  • Tags: 产品发布 AI科研 大模型 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic推出AI科研工作台Claude Science,整合60余项预配置技能和连接器,覆盖多学科科研全流程,支持本地与远程运行,内置审计功能,面向Pro/Team等用户开放。


Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash 85

  • Tags: 模型发布 多模态 产品发布

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google DeepMind 发布 Nano Banana 2 Lite(低成本快速图像生成)和 Gemini Omni Flash(高画质视频生成与编辑),并开放API,显著影响多模态AI部署。


Claude Sonnet 5 发布 85

  • Tags: 模型发布 智能体 公司动态 定价

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic发布Claude Sonnet 5,具备计划、浏览器和终端工具使用能力,性能接近Opus 4.8且定价更低,推理和编程能力大幅提升,即日起可用。


Modeling Earth-Scale Human-Like Societies with One Billion Agents 85

  • Tags: 研究 大规模模拟 多智能体 LLM

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Light Society框架,用混合模型实现十亿级智能体社会模拟,高效还原人类行为,推动大规模社会仿真研究。


The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling 85

  • Tags: 大模型 推理优化 模型评估 研究

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
新基准CCB评估大模型随推理步数增加的能力衰减,发现几何衰减模式,对理解模型长程推理局限有普遍意义。


Accelerating scientific discovery with Co-Scientist 85

  • Tags: 智能体 AI for Science 模型发布

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
Google推出Co-Scientist,基于Gemini的多智能体AI系统,用于科学假设生成,在药物重定位、新靶点发现等生物医学任务中通过体外实验验证,加速科学发现。


Internalized Reasoning for Long-Context Visual Document Understanding 85

  • Tags: 推理优化 多模态 训练方法

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出内化推理合成数据流程,用于长文档视觉理解,在Qwen3 VL上超越7倍大模型且输出token减少12倍


How to Train Your Long-Context Visual Document Model 85

  • Tags: 大模型 多模态 模型发布 研究进展

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出首个系统训练长上下文视觉文档模型研究,在344K上下文达SOTA性能,发布校正版基准,推动多模态长文档理解发展。


Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks 85

  • Tags: 大模型 训练方法 优化 研究发布

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
介绍进化微调(EFT)方法,在371个优化任务上训练LLM学习进化搜索策略,跨任务泛化提升10.22%,匹配SOTA。


LatentRevise: Learning from Zero-Hit Reasoning 85

  • Tags: 研究进展 强化学习 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 LatentRevise 方法,从强化学习可验证奖励(RLVR)的零命中失败轨迹中提取训练信号,通过优化嵌入将推理前缀推向正确答案,显著提升 SFT 和 RLVR 在数学基准上的性能。


Why Struggle with Continuous Latents? Interpretable Discrete Latent Reasoning via Rendered Compression 85

  • Tags: 推理优化 模型研究 可解释性 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出离散潜在推理DLR,将连续潜在状态转换为显式离散令牌,实现可解释的高效推理,在多个基准上以20倍压缩率超越之前方法。


Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies 85

  • Tags: 可解释性 数据归因 AI安全 研究

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出SMDA框架,将训练数据归因到模型学习到的可解释符号策略,揭示安全行为中的系统性差距,提升模型可解释性与安全性。


The Undecidability of Artificial General Intelligence (AGI) Alignment 85

  • Tags: AI安全 理论突破 对齐问题

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
论文证明AGI对齐的核心障碍不是不可能,而是结构上不可验证,通过不可判定性定理和特拉克滕布罗特墙建立数学极限,对现代AI安全策略有根本性影响。


Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent 85

  • Tags: 模型发布 智能体 研究

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出35B参数的Agents-A1智能体模型,通过扩展智能体视界达到万亿参数性能,在长视界基准上超越或匹配大规模模型。


黑石未来3~5年拟投300亿美元在日本建AI数据中心,联合成立AI XPV平台 82

  • Tags: 算力基础设施 数据中心 产业投资 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
黑石计划未来3~5年在日本投资300亿美元建设AI数据中心,并联合阿波罗、博通成立AI XPV平台,向OpenAI、Anthropic等提供超20GW算力,凸显AI算力需求激增。


OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试 80

  • Tags: 基准测试 计算生物学 AI智能体 OpenAI

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI发布GeneBench-Pro基准,用于评估AI智能体在计算生物学中处理模糊性和判断性分析的能力,涵盖129个问题及10个领域。


Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示 80

  • Tags: AI安全 公司动态 行业测试 伦理

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Meta通过承包商秘密向ChatGPT等竞品发送数万条未成年人危机提示以测试安全,此举未获对方同意,引发伦理和合规争议。


美团 LongCat 发布旗舰模型 LongCat-2.0 80

  • Tags: 模型发布 大模型 智能体 推理优化

  • Source: AI HOT 精选 | 阅读原文

[摘要]
美团发布LongCat-2.0,1.6T参数MoE架构(48B活跃),原生支持1M上下文,专为Agentic Coding设计,SWE-bench Pro得分59.5,已上线SiliconFlow。