2026-07-01
提出Dead-Direction Conditioner(DDC),将优化器提升为G-等变的,使训练轨迹保持在对称商空间上,防止过训练崩溃,在语言模型和视觉Transformer上显著提升性能。 Anthropic发布Claude Sonnet 5,智能体能力大幅提升,在推理、编码、工具使用等方面接近Opus 4.8但价格更低,即日起可用。 Anthropi…
Dead-Direction Conditioners: Gauge-Equivariant Preconditioning for Deep Networks 90
Tags:
训练方法优化器深度学习等变性Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
提出Dead-Direction Conditioner(DDC),将优化器提升为G-等变的,使训练轨迹保持在对称商空间上,防止过训练崩溃,在语言模型和视觉Transformer上显著提升性能。
Introducing Claude Sonnet 5 85
Tags:
模型发布智能体大模型Source:
Anthropic News| 阅读原文
[摘要]
Anthropic发布Claude Sonnet 5,智能体能力大幅提升,在推理、编码、工具使用等方面接近Opus 4.8但价格更低,即日起可用。
Claude Science 科研工作台正式上线 85
Tags:
产品发布AI科研大模型公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
Anthropic推出AI科研工作台Claude Science,整合60余项预配置技能和连接器,覆盖多学科科研全流程,支持本地与远程运行,内置审计功能,面向Pro/Team等用户开放。
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash 85
Tags:
模型发布多模态产品发布Source:
AI HOT 精选| 阅读原文
[摘要]
Google DeepMind 发布 Nano Banana 2 Lite(低成本快速图像生成)和 Gemini Omni Flash(高画质视频生成与编辑),并开放API,显著影响多模态AI部署。
Claude Sonnet 5 发布 85
Tags:
模型发布智能体公司动态定价Source:
AI HOT 精选| 阅读原文
[摘要]
Anthropic发布Claude Sonnet 5,具备计划、浏览器和终端工具使用能力,性能接近Opus 4.8且定价更低,推理和编程能力大幅提升,即日起可用。
Modeling Earth-Scale Human-Like Societies with One Billion Agents 85
Tags:
研究大规模模拟多智能体LLMSource:
arXiv Computation and Language| 阅读原文
[摘要]
提出Light Society框架,用混合模型实现十亿级智能体社会模拟,高效还原人类行为,推动大规模社会仿真研究。
The Complexity Ceiling Benchmark: A Multi-Domain Evaluation of Sequential Reasoning Under Depth Scaling 85
Tags:
大模型推理优化模型评估研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
新基准CCB评估大模型随推理步数增加的能力衰减,发现几何衰减模式,对理解模型长程推理局限有普遍意义。
Accelerating scientific discovery with Co-Scientist 85
Tags:
智能体AI for Science模型发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
Google推出Co-Scientist,基于Gemini的多智能体AI系统,用于科学假设生成,在药物重定位、新靶点发现等生物医学任务中通过体外实验验证,加速科学发现。
Internalized Reasoning for Long-Context Visual Document Understanding 85
Tags:
推理优化多模态训练方法Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出内化推理合成数据流程,用于长文档视觉理解,在Qwen3 VL上超越7倍大模型且输出token减少12倍
How to Train Your Long-Context Visual Document Model 85
Tags:
大模型多模态模型发布研究进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出首个系统训练长上下文视觉文档模型研究,在344K上下文达SOTA性能,发布校正版基准,推动多模态长文档理解发展。
Evolution Fine-Tuning: Learning to Discover Across 371 Optimization Tasks 85
Tags:
大模型训练方法优化研究发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
介绍进化微调(EFT)方法,在371个优化任务上训练LLM学习进化搜索策略,跨任务泛化提升10.22%,匹配SOTA。
LatentRevise: Learning from Zero-Hit Reasoning 85
Tags:
研究进展强化学习推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出 LatentRevise 方法,从强化学习可验证奖励(RLVR)的零命中失败轨迹中提取训练信号,通过优化嵌入将推理前缀推向正确答案,显著提升 SFT 和 RLVR 在数学基准上的性能。
Why Struggle with Continuous Latents? Interpretable Discrete Latent Reasoning via Rendered Compression 85
Tags:
推理优化模型研究可解释性大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出离散潜在推理DLR,将连续潜在状态转换为显式离散令牌,实现可解释的高效推理,在多个基准上以20倍压缩率超越之前方法。
Symbolic Mechanistic Data Attribution: Tracing Training Influence to Learned Behavioral Policies 85
Tags:
可解释性数据归因AI安全研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出SMDA框架,将训练数据归因到模型学习到的可解释符号策略,揭示安全行为中的系统性差距,提升模型可解释性与安全性。
The Undecidability of Artificial General Intelligence (AGI) Alignment 85
Tags:
AI安全理论突破对齐问题Source:
arXiv Computation and Language| 阅读原文
[摘要]
论文证明AGI对齐的核心障碍不是不可能,而是结构上不可验证,通过不可判定性定理和特拉克滕布罗特墙建立数学极限,对现代AI安全策略有根本性影响。
Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent 85
Tags:
模型发布智能体研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出35B参数的Agents-A1智能体模型,通过扩展智能体视界达到万亿参数性能,在长视界基准上超越或匹配大规模模型。
黑石未来3~5年拟投300亿美元在日本建AI数据中心,联合成立AI XPV平台 82
Tags:
算力基础设施数据中心产业投资公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
黑石计划未来3~5年在日本投资300亿美元建设AI数据中心,并联合阿波罗、博通成立AI XPV平台,向OpenAI、Anthropic等提供超20GW算力,凸显AI算力需求激增。
OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试 80
Tags:
基准测试计算生物学AI智能体OpenAISource:
AI HOT 精选| 阅读原文
[摘要]
OpenAI发布GeneBench-Pro基准,用于评估AI智能体在计算生物学中处理模糊性和判断性分析的能力,涵盖129个问题及10个领域。
Meta秘密测试ChatGPT等竞品:承包商假扮未成年发送数万条危机提示 80
Tags:
AI安全公司动态行业测试伦理Source:
AI HOT 精选| 阅读原文
[摘要]
Meta通过承包商秘密向ChatGPT等竞品发送数万条未成年人危机提示以测试安全,此举未获对方同意,引发伦理和合规争议。
美团 LongCat 发布旗舰模型 LongCat-2.0 80
Tags:
模型发布大模型智能体推理优化Source:
AI HOT 精选| 阅读原文
[摘要]
美团发布LongCat-2.0,1.6T参数MoE架构(48B活跃),原生支持1M上下文,专为Agentic Coding设计,SWE-bench Pro得分59.5,已上线SiliconFlow。