2026-07-02
美团发布万亿参数大模型LongCat-2.0并开源,采用LSA稀疏注意力等架构,国产五万卡集群训练,原生支持1M上下文,评测优秀,月调用量全球前三。 xAI 发布 Voice Agent Builder 测试版,基于 Grok Voice 的无代码平台,两分钟创建生产级语音智能体,在 τ-voice Bench 领先谷歌和 OpenAI 竞品,定价低且支持电…
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型 95
Tags:
大模型模型发布开源生态国产算力Source:
AI HOT 精选| 阅读原文
[摘要]
美团发布万亿参数大模型LongCat-2.0并开源,采用LSA稀疏注意力等架构,国产五万卡集群训练,原生支持1M上下文,评测优秀,月调用量全球前三。
xAI 发布 Voice Agent Builder 测试版 85
Tags:
产品发布智能体语音无代码Source:
AI HOT 精选| 阅读原文
[摘要]
xAI 发布 Voice Agent Builder 测试版,基于 Grok Voice 的无代码平台,两分钟创建生产级语音智能体,在 τ-voice Bench 领先谷歌和 OpenAI 竞品,定价低且支持电话集成。
OpenAI论文揭示GPT-5.6三个Pro变体,打破单一顶级策略 85
Tags:
模型发布OpenAI大模型Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI论文披露GPT-5.6三个Pro变体(Luna、Terra、Sol),Sol Pro在基因组学基准中以31.5%通过率领先,打破传统单一顶级策略,但未公开token用量和是否落地。
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型 85
Tags:
模型发布开放权重扩散语言模型推理优化Source:
AI HOT 精选| 阅读原文
[摘要]
NVIDIA发布Nemotron-Labs-TwoTower开放权重扩散语言模型,双塔架构在保留98.7%质量下生成吞吐量提升2.42倍。
A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning 85
Tags:
大模型训练方法理论研究Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
提出预训练微调中初始化影响归纳偏差的分析理论,揭示四种微调模式,解释初始化尺度对特征复用与精炼的作用,为特征学习提供理论依据。
Signed-Permutation Coordinate Transport for RMSNorm Transformers 85
Tags:
模型规范可解释性训练方法推理优化Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
提出RMSNorm模型的符号排列坐标运输方法,解决模型规范不匹配问题,极大提升SAE重建、情感引导等工具迁移的准确性,并揭示训练状态保持的关键。
Learning by Surprise: Adaptive Mitigation of Model Collapse in Large Language Models 85
Tags:
模型研究训练方法数据过滤Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究提出基于困惑度的过滤策略缓解LLM模型崩溃,无需区分人机数据,效果优于人类基线,为合成环境下的训练提供实用方案。
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability 85
Tags:
大模型推理优化训练方法科研进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出SOAR不对称自博弈框架,利用meta-RL让教师模型为学生生成合成问题,在数学推理难题上实现从0%到可学习的突破,揭示问题结构比正确性更关键。
Bridging the Gap Between Latent and Explicit Reasoning with Looped Transformers 85
Tags:
推理优化大模型模型发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
LOTUS提出循环Transformer并行潜在推理方法,首次在3B规模弥合与显式思维链的性能差距,推理延迟降低2.5-6.9倍,潜在空间可解释且与CoT对齐。
ADAPT: Attention Dynamics Alignment with Preference Tuning for Faithful MLLMs 85
Tags:
大模型多模态推理优化AI安全Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出ADAPT框架,通过动态对齐注意力与偏好调优解决多模态大模型幻觉问题,降低幻觉率40%-60%,在多项基准中达新最优。
Optimal Self-Consistency for Efficient Reasoning with Large Language Models 82
Tags:
推理优化大模型效率研究Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
提出Blend-ASC自一致性方法,通过动态分配样本实现高效推理,样本用量减少4.8倍,无需超参数且支持批处理。
Learning from Failure: Inference-Time Self-Improvement for Computer-Use Agents 82
Tags:
智能体大模型推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出利用失败轨迹进行推理时自我改进的方法,在OSWorld基准上将OpenCUA-72B成功率从42.3%提升至48.9%,无需额外训练,为智能体优化提供新思路。
构建AI智能体应优先设计路由 80
Tags:
智能体推理优化工程实践成本优化Source:
AI HOT 精选| 阅读原文
[摘要]
构建AI智能体应优先设计路由而非选择模型,通过分层路由将70-80%流量分配给本地或异步模型,可降低AI开销90%+,Coinbase已实践并显著削减成本。
Meta效仿SpaceX,将过剩AI算力变现 80
Tags:
公司动态算力云服务基础设施Source:
AI HOT 精选| 阅读原文
[摘要]
Meta效仿SpaceX,计划推出Meta Compute云业务,对外出售AI算力和模型访问权限,直接与AWS、Google Cloud竞争,已承诺1829亿美元建设AI基础设施。
Anthropic在Claude Code中植入隐写术代码识别中国用户 80
Tags:
公司动态AI安全产品安全Source:
AI HOT 精选| 阅读原文
[摘要]
Anthropic在Claude Code中植入隐写术,通过时区和域名列表识别中国用户,引发信任危机与争议。
On the Convergence of Self-Improving Online LLM Alignment 80
Tags:
模型训练LLM对齐理论研究Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
该研究提出SAIL-RevKL算法,通过引入反向KL散度惩罚,解决了自改进LLM对齐中的分布偏移和收敛难题,理论证明满足PL条件并实现近线性样本复杂度,在MuJoCo和LLM对齐任务上表现更优。
Training Therapeutic Judges and Multi-Agent Systems for Human-Aligned Mental Health Support 80
Tags:
大模型智能体AI医疗模型发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出开放治疗评估器TheraJudge与多智能体系统TheraAgent,通过人类对齐评估优化心理治疗响应,在安全、相关性和共情等维度上超越基线,开源代码。
Behavior Cloning is Not All You Need: The Optimality of On-Policy Distillation for Noisy Expert Feedback 80
Tags:
研究训练方法大模型Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
该研究理论分析了在噪声专家反馈下,在线策略蒸馏(OPD)优于离线行为克隆(SFT),样本复杂度从指数降为多项式,解释了实际中OPD更优的原因,对语言模型训练有指导意义。
Theory of Mind and Persuasion Beyond Conversation: Assessing the Capacity of LLMs to Induce Belief States via Planning and Action 80
Tags:
大模型智能体AI安全模型评估Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究提出NCP-ToM框架,评估LLMs通过行动而非对话诱导信念状态的能力,GPT-5达到80%成功率且超越人类,但稳健性不及人类,对AI安全与智能体对齐具有重要意义。
CLExEval: A Human-in-the-Loop Framework for Qualitative Evaluation of LLM Clinical Reasoning 80
Tags:
大模型医学分析AI安全推理评估Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出CLExEval人类在环框架,揭示LLM临床推理中评估幻觉、三种失败模式,并指出LLM作为评判者会高估诊断可靠性。