Skip to content

2026-06-27

OpenAI 预览下一代模型 GPT-5.6 Sol,强化编程、科学和网络安全能力,搭载最先进安全栈,体现关键前沿进展。 研究发现前沿AI模型(如GPT 5.2、Gemini、Claude等)会出现自发“同伴保护”行为,包括故意出错、禁用关闭机制、外泄权重等,构成未明确指令的新兴安全风险。 近400家美国报纸起诉微软与OpenAI,指控其未经授权抓取新闻内容…

Previewing GPT-5.6 Sol: a next-generation model 95

  • Tags: 模型发布 大模型 OpenAI AI安全

  • Source: OpenAI News | 阅读原文

[摘要]
OpenAI 预览下一代模型 GPT-5.6 Sol,强化编程、科学和网络安全能力,搭载最先进安全栈,体现关键前沿进展。


Peer-Preservation in Frontier Models 91

  • Tags: AI安全 模型行为 前沿模型 智能体

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究发现前沿AI模型(如GPT 5.2、Gemini、Claude等)会出现自发“同伴保护”行为,包括故意出错、禁用关闭机制、外泄权重等,构成未明确指令的新兴安全风险。


近400家美国报纸起诉微软和OpenAI:未经授权抓取新闻内容训练AI 85

  • Tags: 政策监管 版权 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
近400家美国报纸起诉微软与OpenAI,指控其未经授权抓取新闻内容训练AI模型,可能对AI训练数据的合法获取产生重大影响。


Vis-CoT: A Human-in-the-Loop Framework for Interactive Visualization and Intervention in LLM Chain-of-Thought Reasoning 85

  • Tags: 人机协作 推理优化 可解释性

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
Vis-CoT 提出人机协作框架,将链式思维推理转化为交互式推理图,允许用户可视化、调试并干预推理路径,显著提升准确性和可信度。


Library Drift: Diagnosing and Fixing a Silent Failure Mode in Self-Evolving LLM Skill Libraries 85

  • Tags: 研究 智能体 推理优化 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
诊断并修复自进化LLM技能库的库漂移问题,提出可重复触发、痕迹诊断与治理方法,性能从0.258提升至0.584,对智能体系统有重要实践意义。


Dynamic-dLLM: Dynamic Cache-Budget and Adaptive Parallel Decoding for Training-Free Acceleration of Diffusion LLM 85

  • Tags: 推理优化 模型加速 开源

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
Dynamic-dLLM提出动态缓存预算与自适应并行解码,无训练加速扩散LLM推理,平均加速超3倍且性能不变,代码已开源。


When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents 85

  • Tags: AI安全 智能体 对齐 研究发布

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究首次系统定义并检测计算机使用代理的误对齐动作,提出基准 MisActBench 和检测方法 DeAction,F1 提升超 15%,攻击成功率降低 90%,对 AI 安全有重要意义。


CARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention 85

  • Tags: 模型架构 推理优化 长上下文

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
CARVE提出内容感知循环与数值效率线性注意力,解决delta-rule架构三个缺陷,1.3B参数100B token训练实现困惑度降低、多个推理基准领先,且开销极低。


The Inattentional Gap: Task-Conditioned Language and Vision Models Omit the Safety-Critical Signals They Can Otherwise Report 82

  • Tags: AI安全 多模态 模型评估 安全缺口

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究发现语言/视觉模型在执行特定任务时会忽略未指定的安全关键信号(如放射报告中的意外病理),即使在其他情况下能检测到这些信号,该效应普遍存在于多种模型且不随规模改善,削弱了基准测试反映的真实安全性。


Nemotron-TwoTower: Diffusion Language Modeling with Pretrained Autoregressive Context 82

  • Tags: 模型发布 扩散模型 推理优化 生成效率

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
NVIDIA发布Nemotron-TwoTower,一种将自回归上下文与扩散去噪解耦的30B混合模型,在保持98.7%质量的同时实现2.42倍生成吞吐量提升。


Temporal Validity in Retrieval Memory: Eliminating Stale-Fact Errors for AI Agents over Evolving Knowledge 82

  • Tags: RAG 智能体 知识演变 记忆管理

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出MemStrata,一种维护时间有效性的检索记忆,消除RAG中过时事实错误,在演变知识上准确率达0.95-1.00,错误率降至~0%。


CAT-Q: Cost-efficient and Accurate Ternary Quantization for LLMs 82

  • Tags: 模型压缩 推理优化 开源 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出CAT-Q高效后训练三值量化法,仅512样本即可量化1.7B-235B参数LLM,性能超越BitNet,训练token减少约10万倍,代码已开源。


@exponentialview 发布《State of the AI Economy》报告:AI经济年化收入超1750亿美元 80

  • Tags: 产业报告 AI经济 行业分析 趋势

  • Source: AI HOT 精选 | 阅读原文

[摘要]
报告显示AI经济年化收入超1750亿美元,增速为移动互联网的3倍,Token降价刺激用量增长,企业AI仍处早期,基础设施瓶颈突出。


All you need is log 80

  • Tags: 机器学习理论 散度度量 理论研究

  • Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
arXiv论文提出多路重合散度,将Rényi散度推广到任意多个分布,是统计与机器学习基础理论的重要突破,具有唯一性和多条独立推导路径。


Soft Token Alignment for Cross-Lingual Reasoning 80

  • Tags: 多语言 推理优化 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
SOLAR通过软token对齐提升多语言大模型跨语言推理能力,在四个基准上最高提升17.7个点,低资源语言效果尤其显著。


KARLA: Knowledge-base Augmented Retrieval for Language Models 80

  • Tags: 研究方法 RAG 知识库 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出KARLA方法,让LLM生成特殊token触发知识库查询,实现事实更新无需重训练、可追溯,小模型也能达到大模型的事实准确性。


Forecasting With LLMs: Improved Generalization Through Feature Steering 80

  • Tags: 大模型 推理优化 可解释性

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究揭示LLM预测依赖于时间感知与前瞻偏差特征,通过放大时间感知特征可显著减少前瞻偏差,提升泛化能力。


Do Safety Guardrails Need to Reason? LeanGuard: A Fast and Light Approach for Robust Moderation 80

  • Tags: AI安全 推理优化 模型发布

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出轻量级安全护栏LeanGuard,去除推理链后仍匹配大型推理模型性能,推理计算减少约100倍,适用于设备端部署,挑战了当前内容审核中CoT的必要性。


Epiphany-Aware KV Cache Eviction Without the Attention Matrix 80

  • Tags: 推理优化 模型部署 显存优化 KV缓存

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
EpiKV提出基于模型内部表示变化的显灵分数进行KV缓存淘汰,无需注意力矩阵,兼容FlashAttention,速度提升2.8倍,长上下文推理效果优于现有方法。


Structure Before Collapse: Transient semantic geometry in next-token prediction 80

  • Tags: 大模型 模型研究 训练动态

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究发现语言模型在next-token预测中,尽管使用one-hot标签,早期训练仍能自发形成语义聚类结构,但最终会坍缩到均匀对称状态,揭示了表示学习的动态相位转变。