2026-06-25

OpenAI与Broadcom联合推出专为LLM推理优化的定制芯片Jalapeño，旨在提升AI系统性能与效率。 OpenAI推出GPT-5.5 Instant新版，对话更有趣、意图理解更强、处理复杂约束更可靠，付费用户今天可用，免费用户明天推送。美国NSA因与Anthropic纠纷失去对其AI工具Mythos访问权限，凸显AI公司与政府合作中的安全与法律…

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño 95

Tags: 芯片算力 推理优化 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI与Broadcom联合推出专为LLM推理优化的定制芯片Jalapeño，旨在提升AI系统性能与效率。

GPT-5.5 Instant 新版本，对话更有趣 85

Tags: 大模型 产品发布 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI推出GPT-5.5 Instant新版，对话更有趣、意图理解更强、处理复杂约束更可靠，付费用户今天可用，免费用户明天推送。

在与Anthropic的纠纷中，NSA失去了对Mythos的访问权限 85

Tags: 政策监管 AI安全 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
美国NSA因与Anthropic纠纷失去对其AI工具Mythos访问权限，凸显AI公司与政府合作中的安全与法律冲突。

FFASR 排行榜发布：真实远场条件下 ASR 评测 85

Tags: 模型评测 开源生态 语音识别
Source: AI HOT 精选 | 阅读原文

[摘要]
Treble Technologies 与 Hugging Face 联合发布 FFASR 排行榜，首个开源的真实远场 ASR 评测基准，覆盖多种声学条件，推动语音识别在真实场景的评估。

OpenAI and Broadcom unveil LLM-optimized inference chip 85

Tags: 芯片算力 推理优化 公司动态 大模型
Source: OpenAI News | 阅读原文

[摘要]
OpenAI与Broadcom合作推出推理芯片Jalapeño，专为LLM推理优化，旨在提升性能与效率，影响AI基础设施格局。

RoPE-Aware Bit Allocation for KV-Cache Quantization 85

Tags: 推理优化 KV缓存量化 模型量化 开源
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Block-GTQ，一种感知RoPE的KV缓存量化比特分配方法，通过逐块优化比特分配显著提升长上下文检索、理解和推理能力，实现3.24倍压缩与1.34倍加速，性能接近fp16。

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动" 85

Tags: 模型发布 开源生态 智能体 世界模型
Source: AI HOT 精选 | 阅读原文

[摘要]
通义千问开源首个原生语言世界模型Qwen-AgentWorld，覆盖七大领域，基于千万轨迹三阶段训练，在AgentWorldBench超越GPT-5.4和Claude Opus 4.8，支持可控Sim RL与迁移学习。

Gemini 3.5 Flash 中的计算机使用 82

Tags: 大模型 产品发布 智能体 AI安全
Source: AI HOT 精选 | 阅读原文

[摘要]
Google将计算机使用能力原生集成至Gemini 3.5 Flash，降低智能体开发门槛并增强安全防护，对跨平台自动化有重要意义。

Posterior Refinement: Fast Language Generation via Any-Order Flow Maps 82

Tags: 推理优化 非自回归生成 语言模型
Source: arXiv Computation and Language | 阅读原文

[摘要]
FMLM+ 提出后验细化策略，在非自回归语言生成中实现32倍加速，保持质量的同时提升速度-质量权衡，是推理优化的重要进展。

SHERLOC: Structured Diagnostic Localization for Code Repair Agents 82

Tags: 智能体 代码修复 推理优化 AI编程
Source: arXiv Computation and Language | 阅读原文

[摘要]
SHERLOC提出无训练框架，结合推理LLM和仓库工具，实现代码智能体故障定位SOTA，显著提升修复率并降低token消耗。

One Year Later...The Harms Persist, But So Do We! 82

Tags: AI安全 LLM安全 伦理风险 心理健康
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究评估六种商用LLM在16种精神疾病下的安全性，发现除自杀自伤外，其他疾病防护失败率最高达100%，警告模型在脆弱人群中的风险。

思考即回忆：推理如何解锁LLM中的参数化知识 80

Tags: 大模型 研究动态 推理优化
Source: AI HOT 精选 | 阅读原文

[摘要]
Google Research发现chain-of-thought推理可帮助LLM回忆简单事实，推理token充当计算缓冲并通过事实启动效应提升知识提取，揭示了推理对参数化知识访问的机制。

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调 80

Tags: 模型训练 推理优化 开源生态 NVIDIA
Source: AI HOT 精选 | 阅读原文

[摘要]
NVIDIA 开源 NeMo AutoModel，可一行代码加速 MoE 模型微调，吞吐量提升 3.4-3.7 倍，显存减少 29-32%，在 550B 级模型上验证有效。

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试 80

Tags: 大模型 产品发布 智能体
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI 上线双向AI语音模型Bidi 1，支持对话中打断和实时切换指令，提升语音交互体验。

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级 80

Tags: 产品发布 智能体 企业服务 基础设施
Source: AI HOT 精选 | 阅读原文

[摘要]
火山引擎推出Agent Ready基础设施，升级AgentKit与ArkClaw企业版，提供身份、运行时、沙箱、评估等模块，已落地海底捞经营Agent与创维酷开AIOS，提升效率并降低成本。

DFlash：块扩散草稿模型实现最高15倍吞吐量提升 80

Tags: 推理优化 模型加速 大模型 开源生态
Source: AI HOT 精选 | 阅读原文

[摘要]
加州大学圣迭戈分校提出DFlash块扩散草稿模型，通过一次生成整块token并行验证，实现最高15倍推理吞吐量提升，显著优于EAGLE-3。

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models 80

Tags: 推理优化 模型研究 文本转语音
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出WAND框架，通过窗口注意力与知识蒸馏将AR-TTS模型复杂度降为常数，KV缓存减少66.2%且保持合成质量，对推理优化有重要参考价值。

Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators 80

Tags: 大模型 AI安全 推理优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
通过对比激活添加（CAA）和优化方法构建引导向量，在推理时减少LLM评估者的自我偏好偏差，最高降低97%不合理偏好。

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent 80

Tags: 智能体 评测基准 大模型
Source: arXiv Computation and Language | 阅读原文

[摘要]
新基准EComAgentBench评估购物智能体在长期任务与隐藏意图下的表现，最强模型仅57.1%准确率，对智能体研究有重要推动。

Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents 80

Tags: 大模型 推理优化 语音交互 知识转移
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Conversational Infill方法，用小模型实时生成响应并融合外部推理模型知识，在毫秒级延迟下接近前沿推理模型准确率，实现响应速度与能力兼得。

2026-06-25 ​

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño 95 ​

GPT-5.5 Instant 新版本，对话更有趣 85 ​

在与Anthropic的纠纷中，NSA失去了对Mythos的访问权限 85 ​

FFASR 排行榜发布：真实远场条件下 ASR 评测 85 ​

OpenAI and Broadcom unveil LLM-optimized inference chip 85 ​

RoPE-Aware Bit Allocation for KV-Cache Quantization 85 ​

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动" 85 ​

Gemini 3.5 Flash 中的计算机使用 82 ​

Posterior Refinement: Fast Language Generation via Any-Order Flow Maps 82 ​

SHERLOC: Structured Diagnostic Localization for Code Repair Agents 82 ​

One Year Later...The Harms Persist, But So Do We! 82 ​

思考即回忆：推理如何解锁LLM中的参数化知识 80 ​

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调 80 ​

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试 80 ​

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级 80 ​

DFlash：块扩散草稿模型实现最高15倍吞吐量提升 80 ​

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models 80 ​

Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators 80 ​

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent 80 ​

Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents 80 ​

2026-06-25

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño 95

GPT-5.5 Instant 新版本，对话更有趣 85

在与Anthropic的纠纷中，NSA失去了对Mythos的访问权限 85

FFASR 排行榜发布：真实远场条件下 ASR 评测 85

OpenAI and Broadcom unveil LLM-optimized inference chip 85

RoPE-Aware Bit Allocation for KV-Cache Quantization 85

Qwen-AgentWorld 开源：让 Agent 学会"先预测，再行动" 85

Gemini 3.5 Flash 中的计算机使用 82

Posterior Refinement: Fast Language Generation via Any-Order Flow Maps 82

SHERLOC: Structured Diagnostic Localization for Code Repair Agents 82

One Year Later...The Harms Persist, But So Do We! 82

思考即回忆：推理如何解锁LLM中的参数化知识 80

NVIDIA NeMo AutoModel：一行代码加速Transformer MoE模型微调 80

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试 80

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级 80

DFlash：块扩散草稿模型实现最高15倍吞吐量提升 80

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models 80

Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators 80

EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent 80

Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents 80