Skip to content

2026-06-25

OpenAI与Broadcom联合推出专为LLM推理优化的定制芯片Jalapeño,旨在提升AI系统性能与效率。 OpenAI推出GPT-5.5 Instant新版,对话更有趣、意图理解更强、处理复杂约束更可靠,付费用户今天可用,免费用户明天推送。 美国NSA因与Anthropic纠纷失去对其AI工具Mythos访问权限,凸显AI公司与政府合作中的安全与法律…

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño 95

  • Tags: 芯片算力 推理优化 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI与Broadcom联合推出专为LLM推理优化的定制芯片Jalapeño,旨在提升AI系统性能与效率。


GPT-5.5 Instant 新版本,对话更有趣 85

  • Tags: 大模型 产品发布 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI推出GPT-5.5 Instant新版,对话更有趣、意图理解更强、处理复杂约束更可靠,付费用户今天可用,免费用户明天推送。


在与Anthropic的纠纷中,NSA失去了对Mythos的访问权限 85

  • Tags: 政策监管 AI安全 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
美国NSA因与Anthropic纠纷失去对其AI工具Mythos访问权限,凸显AI公司与政府合作中的安全与法律冲突。


FFASR 排行榜发布:真实远场条件下 ASR 评测 85

  • Tags: 模型评测 开源生态 语音识别

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Treble Technologies 与 Hugging Face 联合发布 FFASR 排行榜,首个开源的真实远场 ASR 评测基准,覆盖多种声学条件,推动语音识别在真实场景的评估。


OpenAI and Broadcom unveil LLM-optimized inference chip 85

  • Tags: 芯片算力 推理优化 公司动态 大模型

  • Source: OpenAI News | 阅读原文

[摘要]
OpenAI与Broadcom合作推出推理芯片Jalapeño,专为LLM推理优化,旨在提升性能与效率,影响AI基础设施格局。


RoPE-Aware Bit Allocation for KV-Cache Quantization 85

  • Tags: 推理优化 KV缓存量化 模型量化 开源

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过逐块优化比特分配显著提升长上下文检索、理解和推理能力,实现3.24倍压缩与1.34倍加速,性能接近fp16。


Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动" 85

  • Tags: 模型发布 开源生态 智能体 世界模型

  • Source: AI HOT 精选 | 阅读原文

[摘要]
通义千问开源首个原生语言世界模型Qwen-AgentWorld,覆盖七大领域,基于千万轨迹三阶段训练,在AgentWorldBench超越GPT-5.4和Claude Opus 4.8,支持可控Sim RL与迁移学习。


Gemini 3.5 Flash 中的计算机使用 82

  • Tags: 大模型 产品发布 智能体 AI安全

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google将计算机使用能力原生集成至Gemini 3.5 Flash,降低智能体开发门槛并增强安全防护,对跨平台自动化有重要意义。


Posterior Refinement: Fast Language Generation via Any-Order Flow Maps 82

  • Tags: 推理优化 非自回归生成 语言模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
FMLM+ 提出后验细化策略,在非自回归语言生成中实现32倍加速,保持质量的同时提升速度-质量权衡,是推理优化的重要进展。


SHERLOC: Structured Diagnostic Localization for Code Repair Agents 82

  • Tags: 智能体 代码修复 推理优化 AI编程

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
SHERLOC提出无训练框架,结合推理LLM和仓库工具,实现代码智能体故障定位SOTA,显著提升修复率并降低token消耗。


One Year Later...The Harms Persist, But So Do We! 82

  • Tags: AI安全 LLM安全 伦理风险 心理健康

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究评估六种商用LLM在16种精神疾病下的安全性,发现除自杀自伤外,其他疾病防护失败率最高达100%,警告模型在脆弱人群中的风险。


思考即回忆:推理如何解锁LLM中的参数化知识 80

  • Tags: 大模型 研究动态 推理优化

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google Research发现chain-of-thought推理可帮助LLM回忆简单事实,推理token充当计算缓冲并通过事实启动效应提升知识提取,揭示了推理对参数化知识访问的机制。


NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调 80

  • Tags: 模型训练 推理优化 开源生态 NVIDIA

  • Source: AI HOT 精选 | 阅读原文

[摘要]
NVIDIA 开源 NeMo AutoModel,可一行代码加速 MoE 模型微调,吞吐量提升 3.4-3.7 倍,显存减少 29-32%,在 550B 级模型上验证有效。


OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试 80

  • Tags: 大模型 产品发布 智能体

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI 上线双向AI语音模型Bidi 1,支持对话中打断和实时切换指令,提升语音交互体验。


火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级 80

  • Tags: 产品发布 智能体 企业服务 基础设施

  • Source: AI HOT 精选 | 阅读原文

[摘要]
火山引擎推出Agent Ready基础设施,升级AgentKit与ArkClaw企业版,提供身份、运行时、沙箱、评估等模块,已落地海底捞经营Agent与创维酷开AIOS,提升效率并降低成本。


DFlash:块扩散草稿模型实现最高15倍吞吐量提升 80

  • Tags: 推理优化 模型加速 大模型 开源生态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
加州大学圣迭戈分校提出DFlash块扩散草稿模型,通过一次生成整块token并行验证,实现最高15倍推理吞吐量提升,显著优于EAGLE-3。


WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models 80

  • Tags: 推理优化 模型研究 文本转语音

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出WAND框架,通过窗口注意力与知识蒸馏将AR-TTS模型复杂度降为常数,KV缓存减少66.2%且保持合成质量,对推理优化有重要参考价值。


Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators 80

  • Tags: 大模型 AI安全 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
通过对比激活添加(CAA)和优化方法构建引导向量,在推理时减少LLM评估者的自我偏好偏差,最高降低97%不合理偏好。


EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent 80

  • Tags: 智能体 评测基准 大模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
新基准EComAgentBench评估购物智能体在长期任务与隐藏意图下的表现,最强模型仅57.1%准确率,对智能体研究有重要推动。


Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents 80

  • Tags: 大模型 推理优化 语音交互 知识转移

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出Conversational Infill方法,用小模型实时生成响应并融合外部推理模型知识,在毫秒级延迟下接近前沿推理模型准确率,实现响应速度与能力兼得。