2026-06-25
OpenAI与Broadcom联合推出专为LLM推理优化的定制芯片Jalapeño,旨在提升AI系统性能与效率。 OpenAI推出GPT-5.5 Instant新版,对话更有趣、意图理解更强、处理复杂约束更可靠,付费用户今天可用,免费用户明天推送。 美国NSA因与Anthropic纠纷失去对其AI工具Mythos访问权限,凸显AI公司与政府合作中的安全与法律…
OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño 95
Tags:
芯片算力推理优化公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI与Broadcom联合推出专为LLM推理优化的定制芯片Jalapeño,旨在提升AI系统性能与效率。
GPT-5.5 Instant 新版本,对话更有趣 85
Tags:
大模型产品发布公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI推出GPT-5.5 Instant新版,对话更有趣、意图理解更强、处理复杂约束更可靠,付费用户今天可用,免费用户明天推送。
在与Anthropic的纠纷中,NSA失去了对Mythos的访问权限 85
Tags:
政策监管AI安全公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
美国NSA因与Anthropic纠纷失去对其AI工具Mythos访问权限,凸显AI公司与政府合作中的安全与法律冲突。
FFASR 排行榜发布:真实远场条件下 ASR 评测 85
Tags:
模型评测开源生态语音识别Source:
AI HOT 精选| 阅读原文
[摘要]
Treble Technologies 与 Hugging Face 联合发布 FFASR 排行榜,首个开源的真实远场 ASR 评测基准,覆盖多种声学条件,推动语音识别在真实场景的评估。
OpenAI and Broadcom unveil LLM-optimized inference chip 85
Tags:
芯片算力推理优化公司动态大模型Source:
OpenAI News| 阅读原文
[摘要]
OpenAI与Broadcom合作推出推理芯片Jalapeño,专为LLM推理优化,旨在提升性能与效率,影响AI基础设施格局。
RoPE-Aware Bit Allocation for KV-Cache Quantization 85
Tags:
推理优化KV缓存量化模型量化开源Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出Block-GTQ,一种感知RoPE的KV缓存量化比特分配方法,通过逐块优化比特分配显著提升长上下文检索、理解和推理能力,实现3.24倍压缩与1.34倍加速,性能接近fp16。
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动" 85
Tags:
模型发布开源生态智能体世界模型Source:
AI HOT 精选| 阅读原文
[摘要]
通义千问开源首个原生语言世界模型Qwen-AgentWorld,覆盖七大领域,基于千万轨迹三阶段训练,在AgentWorldBench超越GPT-5.4和Claude Opus 4.8,支持可控Sim RL与迁移学习。
Gemini 3.5 Flash 中的计算机使用 82
Tags:
大模型产品发布智能体AI安全Source:
AI HOT 精选| 阅读原文
[摘要]
Google将计算机使用能力原生集成至Gemini 3.5 Flash,降低智能体开发门槛并增强安全防护,对跨平台自动化有重要意义。
Posterior Refinement: Fast Language Generation via Any-Order Flow Maps 82
Tags:
推理优化非自回归生成语言模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
FMLM+ 提出后验细化策略,在非自回归语言生成中实现32倍加速,保持质量的同时提升速度-质量权衡,是推理优化的重要进展。
SHERLOC: Structured Diagnostic Localization for Code Repair Agents 82
Tags:
智能体代码修复推理优化AI编程Source:
arXiv Computation and Language| 阅读原文
[摘要]
SHERLOC提出无训练框架,结合推理LLM和仓库工具,实现代码智能体故障定位SOTA,显著提升修复率并降低token消耗。
One Year Later...The Harms Persist, But So Do We! 82
Tags:
AI安全LLM安全伦理风险心理健康Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究评估六种商用LLM在16种精神疾病下的安全性,发现除自杀自伤外,其他疾病防护失败率最高达100%,警告模型在脆弱人群中的风险。
思考即回忆:推理如何解锁LLM中的参数化知识 80
Tags:
大模型研究动态推理优化Source:
AI HOT 精选| 阅读原文
[摘要]
Google Research发现chain-of-thought推理可帮助LLM回忆简单事实,推理token充当计算缓冲并通过事实启动效应提升知识提取,揭示了推理对参数化知识访问的机制。
NVIDIA NeMo AutoModel:一行代码加速Transformer MoE模型微调 80
Tags:
模型训练推理优化开源生态NVIDIASource:
AI HOT 精选| 阅读原文
[摘要]
NVIDIA 开源 NeMo AutoModel,可一行代码加速 MoE 模型微调,吞吐量提升 3.4-3.7 倍,显存减少 29-32%,在 550B 级模型上验证有效。
OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试 80
Tags:
大模型产品发布智能体Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI 上线双向AI语音模型Bidi 1,支持对话中打断和实时切换指令,提升语音交互体验。
火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级 80
Tags:
产品发布智能体企业服务基础设施Source:
AI HOT 精选| 阅读原文
[摘要]
火山引擎推出Agent Ready基础设施,升级AgentKit与ArkClaw企业版,提供身份、运行时、沙箱、评估等模块,已落地海底捞经营Agent与创维酷开AIOS,提升效率并降低成本。
DFlash:块扩散草稿模型实现最高15倍吞吐量提升 80
Tags:
推理优化模型加速大模型开源生态Source:
AI HOT 精选| 阅读原文
[摘要]
加州大学圣迭戈分校提出DFlash块扩散草稿模型,通过一次生成整块token并行验证,实现最高15倍推理吞吐量提升,显著优于EAGLE-3。
WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models 80
Tags:
推理优化模型研究文本转语音Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出WAND框架,通过窗口注意力与知识蒸馏将AR-TTS模型复杂度降为常数,KV缓存减少66.2%且保持合成质量,对推理优化有重要参考价值。
Breaking the Mirror: Activation-Based Mitigation of Self-Preference in LLM Evaluators 80
Tags:
大模型AI安全推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
通过对比激活添加(CAA)和优化方法构建引导向量,在推理时减少LLM评估者的自我偏好偏差,最高降低97%不合理偏好。
EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent 80
Tags:
智能体评测基准大模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
新基准EComAgentBench评估购物智能体在长期任务与隐藏意图下的表现,最强模型仅57.1%准确率,对智能体研究有重要推动。
Thinking While Speaking: Inference-Time Knowledge Transfer for Responsive and Intelligent Conversational Voice Agents 80
Tags:
大模型推理优化语音交互知识转移Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出Conversational Infill方法,用小模型实时生成响应并融合外部推理模型知识,在毫秒级延迟下接近前沿推理模型准确率,实现响应速度与能力兼得。