2026-06-21
微软成为全球最大AI模型中转站,既将ChatGPT卖给中国企业,也反向将DeepSeek模型提供给西方客户,构建跨中美AI双向贸易网络,影响行业格局。 NVIDIA Research发布SpatialClaw,免训练空间推理框架,通过代码动作接口调用感知工具,显著提升VLM空间判断能力,平均准确率59.9%。 研究揭示扩散LLM中查询位置对上下文学习质量的重…
微软双向转售GPT与DeepSeek成全球最大AI中间商 85
Tags:
公司动态模型发布大模型产业变化Source:
AI HOT 精选| 阅读原文
[摘要]
微软成为全球最大AI模型中转站,既将ChatGPT卖给中国企业,也反向将DeepSeek模型提供给西方客户,构建跨中美AI双向贸易网络,影响行业格局。
NVIDIA Research 发布 SpatialClaw:免训练空间推理框架 85
Tags:
智能体视觉语言模型推理框架模型发布Source:
AI HOT 精选| 阅读原文
[摘要]
NVIDIA Research发布SpatialClaw,免训练空间推理框架,通过代码动作接口调用感知工具,显著提升VLM空间判断能力,平均准确率59.9%。
Where to Place the Query? Unveiling and Mitigating Positional Bias in In-Context Learning for Diffusion LLMs via Decoding Dynamics 80
Tags:
大模型位置偏差上下文学习推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究揭示扩散LLM中查询位置对上下文学习质量的重大影响,提出训练无关的自适应路由策略Auto-ICL,有效缓解位置偏差,提升推理与感知任务性能。
Critique of World Model 80
Tags:
世界模型AGI研究架构Source:
arXiv Computation and Language| 阅读原文
[摘要]
该论文系统梳理世界模型的设计维度(数据、表示、架构等),提出生成式潜在预测(GLP)架构,旨在实现通用世界模型与PAN AGI系统,对AGI研究有重要参考价值。
SIGMA: Search-Augmented On-Demand Knowledge Integration for Agentic Mathematical Reasoning 80
Tags:
智能体推理知识集成数学推理Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出SIGMA多智能体框架,通过按需知识集成增强数学推理,在MATH500、AIME等基准上提升7.4%,准确性和效率显著改善。
IdealGPT: Iteratively Decomposing Vision and Language Reasoning via Large Language Models 80
Tags:
多模态大模型零样本推理研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
IdealGPT 提出利用大语言模型迭代分解视觉语言推理任务,在零样本 VCR 和 SNLI-VE 上超越 GPT-4-like 模型 10% 和 15%,展示了 LLM 驱动多步推理的潜力。
MixSD: Mixed Contextual Self-Distillation for Knowledge Injection 80
Tags:
训练方法微调知识注入AI研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
MixSD 提出一种无需外部教师的知识注入微调方法,通过混合模型自身条件分布构建动态监督,在多个实验中实现记忆与保留性能的显著提升,有效缓解灾难性遗忘。
REDACT: A Systematically Controlled Multilingual Benchmark for Personal Information Detection 78
Tags:
数据安全AI安全模型评估多语言Source:
arXiv Computation and Language| 阅读原文
[摘要]
REDACT 发布系统控制的多语言 PII 检测基准,覆盖51种实体类型和25种语言,揭示检测器在敏感层级上的失效结构,提升隐私保护评估能力。
NEST: Narrative Event Structures in Time for Long Video Understanding 78
Tags:
多模态视频理解数据集叙事结构Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出NEST数据集,含1005部全长电影的多模态叙事事件标注,建立长视频叙事结构理解基准,当前方法效果差,具挑战性。
AgentFinVQA: A Deployable Multi-Agent Pipeline for Auditable Financial Chart QA 78
Tags:
多智能体模型发布金融AIAI安全Source:
arXiv Computation and Language| 阅读原文
[摘要]
AgentFinVQA 提出可审计的多智能体管道,用于金融图表问答,支持本地部署开源模型,准确率提升显著,解决合规与信任问题。
Apparent Psychological Profiles of Large Language Models are Largely a Measurement Artifact 78
Tags:
AI安全模型评估研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究发现LLM心理测试结果主要源于反应偏差而非真实特质,呼吁专用评估方法,对AI安全与模型评估有重要启示。
When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents 78
Tags:
AI安全智能体研究发布模型安全Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究LLM智能体过度权限工具选择问题,提出ToolPrivBench评估框架,发现主流智能体普遍存在该问题,并提出后训练防御方法,对AI安全有重要意义。
NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR 78
Tags:
ASR大模型推理优化语音识别Source:
arXiv Computation and Language| 阅读原文
[摘要]
NIM4-ASR提出高效、鲁棒的基于LLM的实时语音识别框架,仅2.3B参数在多个基准达SOTA,支持实时流式推理和百万级热词定制,推动LLM在ASR中的实用化。
How LLMs Fail and Generalize in RTL Coding for Hardware Design? 78
Tags:
大模型研究硬件设计推理Source:
arXiv Computation and Language| 阅读原文
[摘要]
新研究系统分析LLM在硬件设计(RTL编码)中的失败模式,提出错误分类法,发现前沿模型在VerilogEval基准上限90.8%,对齐仅教会编译,能力受预训练知识限制,强调需要加强推理研究。
AURA: Adaptive Uncertainty-aware Refinement for LLM-as-a-Judge Auditing 75
Tags:
大模型AI安全模型评估Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
提出AURA框架,自适应不确定性感知地精炼LLM评判者审计过程,提升与人类判断一致性,解决现有方法对初始监督信号依赖脆弱的问题。
Rigorous uncertainty quantification of probabilistic AI weather forecasts with conformal prediction 75
Tags:
研究进展AI天气预测不确定性量化Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
研究提出用共形预测(conformal prediction)对GenCast、NeuralGCM、AIFS-ENS等AI天气模型进行严格不确定性校准,尤其改善极端事件预报的统计覆盖,具有普遍适用性。
Characterizing Narrative Content in Web-scale LLM Pretraining Data 75
Tags:
大模型数据集预训练数据研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
该研究首次细粒度分析3万亿词元的Dolma语料库叙事特征,提出框架并发布数据集及模型,揭示当前数据筛选忽视叙事质量分布,为优化LLM预训练数据提供基础。
Granularity-Regulated Adaptive Computational Efficiency for Optimal Verification in Test-Time Scaling 75
Tags:
推理优化大模型测试时缩放Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出GRACE理论框架,统一粗粒度结果奖励模型与细粒度过程奖励模型,根据问题难度和计算预算自适应选择最优验证粒度,在数学推理基准上最高提升3.1%准确率。
AtomMem: Building Simple and Effective Memory System for LLM Agents via Atomic Facts 75
Tags:
智能体记忆系统模型研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
AtomMem提出基于原子事实的LLM智能体长期记忆系统,通过分层事件结构和时序画像实现高效存储与稳定演化,在LoCoMo基准上取得SOTA。
Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship 75
Tags:
模型研究AI安全LLMSource:
arXiv Computation and Language| 阅读原文
[摘要]
研究测试LLM在可验证指令遵循修订中是否存在自我偏好偏差,发现四个中端模型均未显著偏向自身输出,拒绝修复多因识别缺陷而非偏好,对AI对齐有参考价值。