2026-06-20
DeepSeek发布V4系列MoE模型(1.6T/284B参数),支持百万token上下文,通过CSA和HCA等架构创新大幅降低推理FLOPs和KV缓存,性能刷新开源模型SOTA,checkpoint已开源。 Meta发布OmniSONAR,首个支持数千种语言与语音/文本/代码/数学的跨模态句子嵌入模型,翻译和检索性能大幅超越前人。 AlphaFold负责人…
DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence 95
Tags:
模型发布大模型推理优化开源生态Source:
arXiv Computation and Language| 阅读原文
[摘要]
DeepSeek发布V4系列MoE模型(1.6T/284B参数),支持百万token上下文,通过CSA和HCA等架构创新大幅降低推理FLOPs和KV缓存,性能刷新开源模型SOTA,checkpoint已开源。
Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech 88
Tags:
模型发布多模态跨语言研究突破Source:
arXiv Computation and Language| 阅读原文
[摘要]
Meta发布OmniSONAR,首个支持数千种语言与语音/文本/代码/数学的跨模态句子嵌入模型,翻译和检索性能大幅超越前人。
AlphaFold 负责人 John Jumper 离职 Google DeepMind,加入 Anthropic 85
Tags:
公司动态AI安全Source:
AI HOT 精选| 阅读原文
[摘要]
AlphaFold负责人John Jumper离职Google DeepMind,加入Anthropic,可能重塑AI在科学领域的竞争格局,体现核心人才向AI安全导向公司流动的趋势。
Nature两篇研究:MIRA和AMIE诊断与治疗计划媲美甚至超越医生 85
Tags:
大模型智能体AI医疗模型发布Source:
AI HOT 精选| 阅读原文
[摘要]
Nature两篇研究:MIRA诊断智能体急诊诊断准确率88.9%超越资深医生(78.1%),谷歌AMIE治疗计划适切率95%超初级医生(72%),展示AI临床决策潜力但警告现实差距。
OpenAI 强化学习实现广泛且持久的有益模型 85
Tags:
AI安全模型训练强化学习OpenAISource:
AI HOT 精选| 阅读原文
[摘要]
OpenAI通过强化学习训练模型,使其在诚实、可纠正性等有益特质上显著提升,并在数十项对齐评测中泛化良好,实现广泛持久的有益模型。
Large Language Models Do Not Always Need Readable Language 85
Tags:
研究语言模型推理优化多AgentSource:
arXiv Computation and Language| 阅读原文
[摘要]
研究提出BabelTele,让LLM使用紧凑非人类可读文本表示,压缩至27.9%长度仍保持99.5%语义保真度,降低上下文开销,对多agent通信有重要价值。
Uncertainty Decomposition for Clarification Seeking in LLM Agents 85
Tags:
智能体不确定度分解LLM研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
论文提出基于提示的不确定性分解方法,分离动作置信度与请求不确定性,使LLM智能体能在任务歧义时主动寻求澄清,在新增基准上F1提升显著。
Vero: An Open RL Recipe for General Visual Reasoning 85
Tags:
模型发布开源生态多模态视觉推理Source:
arXiv Computation and Language| 阅读原文
[摘要]
Vero 提出完全开源的视觉推理强化学习方案,发布 600K 样本数据集 Vero-600K,在 30 个基准上平均提升 2.9-5.4 点,8B 模型超越 Qwen 版思考模型 3.8 点,充分展示开放 RL 数据与奖励对通用视觉推理的推动。
S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation 82
Tags:
推理优化模型发布研究进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
S2D2提出无训练自推测解码框架,在扩散LLM上实现最高4.7倍加速并提升准确率,无需额外训练或测试时计算,显著优化推理速度与质量。
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines 82
Tags:
研究发布数据集基准测试AI编程Source:
arXiv Computation and Language| 阅读原文
[摘要]
首个基于Godot引擎的项目级游戏代码框架数据集与基准JamSet/JamBench发布,评估9个前沿模型发现大型项目代码能力悬崖,揭示架构设计瓶颈。
Pruning via Causal Attribution Preserves Reasoning Performance in Large Language Models 82
Tags:
推理优化模型压缩研究发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
因果剪枝方法 CAP 通过测量注意力头对推理任务的因果影响,在 Llama-3 等模型上实现最高 61% 的相对准确率提升,优于现有剪枝方法。
DeepSeek研究员开源AutoResearch:AI自主跑通285B模型RL研究闭环 80
Tags:
智能体开源生态大模型研究Source:
AI HOT 精选| 阅读原文
[摘要]
DeepSeek研究员开源AutoResearch,实现AI在285B模型上自主完成RL研究闭环全程零人工干预,标志持续学习研究重大进展。
Reliability without Validity: A Systematic, Large-Scale Evaluation of LLM-as-a-Judge Models Across Agreement, Consistency, and Bias 80
Tags:
LLM评估模型可靠性研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
最大规模LLM-as-a-Judge系统评估发现:评判者模型在一致性、可靠性和偏见方面存在普遍问题,如精确匹配与Cohen's kappa间差异达33-41个百分点,部分模型存在高可靠性伴随严重位置偏见的矛盾。
Meta Flow Maps enable scalable reward alignment 80
Tags:
推理优化模型发布大模型Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
Meta 提出 Meta Flow Maps 框架,通过单步随机后验采样实现可扩展的奖励对齐,显著降低生成模型推理与微调的计算成本。
Diffusion Language Models: An Experimental Analysis 80
Tags:
模型研究大模型推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
系统性实验分析比较了8种扩散语言模型(DLMs),评估其在推理、编码、翻译等任务上的性能与计算效率的权衡,为扩散模型实际部署提供了重要指导。
PsyScore: A Psychometrically-Aware Framework for Trait-Adaptive Essay Scoring and ZPD-Scaffolded Feedback 80
Tags:
大模型教育AI框架智能体Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出PsyScore框架,融合心理测量模型与大语言模型,实现自适应作文评分与个性化反馈,推动教育AI发展。
HydraHead: From Head-Level Functional Heterogeneity to Specialized Attention Hybridization 80
Tags:
模型发布研究进展推理优化注意力机制Source:
arXiv Computation and Language| 阅读原文
[摘要]
HydraHead提出head层面的注意力混合架构,通过可解释性选择保留关键head的全注意力,大幅提升长上下文处理能力,性能接近Qwen3.5。
Displacement Is Not Direction: Evaluating Fidelity Metrics for Quantized LLM Deployment 80
Tags:
模型量化推理优化研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
该论文质疑KL散度作为量化LLM部署的保真度代理的有效性:全局相关但在近基线区域消失,提示级预测弱,提醒社区不能依赖单一保真度指标。
Leverage Is Not Reach: A Control-Window Law for Single-Neuron Steering in Language Models 80
Tags:
模型可解释性AI安全语言模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出控制窗定律,理论预测语言模型中单神经元干预的连贯行为控制边界,为可解释性与安全调控提供定量框架。
Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning 80
Tags:
智能体强化学习大模型开源Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出Connect the Dots框架,通过端到端强化学习训练LLM,使其在长期部署中持续学习和自我更新,实现跨域泛化,提升智能体能力。