2026-06-16
UC Berkeley与UT Austin开源Flash-KMeans,通过IO感知优化在GPU上实现精确K-Means,比FAISS快200倍以上,大幅降低向量搜索与聚类成本。 MiniMax 开源 428B 参数 M3 多模态模型及 MSA 稀疏注意力论文,多项评测开源第一,显著降低长上下文成本。 提出基于心理学六层情绪智能的EiCAP框架,包含基准与训…
Flash-KMeans:IO感知的精确K-Means,在GPU上比FAISS快200倍以上 85
Tags:
推理优化向量搜索开源Source:
AI HOT 精选| 阅读原文
[摘要]
UC Berkeley与UT Austin开源Flash-KMeans,通过IO感知优化在GPU上实现精确K-Means,比FAISS快200倍以上,大幅降低向量搜索与聚类成本。
MiniMax 开源 M3 模型权重及 MSA 技术论文 85
Tags:
模型发布开源生态多模态推理优化Source:
AI HOT 精选| 阅读原文
[摘要]
MiniMax 开源 428B 参数 M3 多模态模型及 MSA 稀疏注意力论文,多项评测开源第一,显著降低长上下文成本。
EiCAP: Beyond Fluency, Probing and Improving Emotional Intelligence in LLMs via Psychologically Grounded Multi-Turn Dialogue 85
Tags:
大模型AI安全模型训练Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出基于心理学六层情绪智能的EiCAP框架,包含基准与训练语料;实验表明通用SFT无法提升情绪智能,基于EI的LoRA微调在Qwen-2.5-7B上宏观得分从24.6%提升至75.33%。
CoRe: A Continuously Reward-Finetuned LLM Query Rewriter for Multi-Stage Context-Aware Relevance in Web-Scale Video Search 85
Tags:
AI搜索多模态大模型工程实践Source:
arXiv Computation and Language| 阅读原文
[摘要]
CoRe是一个基于LLM的连续奖励微调查询重写器,在短视频搜索生产中每周更新,通过混合偏好优化和自动安全门控有效提升搜索相关性并防范奖励黑客攻击。
OdysSim: Building Foundation Models for Human Behavior Simulation 85
Tags:
模型发布开源生态大模型研究突破Source:
arXiv Computation and Language| 阅读原文
[摘要]
OdysSim提出人类行为模拟基础模型,构建SOUL统一框架及2140万交互语料库,开源8B OSim模型在23项基准中8项领先,类人行为模拟效果突出。
Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows 82
Tags:
智能体推理优化模型研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出 Parallel-Synthesis 框架,使 LLM 智能体工作流中的合成器直接消费并行分支的 KV 缓存,避免冗余预填充计算,在多个数据集上匹配或超过文本拼接方法,并降低首 token 延迟 2.5-11 倍,显著提升智能体系统效率。
Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios 82
Tags:
AI安全大模型AI伦理性别偏见Source:
arXiv Computation and Language| 阅读原文
[摘要]
GAMA-Bench 揭示主流 LLM 对男性行为更严厉、对女性更共情的系统性性别偏见,影响 AI 公平与安全。
WorkBench Revisited: Workplace Agents Two Years On 82
Tags:
智能体模型能力AI安全基准测试Source:
arXiv Computation and Language| 阅读原文
[摘要]
WorkBench基准多年评估显示,AI智能体任务完成率从43%升至89%,有害动作从26%降至2.5%,表明能力与安全性协同提升,开源模型大幅降低成本。
下一代投机解码:DFlash 与 Spec V2 80
Tags:
推理优化模型发布开源生态Source:
AI HOT 精选| 阅读原文
[摘要]
Z Lab、Modal与SGLang联合发布DFlash投机解码模型和Spec V2引擎,通过块扩散+KV注入并行生成draft token,在Qwen 3.5 397B模型上实现4.3倍吞吐量提升,显著优化推理效率。
美国白宫因中国访问担忧对Anthropic Mythos模型实施出口限制 80
Tags:
政策监管公司动态AI安全Source:
AI HOT 精选| 阅读原文
[摘要]
美国白宫因担忧中国关联团体访问及知识蒸馏风险,对Anthropic的Mythos模型实施出口限制,反映AI模型监管持续升级。
Salesforce以36亿美元收购AI客服平台Fin 80
Tags:
公司动态AI智能体企业服务收购Source:
AI HOT 精选| 阅读原文
[摘要]
Salesforce以36亿美元收购AI客服平台Fin,其智能体可跨多渠道解决客户问题,旨在增强企业级Agentforce平台,凸显企业AI智能体市场热度。
EmoMind: Decoding Affective Captions from Human Brain fMRI 80
Tags:
研究发布多模态脑科学情感计算Source:
arXiv Computation and Language| 阅读原文
[摘要]
EmoMind 首次实现从 fMRI 直接解码情感描述,用神经编码的连续情感向量改写场景描述,在个性化情感生成上超越 GPT-4,为情感计算和脑机接口提供新方向。
An Empirical Study of Automating Agent Evaluation 80
Tags:
智能体研究评估自动化Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究自动评估智能体行为的EvalAgent框架,实现从需求到评估代码和报告的自动化,将首次运行有效评估率从17.5%提升至65%,并获79.5%专家偏好,推动Agent评估效率。
Gaze Heads: How VLMs Look at What They Describe 80
Tags:
大模型多模态AI安全研究进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究发现视觉语言模型中有少量注意力头(Gaze Heads)跟踪图像描述区域,干预这些头可无需重训练重定向模型描述内容,为多模态行为控制提供新思路。
GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge 80
Tags:
推理优化智能体记忆系统研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出GitOfThoughts,将智能体推理树存储为git仓库,支持回放、diff和合并;实验发现记忆仅在问题与检索案例高度相似时提升准确性,否则无作用。
Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards 80
Tags:
大模型推理优化Text-to-SQLRL训练Source:
arXiv Computation and Language| 阅读原文
[摘要]
论文提出Reward-SQL方法,通过分步执行感知推理与过程监督奖励提升LLM在Text-to-SQL复杂查询上的性能,实验显著优于基线,具有跨域泛化能力。
Same-Origin Policy for Agentic Browsers 80
Tags:
AI安全智能体浏览器安全Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究指出当前智能体浏览器常违反同源策略(SOP),提出基准SOPBench与防护机制SOPGuard,对AI代理安全有重要意义。
UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities 80
Tags:
RAG多模态研究发布Source:
arXiv Computation and Language| 阅读原文
[摘要]
UniversalRAG提出多模态多粒度检索增强框架,通过模态感知路由避免模态鸿沟,在10个多模态基准上超越现有方案。
Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback 80
Tags:
研究进展训练方法大模型模型蒸馏Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出On-Policy Co-Distillation方法,通过同伴反馈实现两个LLM在多域间的互惠提升,达到Pareto改善,在Science Q&A任务中显著超越基线。
Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2 80
Tags:
模型压缩推理优化研究进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究发现剪枝LLaMA-3.2的GLU-MLP层可提升指令跟随能力(IFEval最高+46%),挑战了剪枝导致均匀退化的传统假设,为模型压缩提供新方向。