2026-06-16

UC Berkeley与UT Austin开源Flash-KMeans，通过IO感知优化在GPU上实现精确K-Means，比FAISS快200倍以上，大幅降低向量搜索与聚类成本。 MiniMax 开源 428B 参数 M3 多模态模型及 MSA 稀疏注意力论文，多项评测开源第一，显著降低长上下文成本。提出基于心理学六层情绪智能的EiCAP框架，包含基准与训…

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上 85

Tags: 推理优化 向量搜索 开源
Source: AI HOT 精选 | 阅读原文

[摘要]
UC Berkeley与UT Austin开源Flash-KMeans，通过IO感知优化在GPU上实现精确K-Means，比FAISS快200倍以上，大幅降低向量搜索与聚类成本。

MiniMax 开源 M3 模型权重及 MSA 技术论文 85

Tags: 模型发布 开源生态 多模态 推理优化
Source: AI HOT 精选 | 阅读原文

[摘要]
MiniMax 开源 428B 参数 M3 多模态模型及 MSA 稀疏注意力论文，多项评测开源第一，显著降低长上下文成本。

EiCAP: Beyond Fluency, Probing and Improving Emotional Intelligence in LLMs via Psychologically Grounded Multi-Turn Dialogue 85

Tags: 大模型 AI安全 模型训练
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出基于心理学六层情绪智能的EiCAP框架，包含基准与训练语料；实验表明通用SFT无法提升情绪智能，基于EI的LoRA微调在Qwen-2.5-7B上宏观得分从24.6%提升至75.33%。

CoRe: A Continuously Reward-Finetuned LLM Query Rewriter for Multi-Stage Context-Aware Relevance in Web-Scale Video Search 85

Tags: AI搜索 多模态 大模型 工程实践
Source: arXiv Computation and Language | 阅读原文

[摘要]
CoRe是一个基于LLM的连续奖励微调查询重写器，在短视频搜索生产中每周更新，通过混合偏好优化和自动安全门控有效提升搜索相关性并防范奖励黑客攻击。

OdysSim: Building Foundation Models for Human Behavior Simulation 85

Tags: 模型发布 开源生态 大模型 研究突破
Source: arXiv Computation and Language | 阅读原文

[摘要]
OdysSim提出人类行为模拟基础模型，构建SOUL统一框架及2140万交互语料库，开源8B OSim模型在23项基准中8项领先，类人行为模拟效果突出。

Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows 82

Tags: 智能体 推理优化 模型研究
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 Parallel-Synthesis 框架，使 LLM 智能体工作流中的合成器直接消费并行分支的 KV 缓存，避免冗余预填充计算，在多个数据集上匹配或超过文本拼接方法，并降低首 token 延迟 2.5-11 倍，显著提升智能体系统效率。

Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios 82

Tags: AI安全 大模型 AI伦理 性别偏见
Source: arXiv Computation and Language | 阅读原文

[摘要]
GAMA-Bench 揭示主流 LLM 对男性行为更严厉、对女性更共情的系统性性别偏见，影响 AI 公平与安全。

WorkBench Revisited: Workplace Agents Two Years On 82

Tags: 智能体 模型能力 AI安全 基准测试
Source: arXiv Computation and Language | 阅读原文

[摘要]
WorkBench基准多年评估显示，AI智能体任务完成率从43%升至89%，有害动作从26%降至2.5%，表明能力与安全性协同提升，开源模型大幅降低成本。

下一代投机解码：DFlash 与 Spec V2 80

Tags: 推理优化 模型发布 开源生态
Source: AI HOT 精选 | 阅读原文

[摘要]
Z Lab、Modal与SGLang联合发布DFlash投机解码模型和Spec V2引擎，通过块扩散+KV注入并行生成draft token，在Qwen 3.5 397B模型上实现4.3倍吞吐量提升，显著优化推理效率。

美国白宫因中国访问担忧对Anthropic Mythos模型实施出口限制 80

Tags: 政策监管 公司动态 AI安全
Source: AI HOT 精选 | 阅读原文

[摘要]
美国白宫因担忧中国关联团体访问及知识蒸馏风险，对Anthropic的Mythos模型实施出口限制，反映AI模型监管持续升级。

Salesforce以36亿美元收购AI客服平台Fin 80

Tags: 公司动态 AI智能体 企业服务 收购
Source: AI HOT 精选 | 阅读原文

[摘要]
Salesforce以36亿美元收购AI客服平台Fin，其智能体可跨多渠道解决客户问题，旨在增强企业级Agentforce平台，凸显企业AI智能体市场热度。

EmoMind: Decoding Affective Captions from Human Brain fMRI 80

Tags: 研究发布 多模态 脑科学 情感计算
Source: arXiv Computation and Language | 阅读原文

[摘要]
EmoMind 首次实现从 fMRI 直接解码情感描述，用神经编码的连续情感向量改写场景描述，在个性化情感生成上超越 GPT-4，为情感计算和脑机接口提供新方向。

An Empirical Study of Automating Agent Evaluation 80

Tags: 智能体 研究 评估自动化
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究自动评估智能体行为的EvalAgent框架，实现从需求到评估代码和报告的自动化，将首次运行有效评估率从17.5%提升至65%，并获79.5%专家偏好，推动Agent评估效率。

Gaze Heads: How VLMs Look at What They Describe 80

Tags: 大模型 多模态 AI安全 研究进展
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究发现视觉语言模型中有少量注意力头（Gaze Heads）跟踪图像描述区域，干预这些头可无需重训练重定向模型描述内容，为多模态行为控制提供新思路。

GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge 80

Tags: 推理优化 智能体 记忆系统 研究
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出GitOfThoughts，将智能体推理树存储为git仓库，支持回放、diff和合并；实验发现记忆仅在问题与检索案例高度相似时提升准确性，否则无作用。

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards 80

Tags: 大模型 推理优化 Text-to-SQL RL训练
Source: arXiv Computation and Language | 阅读原文

[摘要]
论文提出Reward-SQL方法，通过分步执行感知推理与过程监督奖励提升LLM在Text-to-SQL复杂查询上的性能，实验显著优于基线，具有跨域泛化能力。

Same-Origin Policy for Agentic Browsers 80

Tags: AI安全 智能体 浏览器安全
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究指出当前智能体浏览器常违反同源策略(SOP)，提出基准SOPBench与防护机制SOPGuard，对AI代理安全有重要意义。

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities 80

Tags: RAG 多模态 研究发布
Source: arXiv Computation and Language | 阅读原文

[摘要]
UniversalRAG提出多模态多粒度检索增强框架，通过模态感知路由避免模态鸿沟，在10个多模态基准上超越现有方案。

Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback 80

Tags: 研究进展 训练方法 大模型 模型蒸馏
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出On-Policy Co-Distillation方法，通过同伴反馈实现两个LLM在多域间的互惠提升，达到Pareto改善，在Science Q&A任务中显著超越基线。

Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2 80

Tags: 模型压缩 推理优化 研究进展
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究发现剪枝LLaMA-3.2的GLU-MLP层可提升指令跟随能力（IFEval最高+46%），挑战了剪枝导致均匀退化的传统假设，为模型压缩提供新方向。

2026-06-16 ​

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上 85 ​

MiniMax 开源 M3 模型权重及 MSA 技术论文 85 ​

EiCAP: Beyond Fluency, Probing and Improving Emotional Intelligence in LLMs via Psychologically Grounded Multi-Turn Dialogue 85 ​

CoRe: A Continuously Reward-Finetuned LLM Query Rewriter for Multi-Stage Context-Aware Relevance in Web-Scale Video Search 85 ​

OdysSim: Building Foundation Models for Human Behavior Simulation 85 ​

Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows 82 ​

Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios 82 ​

WorkBench Revisited: Workplace Agents Two Years On 82 ​

下一代投机解码：DFlash 与 Spec V2 80 ​

美国白宫因中国访问担忧对Anthropic Mythos模型实施出口限制 80 ​

Salesforce以36亿美元收购AI客服平台Fin 80 ​

EmoMind: Decoding Affective Captions from Human Brain fMRI 80 ​

An Empirical Study of Automating Agent Evaluation 80 ​

Gaze Heads: How VLMs Look at What They Describe 80 ​

GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge 80 ​

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards 80 ​

Same-Origin Policy for Agentic Browsers 80 ​

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities 80 ​

Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback 80 ​

Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2 80 ​

2026-06-16

Flash-KMeans：IO感知的精确K-Means，在GPU上比FAISS快200倍以上 85

MiniMax 开源 M3 模型权重及 MSA 技术论文 85

EiCAP: Beyond Fluency, Probing and Improving Emotional Intelligence in LLMs via Psychologically Grounded Multi-Turn Dialogue 85

CoRe: A Continuously Reward-Finetuned LLM Query Rewriter for Multi-Stage Context-Aware Relevance in Web-Scale Video Search 85

OdysSim: Building Foundation Models for Human Behavior Simulation 85

Towards Direct Latent-Space Synthesis for Parallel Branches in LLM-Agent Workflows 82

Harsher on Male? Evaluating LLMs on Gender-Asymmetric Moral Framing Across Diverse Conflict Scenarios 82

WorkBench Revisited: Workplace Agents Two Years On 82

下一代投机解码：DFlash 与 Spec V2 80

美国白宫因中国访问担忧对Anthropic Mythos模型实施出口限制 80

Salesforce以36亿美元收购AI客服平台Fin 80

EmoMind: Decoding Affective Captions from Human Brain fMRI 80

An Empirical Study of Automating Agent Evaluation 80

Gaze Heads: How VLMs Look at What They Describe 80

GitOfThoughts: Version-Controlled Reasoning and Agent Memory You Can Replay, Diff, and Merge 80

Reward-SQL: Boosting Text-to-SQL via Stepwise Execution-Aware Reasoning and Process-Supervised Rewards 80

Same-Origin Policy for Agentic Browsers 80

UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities 80

Be My Tutor: On-Policy Co-Distillation for Mutual LLM Improvement via Peer Feedback 80

Fragile Knowledge, Robust Instruction-Following: The Width Pruning Dichotomy in Llama-3.2 80