Skip to content

2026-06-26

OpenAI内部报告显示,智能体产品Codex已取代ChatGPT成为主要工作工具,使用率从不足10%升至99.8%,非开发者用户增长超百倍,标志AI智能体在职场大规模落地。 IBM发布全球首款0.7nm亚纳米级芯片,采用三维纳米堆叠架构,晶体管密度近千亿,性能提升50%、能效提升70%,将支撑未来AI高负载需求。 Anthropic指控阿里巴巴通过逆向工程…

OpenAI内部报告:智能体Codex如何改变工作 95

  • Tags: 智能体 公司动态 产品发布

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI内部报告显示,智能体产品Codex已取代ChatGPT成为主要工作工具,使用率从不足10%升至99.8%,非开发者用户增长超百倍,标志AI智能体在职场大规模落地。


IBM 首度推出亚纳米级芯片技术 95

  • Tags: 芯片算力 公司动态 硬件突破

  • Source: AI HOT 精选 | 阅读原文

[摘要]
IBM发布全球首款0.7nm亚纳米级芯片,采用三维纳米堆叠架构,晶体管密度近千亿,性能提升50%、能效提升70%,将支撑未来AI高负载需求。


Anthropic称阿里巴巴非法获取了Claude AI模型的功能 88

  • Tags: 公司动态 AI安全 政策监管

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic指控阿里巴巴通过逆向工程非法获取其Claude模型核心技术能力,涉及AI知识产权保护与行业竞争。


美国政府要求OpenAI暂缓GPT-5.6广泛发布 85

  • Tags: 政策监管 模型发布 AI安全 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
美国政府要求OpenAI暂缓GPT-5.6广泛发布,改为受控预览版且需逐客户审批,旨在管控模型在自动化网络工作上的双刃剑风险。


Gemini 3.5 Flash 引入 computer use 功能 85

  • Tags: 模型发布 智能体 产品更新 企业自动化

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Google DeepMind将computer use集成至Gemini 3.5 Flash,支持跨端智能体视觉感知与操作,提升企业自动化任务性能,安全机制针对对抗训练和注入防护。


b9788 85

  • Tags: 推理优化 开源生态 SYCL 张量并行

  • Source: GitHub Release - llama.cpp | 阅读原文

[摘要]
llama.cpp 的 SYCL 后端新增 tensor parallelism (--split-mode tensor) 支持,双 GPU 下 Llama-3.3-70B 推理速度提升 20-78%,显著增强了 Intel GPU 生态中的大模型推理能力。


Position: Reasoning After Perception Means Reasoning Without Vision 85

  • Tags: 多模态 视觉推理 AI研究

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
论文挑战多模态模型语言推理弥补视觉缺陷的信念,提出感知后推理导致视觉信号在文本空间丢失,建议转向感知内推理。


BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents 85

  • Tags: 智能体 强化学习 模型训练 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出BiPACE优势估计器,通过双模拟聚类与动作反事实估计解决LLM智能体训练中信用分配问题,在ALFWorld等基准上显著提升成功率,无需额外批评网络或开销。


Information from coincidences 85

  • Tags: 理论 信息论 机器学习

  • Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
论文证明统一信息论变分结果的代数恒等式,推广Rényi熵/散度到多先验,导出PAC-Bayes新边界与假设检验误差指数,具有广泛理论意义。


General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体 82

  • Tags: 融资动态 智能体 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
General Intuition 获3.2亿美元融资,用游戏操作数据训练通用AI智能体,可驾驭虚拟环境和机器人,计划夏末开放API。


Improved Large Language Diffusion Models 82

  • Tags: 模型发布 大模型 训练方法 研究进展

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
iLLaDA 8B掩码扩散语言模型发布,采用完全双向注意力训练,12T token预训练,在BBH、MATH、HumanEval等基准上显著提升,与非自回归方法竞争Qwen2.5 7B,展示扩散模型在语言建模中的潜力。


Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模 80

  • Tags: 模型发布 开源生态 智能体

  • Source: AI HOT 精选 | 阅读原文

[摘要]
Ornith-1.0 开源模型家族发布,专注智能体编程,覆盖9B至397B参数,在多个Agent基准上达开源顶尖,MIT许可,支持本地运行。


Codex 在 ChatGPT 移动 App 正式可用 80

  • Tags: 产品发布 大模型 AI编程 公司动态

  • Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI 宣布 Codex 在 ChatGPT 移动应用正式开放(GA),并支持设备配对,移动端可远程控制代码执行,进一步降低 AI 编程门槛。


CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks 80

  • Tags: 多模态 模型微调 参数效率

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出CoLA跨模态低秩适配方法,在多模态下游任务上优于LoRA,实现参数高效微调,并开源代码,是多模态适配的重要进展。


RAS: Measuring LLM Safety Through Refusal Alignment 80

  • Tags: AI安全 评测方法 研究进展

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 SafeVec 方法,通过模型内部表示计算 RAS 分数,高效评估 LLM 拒绝对齐安全性,优于传统 judge 评测。


A Systematic Analysis of Hybrid Linear Attention 80

  • Tags: 研究 模型发布 推理优化 开源生态

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
系统性研究混合线性注意力架构,训练并开源72个模型,揭示线性与全注意力层的最佳比例,推荐HGRN-2/GatedDeltaNet实现高效召回。


To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG 80

  • Tags: 大模型 智能体 RAG 推理优化

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
提出MADARA模型自适应路由架构,通过诊断阈值通用化实现零样本迁移,显著降低多智能体RAG计算开销并提升效果。


Scale or Reason? A Compute-Equivalent Analysis of Reasoning Distillation 80

  • Tags: 训练方法 推理优化 研究进展 效率

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
新研究通过计算等价分析发现,在相同计算预算下,标准指令微调(IFT)在多数场景优于推理蒸馏,仅在大模型开放任务中推理蒸馏有优势,混合训练可平衡效果与成本。


Do Thinking Tokens Help with Safety? 80

  • Tags: AI安全 模型对齐 推理模型

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
研究表明前沿推理模型的思考token并未真正提升安全对齐,安全行为在思考早期即被锁定,质疑了当前安全干预的有效性。


MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models 80

  • Tags: 多模态 模型评测 基准 医学AI

  • Source: arXiv Computation and Language | 阅读原文

[摘要]
MedLayBench-V发布,首个大规模多模态基准,用于医学视觉语言模型的专家-外行语义对齐,旨在提升模型面向患者通俗化解读医学影像的能力。