2026-06-26

OpenAI内部报告显示，智能体产品Codex已取代ChatGPT成为主要工作工具，使用率从不足10%升至99.8%，非开发者用户增长超百倍，标志AI智能体在职场大规模落地。 IBM发布全球首款0.7nm亚纳米级芯片，采用三维纳米堆叠架构，晶体管密度近千亿，性能提升50%、能效提升70%，将支撑未来AI高负载需求。 Anthropic指控阿里巴巴通过逆向工程…

OpenAI内部报告：智能体Codex如何改变工作 95

Tags: 智能体 公司动态 产品发布
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI内部报告显示，智能体产品Codex已取代ChatGPT成为主要工作工具，使用率从不足10%升至99.8%，非开发者用户增长超百倍，标志AI智能体在职场大规模落地。

IBM 首度推出亚纳米级芯片技术 95

Tags: 芯片算力 公司动态 硬件突破
Source: AI HOT 精选 | 阅读原文

[摘要]
IBM发布全球首款0.7nm亚纳米级芯片，采用三维纳米堆叠架构，晶体管密度近千亿，性能提升50%、能效提升70%，将支撑未来AI高负载需求。

Anthropic称阿里巴巴非法获取了Claude AI模型的功能 88

Tags: 公司动态 AI安全 政策监管
Source: AI HOT 精选 | 阅读原文

[摘要]
Anthropic指控阿里巴巴通过逆向工程非法获取其Claude模型核心技术能力，涉及AI知识产权保护与行业竞争。

美国政府要求OpenAI暂缓GPT-5.6广泛发布 85

Tags: 政策监管 模型发布 AI安全 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
美国政府要求OpenAI暂缓GPT-5.6广泛发布，改为受控预览版且需逐客户审批，旨在管控模型在自动化网络工作上的双刃剑风险。

Gemini 3.5 Flash 引入 computer use 功能 85

Tags: 模型发布 智能体 产品更新 企业自动化
Source: AI HOT 精选 | 阅读原文

[摘要]
Google DeepMind将computer use集成至Gemini 3.5 Flash，支持跨端智能体视觉感知与操作，提升企业自动化任务性能，安全机制针对对抗训练和注入防护。

b9788 85

Tags: 推理优化 开源生态 SYCL 张量并行
Source: GitHub Release - llama.cpp | 阅读原文

[摘要]
llama.cpp 的 SYCL 后端新增 tensor parallelism (--split-mode tensor) 支持，双 GPU 下 Llama-3.3-70B 推理速度提升 20-78%，显著增强了 Intel GPU 生态中的大模型推理能力。

Position: Reasoning After Perception Means Reasoning Without Vision 85

Tags: 多模态 视觉推理 AI研究
Source: arXiv Computation and Language | 阅读原文

[摘要]
论文挑战多模态模型语言推理弥补视觉缺陷的信念，提出感知后推理导致视觉信号在文本空间丢失，建议转向感知内推理。

BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents 85

Tags: 智能体 强化学习 模型训练 推理优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出BiPACE优势估计器，通过双模拟聚类与动作反事实估计解决LLM智能体训练中信用分配问题，在ALFWorld等基准上显著提升成功率，无需额外批评网络或开销。

Information from coincidences 85

Tags: 理论 信息论 机器学习
Source: arXiv Statistics - Machine Learning | 阅读原文

[摘要]
论文证明统一信息论变分结果的代数恒等式，推广Rényi熵/散度到多先验，导出PAC-Bayes新边界与假设检验误差指数，具有广泛理论意义。

General Intuition 完成 3.2 亿美元融资，用游戏数据训练通用 AI 智能体 82

Tags: 融资动态 智能体 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
General Intuition 获3.2亿美元融资，用游戏操作数据训练通用AI智能体，可驾驭虚拟环境和机器人，计划夏末开放API。

Improved Large Language Diffusion Models 82

Tags: 模型发布 大模型 训练方法 研究进展
Source: arXiv Computation and Language | 阅读原文

[摘要]
iLLaDA 8B掩码扩散语言模型发布，采用完全双向注意力训练，12T token预训练，在BBH、MATH、HumanEval等基准上显著提升，与非自回归方法竞争Qwen2.5 7B，展示扩散模型在语言建模中的潜力。

Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模 80

Tags: 模型发布 开源生态 智能体
Source: AI HOT 精选 | 阅读原文

[摘要]
Ornith-1.0 开源模型家族发布，专注智能体编程，覆盖9B至397B参数，在多个Agent基准上达开源顶尖，MIT许可，支持本地运行。

Codex 在 ChatGPT 移动 App 正式可用 80

Tags: 产品发布 大模型 AI编程 公司动态
Source: AI HOT 精选 | 阅读原文

[摘要]
OpenAI 宣布 Codex 在 ChatGPT 移动应用正式开放（GA），并支持设备配对，移动端可远程控制代码执行，进一步降低 AI 编程门槛。

Tags: 多模态 模型微调 参数效率
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出CoLA跨模态低秩适配方法，在多模态下游任务上优于LoRA，实现参数高效微调，并开源代码，是多模态适配的重要进展。

RAS: Measuring LLM Safety Through Refusal Alignment 80

Tags: AI安全 评测方法 研究进展
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出 SafeVec 方法，通过模型内部表示计算 RAS 分数，高效评估 LLM 拒绝对齐安全性，优于传统 judge 评测。

A Systematic Analysis of Hybrid Linear Attention 80

Tags: 研究 模型发布 推理优化 开源生态
Source: arXiv Computation and Language | 阅读原文

[摘要]
系统性研究混合线性注意力架构，训练并开源72个模型，揭示线性与全注意力层的最佳比例，推荐HGRN-2/GatedDeltaNet实现高效召回。

To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG 80

Tags: 大模型 智能体 RAG 推理优化
Source: arXiv Computation and Language | 阅读原文

[摘要]
提出MADARA模型自适应路由架构，通过诊断阈值通用化实现零样本迁移，显著降低多智能体RAG计算开销并提升效果。

Scale or Reason? A Compute-Equivalent Analysis of Reasoning Distillation 80

Tags: 训练方法 推理优化 研究进展 效率
Source: arXiv Computation and Language | 阅读原文

[摘要]
新研究通过计算等价分析发现，在相同计算预算下，标准指令微调（IFT）在多数场景优于推理蒸馏，仅在大模型开放任务中推理蒸馏有优势，混合训练可平衡效果与成本。

Do Thinking Tokens Help with Safety? 80

Tags: AI安全 模型对齐 推理模型
Source: arXiv Computation and Language | 阅读原文

[摘要]
研究表明前沿推理模型的思考token并未真正提升安全对齐，安全行为在思考早期即被锁定，质疑了当前安全干预的有效性。

MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models 80

Tags: 多模态 模型评测 基准 医学AI
Source: arXiv Computation and Language | 阅读原文

[摘要]
MedLayBench-V发布，首个大规模多模态基准，用于医学视觉语言模型的专家-外行语义对齐，旨在提升模型面向患者通俗化解读医学影像的能力。

2026-06-26 ​

OpenAI内部报告：智能体Codex如何改变工作 95 ​

IBM 首度推出亚纳米级芯片技术 95 ​

Anthropic称阿里巴巴非法获取了Claude AI模型的功能 88 ​

美国政府要求OpenAI暂缓GPT-5.6广泛发布 85 ​

Gemini 3.5 Flash 引入 computer use 功能 85 ​

b9788 85 ​

Position: Reasoning After Perception Means Reasoning Without Vision 85 ​

BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents 85 ​

Information from coincidences 85 ​

General Intuition 完成 3.2 亿美元融资，用游戏数据训练通用 AI 智能体 82 ​

Improved Large Language Diffusion Models 82 ​

Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模 80 ​

Codex 在 ChatGPT 移动 App 正式可用 80 ​

CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks 80 ​

RAS: Measuring LLM Safety Through Refusal Alignment 80 ​

A Systematic Analysis of Hybrid Linear Attention 80 ​

To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG 80 ​

Scale or Reason? A Compute-Equivalent Analysis of Reasoning Distillation 80 ​

Do Thinking Tokens Help with Safety? 80 ​

MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models 80 ​

2026-06-26

OpenAI内部报告：智能体Codex如何改变工作 95

IBM 首度推出亚纳米级芯片技术 95

Anthropic称阿里巴巴非法获取了Claude AI模型的功能 88

美国政府要求OpenAI暂缓GPT-5.6广泛发布 85

Gemini 3.5 Flash 引入 computer use 功能 85

b9788 85

Position: Reasoning After Perception Means Reasoning Without Vision 85

BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents 85

Information from coincidences 85

General Intuition 完成 3.2 亿美元融资，用游戏数据训练通用 AI 智能体 82

Improved Large Language Diffusion Models 82

Ornith-1.0 开源模型家族发布，专注 Agentic Coding 全参数规模 80

Codex 在 ChatGPT 移动 App 正式可用 80

CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks 80

RAS: Measuring LLM Safety Through Refusal Alignment 80

A Systematic Analysis of Hybrid Linear Attention 80

To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG 80

Scale or Reason? A Compute-Equivalent Analysis of Reasoning Distillation 80

Do Thinking Tokens Help with Safety? 80

MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models 80