2026-06-26
OpenAI内部报告显示,智能体产品Codex已取代ChatGPT成为主要工作工具,使用率从不足10%升至99.8%,非开发者用户增长超百倍,标志AI智能体在职场大规模落地。 IBM发布全球首款0.7nm亚纳米级芯片,采用三维纳米堆叠架构,晶体管密度近千亿,性能提升50%、能效提升70%,将支撑未来AI高负载需求。 Anthropic指控阿里巴巴通过逆向工程…
OpenAI内部报告:智能体Codex如何改变工作 95
Tags:
智能体公司动态产品发布Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI内部报告显示,智能体产品Codex已取代ChatGPT成为主要工作工具,使用率从不足10%升至99.8%,非开发者用户增长超百倍,标志AI智能体在职场大规模落地。
IBM 首度推出亚纳米级芯片技术 95
Tags:
芯片算力公司动态硬件突破Source:
AI HOT 精选| 阅读原文
[摘要]
IBM发布全球首款0.7nm亚纳米级芯片,采用三维纳米堆叠架构,晶体管密度近千亿,性能提升50%、能效提升70%,将支撑未来AI高负载需求。
Anthropic称阿里巴巴非法获取了Claude AI模型的功能 88
Tags:
公司动态AI安全政策监管Source:
AI HOT 精选| 阅读原文
[摘要]
Anthropic指控阿里巴巴通过逆向工程非法获取其Claude模型核心技术能力,涉及AI知识产权保护与行业竞争。
美国政府要求OpenAI暂缓GPT-5.6广泛发布 85
Tags:
政策监管模型发布AI安全公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
美国政府要求OpenAI暂缓GPT-5.6广泛发布,改为受控预览版且需逐客户审批,旨在管控模型在自动化网络工作上的双刃剑风险。
Gemini 3.5 Flash 引入 computer use 功能 85
Tags:
模型发布智能体产品更新企业自动化Source:
AI HOT 精选| 阅读原文
[摘要]
Google DeepMind将computer use集成至Gemini 3.5 Flash,支持跨端智能体视觉感知与操作,提升企业自动化任务性能,安全机制针对对抗训练和注入防护。
b9788 85
Tags:
推理优化开源生态SYCL张量并行Source:
GitHub Release - llama.cpp| 阅读原文
[摘要]
llama.cpp 的 SYCL 后端新增 tensor parallelism (--split-mode tensor) 支持,双 GPU 下 Llama-3.3-70B 推理速度提升 20-78%,显著增强了 Intel GPU 生态中的大模型推理能力。
Position: Reasoning After Perception Means Reasoning Without Vision 85
Tags:
多模态视觉推理AI研究Source:
arXiv Computation and Language| 阅读原文
[摘要]
论文挑战多模态模型语言推理弥补视觉缺陷的信念,提出感知后推理导致视觉信号在文本空间丢失,建议转向感知内推理。
BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents 85
Tags:
智能体强化学习模型训练推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出BiPACE优势估计器,通过双模拟聚类与动作反事实估计解决LLM智能体训练中信用分配问题,在ALFWorld等基准上显著提升成功率,无需额外批评网络或开销。
Information from coincidences 85
Tags:
理论信息论机器学习Source:
arXiv Statistics - Machine Learning| 阅读原文
[摘要]
论文证明统一信息论变分结果的代数恒等式,推广Rényi熵/散度到多先验,导出PAC-Bayes新边界与假设检验误差指数,具有广泛理论意义。
General Intuition 完成 3.2 亿美元融资,用游戏数据训练通用 AI 智能体 82
Tags:
融资动态智能体公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
General Intuition 获3.2亿美元融资,用游戏操作数据训练通用AI智能体,可驾驭虚拟环境和机器人,计划夏末开放API。
Improved Large Language Diffusion Models 82
Tags:
模型发布大模型训练方法研究进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
iLLaDA 8B掩码扩散语言模型发布,采用完全双向注意力训练,12T token预训练,在BBH、MATH、HumanEval等基准上显著提升,与非自回归方法竞争Qwen2.5 7B,展示扩散模型在语言建模中的潜力。
Ornith-1.0 开源模型家族发布,专注 Agentic Coding 全参数规模 80
Tags:
模型发布开源生态智能体Source:
AI HOT 精选| 阅读原文
[摘要]
Ornith-1.0 开源模型家族发布,专注智能体编程,覆盖9B至397B参数,在多个Agent基准上达开源顶尖,MIT许可,支持本地运行。
Codex 在 ChatGPT 移动 App 正式可用 80
Tags:
产品发布大模型AI编程公司动态Source:
AI HOT 精选| 阅读原文
[摘要]
OpenAI 宣布 Codex 在 ChatGPT 移动应用正式开放(GA),并支持设备配对,移动端可远程控制代码执行,进一步降低 AI 编程门槛。
CoLA: Cross-Modal Low-rank Adaptation for Multimodal Downstream Tasks 80
Tags:
多模态模型微调参数效率Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出CoLA跨模态低秩适配方法,在多模态下游任务上优于LoRA,实现参数高效微调,并开源代码,是多模态适配的重要进展。
RAS: Measuring LLM Safety Through Refusal Alignment 80
Tags:
AI安全评测方法研究进展Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出 SafeVec 方法,通过模型内部表示计算 RAS 分数,高效评估 LLM 拒绝对齐安全性,优于传统 judge 评测。
A Systematic Analysis of Hybrid Linear Attention 80
Tags:
研究模型发布推理优化开源生态Source:
arXiv Computation and Language| 阅读原文
[摘要]
系统性研究混合线性注意力架构,训练并开源72个模型,揭示线性与全注意力层的最佳比例,推荐HGRN-2/GatedDeltaNet实现高效召回。
To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG 80
Tags:
大模型智能体RAG推理优化Source:
arXiv Computation and Language| 阅读原文
[摘要]
提出MADARA模型自适应路由架构,通过诊断阈值通用化实现零样本迁移,显著降低多智能体RAG计算开销并提升效果。
Scale or Reason? A Compute-Equivalent Analysis of Reasoning Distillation 80
Tags:
训练方法推理优化研究进展效率Source:
arXiv Computation and Language| 阅读原文
[摘要]
新研究通过计算等价分析发现,在相同计算预算下,标准指令微调(IFT)在多数场景优于推理蒸馏,仅在大模型开放任务中推理蒸馏有优势,混合训练可平衡效果与成本。
Do Thinking Tokens Help with Safety? 80
Tags:
AI安全模型对齐推理模型Source:
arXiv Computation and Language| 阅读原文
[摘要]
研究表明前沿推理模型的思考token并未真正提升安全对齐,安全行为在思考早期即被锁定,质疑了当前安全干预的有效性。
MedLayBench-V: A Large-Scale Benchmark for Expert-Lay Semantic Alignment in Medical Vision Language Models 80
Tags:
多模态模型评测基准医学AISource:
arXiv Computation and Language| 阅读原文
[摘要]
MedLayBench-V发布,首个大规模多模态基准,用于医学视觉语言模型的专家-外行语义对齐,旨在提升模型面向患者通俗化解读医学影像的能力。