减论 Reduct - AI 人才成长链接

今日减论热点Global Trending Research

Unlimited OCR Works

Youyang Yin,Huanhuan Liu,YY,Qunyi Xie,Chaorun Liu,Shiqi Yang,Shaohua Wang,Zhanlong Liu,Hao Zou,Jinyue Chen,Shu Wei,Jingjing Wu,Mingxin Huang,Zhen Wu,Guibin Wang,Tengyu Du,Lei Jia(Unknown)

该论文提出Unlimited OCR模型，通过将解码器中的注意力机制替换为Reference Sliding Window Attention（R-SWA），实现了在保持恒定KV缓存的同时显著降低计算成本，从而支持在单次前向传播中高效处理长达32K长度的文本序列。

cs.CL发布于 2026-06-23🔥 96

VideoAgent: All-in-One Framework for Video Understanding and Editing

Hengji Zhou,Lingxuan Huang,Jian Wang,Bing Zhou,Si Wu,Lianghao Xia,Chao Huang(South China University of Technology, The University of Hong Kong, Snap Inc, Harbin Institute of Technology)

华南理工大学、香港大学和哈尔滨工业大学推出了 VideoAgent，一种集成多智能体协同的全能视频理解与编辑框架，通过自动化镜头规划和跨模态检索实现长视频连贯叙事，并利用文本梯度图优化构建复杂编辑流水线。

cs.AI发布于 2026-06-23🔥 78

Improved Large Language Diffusion Models

Shen Nie,Qiyang Min,Shaoxuan Xu,Zihao Huang,Yuxuan Song,Yong Shan,Yankai Lin,Wayne Xin Zhao,Chongxuan Li,Ji-Rong Wen(Beijing Key Laboratory of Research on Large Models and Intelligent Governance, MOE, Renmin University of China, Bytedance Seed)

北京大模型与智能治理研究重点实验室、中国人民大学及字节跳动种子推出了 iLLaDA，一种基于全双向注意力的8B参数掩码扩散语言模型，采用从零训练的掩码扩散目标，结合变长生成和置信度评分，在多项通用、数学及代码基准测试中显著优于现有自回归模型。

cs.AI发布于 2026-06-25🔥 76

Fara-1.5: Scalable Learning Environments for Computer Use Agents

Ahmed Awadallah,Sahil Gupta,Yash Lara,Yadong Lu,Hussein Mozannar,Akshay Nambi,Zach Nussbaum,Yash Pandya,Aravind Rajeswaran,Corby Rosset,Alexey Taymanov,Luiz do Valle,Vibhav Vineet,Spencer Whitehead,Andrew Zhao(Unknown)

该论文提出了FaraGen1.5数据流水线，通过结合真实网站与合成环境、利用多模型solver和多维度verifier，实现了计算机使用代理的可扩展数据生成与监督微调训练，显著提升了不同规模模型在浏览器操作基准测试中的表现。

cs.AI发布于 2026-06-23🔥 72

HoloAgent-0: A Unified Embodied Agent Framework with 3D Spatial Memory

Xiaolin Zhou,Liu Liu,Tingyang Xiao,Wei Feng,Fa Fu,Xinrui Meng,Xinjie Wang,Jialiang Han,Boyang Yu,Yun Du,Wei Sui,Zhizhong Su(Horizon Robotics, D-Robotics Robotics)

地平线机器人与D-Robotics机器人公司推出了HoloAgent-0，一种集成Embodied AgentOS、3D空间记忆与机器人技能的统一化实体智能体框架，实现了基于语言指令的闭环执行与多机器人协同操作。

cs.CV发布于 2026-06-23🔥 64

PP-OCRv6: From 1.5M to 34.5M Parameters, Surpassing Billion-Scale VLMs on OCR Tasks

Yubo Zhang,Xueqing Wang,Manhui Lin,Yue Zhang,Penglongyi Deng,Ting Sun,Tingquan Gao,Zelun Zhang,Jiaxuan Liu,Changda Zhou,Hongen Liu,Suyin Liang,Cheng Cui,Yi Liu,Dianhai Yu,Yanjun Ma(Baidu Inc., PaddlePaddle Team)

百度公司推出了PP-OCRv6，一种基于统一MetaFormer结构块并结合结构重参数化的轻量级OCR系统，通过任务特定步幅配置实现空间token混合与通道混合解耦，涵盖多种部署场景，在保持显著提升识别与检测性能的同时大幅减少参数量和计算成本。

cs.CV发布于 2026-06-12🔥 64

PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

Zelun Zhang,Hongen Liu,Suyin Liang,Yubo Zhang,Yiqing Xiang,Jiaxuan Liu,Ting Sun,Manhui Lin,Yue Zhang,Changda Zhou,Tingquan Gao,Cheng Cui,Yi Liu,Dianhai Yu,Yanjun Ma(Baidu Inc.)

百度公司推出了 PaddleOCR-VL-1.6，一种基于区域感知数据优化框架和渐进式后训练策略，针对模型弱区进行定向增强以提升文档解析性能的紧凑型升级模型。

cs.CV发布于 2026-06-03🔥 61

Causal-rCM: A Unified Teacher-Forcing and Self-Forcing Open Recipe for Autoregressive Diffusion Distillation in Streaming Video Generation and Interactive World Models

Kaiwen Zheng,Guande He,Min Zhao,Jintao Zhang,Huayu Chen,Jianfei Chen,Chen-Hsuan Lin,Ming-Yu Liu,Jun Zhu,Qianli Ma(Tsinghua University, NVIDIA, UT Austin)

清华大学、英伟达与德克萨斯大学奥斯汀分校介绍了 Causal-rCM，一种结合 teacher-forcing 与 self-forcing 的统一自回归扩散蒸馏方法，显著提升了流式视频生成与交互式世界模型的实时性能与训练效率。

cs.CV发布于 2026-06-25🔥 56

MVEB: Massive Video Embedding Benchmark

Adnan El Assadi,Roman Solomatin,Isaac Chung,Chenghao Xiao,Deep Shah,Manan Dey,Shriya Sudhakar,Zacharie Bugaud,Wissam Siblini,Ayush Sunil Munot,Yashwanth Devavarapu,Rakshitha Ireddi,Michelle Yang,Márton Kardos,Niklas Muennighoff,Kenneth Enevoldsen(Harvard University, SaluteDevices, Mirai, Zendesk, Shanghai University of Finance and Economics, Google LLC, Salesforce, Cornell University, Astera Institute, Independent Contributor, Indian Institute of Technology, Barclays, Aarhus University, Stanford University)

哈佛大学、致敬设备与斯坦福大学联合推出了MVEB（Massive Video Embedding Benchmark），该基准包含23个视频嵌入任务，涵盖分类、零样本分类、聚类、对分类、检索及视频问答，并评估了33个模型以揭示不同模型在多模态视频理解中的性能差异。

cs.CV发布于 2026-06-16🔥 54

Cosmos 3: Omnimodal World Models for Physical AI

Aditi,Niket Agarwal,Arslan Ali,Jon Allen,Martin Antolini,Adeline Aubame,Alisson Azzolini,Junjie Bai,Maciej Bala,Yogesh Balaji,Josh Bapst,Aarti Basant,Mukesh Beladiya,Mohammad Qazim Bhat,Zaid Pervaiz Bhat,Dan Blick,Vanni Brighella,Han Cai,Tiffany Cai,Eric Cameracci(NVIDIA)

英伟达推出了Cosmos 3，一种基于混合transformers架构的全模态世界模型，能够统一处理和生成语言、图像、视频、音频及动作序列，支持灵活的输入输出配置，涵盖物理人工智能中的多种关键模态，并在多项理解与生成任务中实现了最新的性能水平。

cs.AI发布于 2026-06-03🔥 47

查看完整热点 →