减论 Reduct - AI 人才成长链接

今日减论热点Global Trending Research

Generative Modeling via Drifting

Mingyang Deng,He Li,Tianhong Li,Yilun Du,Kaiming He(MIT, Harvard University)

麻省理工学院和哈佛大学提出了Drifting Models方法，该方法通过引入漂移场在训练过程中演化推送分布，实现了分布匹配的平衡状态，从而支持高效的一步生成推断。

cs.CV发布于 2026-02-04🔥 577

Bidirectional Normalizing Flow: From Data to Noise and Back

Yiyang Lu,Qiao Sun,Xianbang Wang,Zhicheng Jiang,Hanhong Zhao,Kaiming He(Tsinghua University, MIT)

清华大学和麻省理工学院介绍了 Bidirectional Normalizing Flow（BiFlow）框架，该方法通过学习近似的噪声到数据逆映射，突破了传统 Normalizing Flows 对精确可逆变换的限制，实现了更灵活的损失函数设计和架构选择，并在 ImageNet 上显著提升了生成质量和采样速度。

cs.CV发布于 2025-12-11🔥 425

Visual Generation Tuning

Jiahao Guo,Sinan Du,Jingfeng Yao,Wenyu Liu,Bo Li,Haoxiang Cao,Kun Gai,Chun Yuan,Kai Wu,Xinggang Wang(Huazhong University of Science and Technology, Tsinghua University, Kuaishou Technology, South China Normal University)

华中科技大学、清华大学和华南师范大学介绍了 Visual Generation Tuning（VGT），一种通过高效调优预训练大规模视觉语言模型，实现视觉生成能力激发与加速自回归连续空间建模的新范式。

cs.CV发布于 2025-11-28🔥 183

One-step Latent-free Image Generation with Pixel Mean Flows

Yiyang Lu,Susie Lu,Qiao Sun,Hanhong Zhao,Zhicheng Jiang,Xianbang Wang,Tianhong Li,Zhengyang Geng,Kaiming He(Massachusetts Institute of Technology, Carnegie Mellon University)

麻省理工学院与卡内基梅隆大学提出了 pixel MeanFlow（pMF），通过将网络输出空间与损失空间分离，设计基于低维图像流形的 x 预测目标及速度空间的 MeanFlow 损失，实现了无潜变量的一步图像生成。

cs.CV发布于 2026-01-29🔥 150

Improved Mean Flows: On the Challenges of Fastforward Generative Models

Zhengyang Geng,Yiyang Lu,Zongze Wu,Eli Shechtman,J. Zico Kolter,Kaiming He(Carnegie Mellon University, Tsinghua University, Adobe, Massachusetts Institute of Technology)

卡内基梅隆大学、清华大学和麻省理工学院介绍了改进的MeanFlow（iMF）方法，通过重新参数化瞬时速度的训练目标和引入显式条件变量的引导机制，实现了单步生成模型训练的稳定性和灵活性显著提升，并在ImageNet 256×256上以单次函数评估达到1.72的FID，显著优于现有同类方法。

cs.CV发布于 2025-12-01🔥 122

Back to Basics: Let Denoising Generative Models Denoise

Tianhong Li,Kaiming He(Unknown, MIT)

麻省理工学院提出了 JiT 方法，通过直接预测干净图像数据，利用大块像素级 Transformer 实现无预训练、无分词器且高效的扩散生成模型。

cs.CV发布于 2025-11-17🔥 114

Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers

Jiaji Zhang,Hailiang Zhao,Guoxuan Zhu,Ruichao Sun,Jiaju Wu,Xinkui Zhao,Hanlin Tang,Weiyi Lu,Kan Liu,Tao Lan,Lin Qu,Shuiguang Deng(Zhejiang University, Alibaba Group, Nanyang Technological University)

浙江大学、阿里巴巴集团和南洋理工大学提出了 Shiva-DiT，通过基于残差的可微分 Top-$k$ 选择方法，实现了在满足静态硬件预算的前提下，兼顾可微性和效率的 Diffusion Transformer 剪枝策略。

cs.AI发布于 2026-02-05🔥 94

BabyVision: Visual Reasoning Beyond Language

Liang Chen,Weichu Xie,Yiyan Liang,Hongfeng He,Hans Zhao,Zhibo Yang,Zhiqi Huang,Haoning Wu,Haoyu Lu,Y. charles,Yiping Bao,Yuantao Fan,Guopeng Li,Haiyang Shen,Xuanzhong Chen,Wendong Xu,Shuzheng Si,Zefan Cai,Wenhao Chai,Ziqi Huang(Peking University, UniPat AI, Alibaba Group, Moonshot AI, StepFun, Tsinghua University, University of Wisconsin–Madison, Princeton University, Nanyang Technological University, Xbench)

北京大学、阿里巴巴集团和Xbench介绍了BabyVision，一种独立于语言知识、涵盖388项任务的多模态大模型视觉能力评测基准，用以系统揭示当前顶尖MLLM在基础视觉推理上的不足及其与人类表现的差距。

cs.CL发布于 2026-01-10🔥 83

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models

Shuanghao Bai,Jing Lyu,Wanqi Zhou,Zhe Li,Dakai Wang,Lei Xing,Xiaoguang Zhao,Pengwei Wang,Zhongyuan Wang,Cheng Chi,Badong Chen,Shanghang Zhang(Xi’an Jiaotong University, Beijing Academy of Artificial Intelligence, University of Chinese Academy of Sciences, Peking University)

西安交通大学、北京人工智能研究院和北京大学提出了 Latent Reasoning VLA（LaRA-VLA），该方法通过将多模态链式思维推理内化为连续潜在表示，实现了视觉-语言-动作模型中统一的潜在空间推理与预测，显著降低推理延迟并提升实时动作控制效率。

cs.RO发布于 2026-02-01🔥 76