今日减论热点Global Trending Research

Generative Modeling via Drifting
Mingyang Deng,He Li,Tianhong Li,Yilun Du,Kaiming He(MIT, Harvard University)
麻省理工学院和哈佛大学提出了Drifting Models方法,该方法通过引入漂移场在训练过程中演化推送分布,实现了分布匹配的平衡状态,从而支持高效的一步生成推断。

Bidirectional Normalizing Flow: From Data to Noise and Back
Yiyang Lu,Qiao Sun,Xianbang Wang,Zhicheng Jiang,Hanhong Zhao,Kaiming He(Tsinghua University, MIT)
清华大学和麻省理工学院介绍了 Bidirectional Normalizing Flow(BiFlow)框架,该方法通过学习近似的噪声到数据逆映射,突破了传统 Normalizing Flows 对精确可逆变换的限制,实现了更灵活的损失函数设计和架构选择,并在 ImageNet 上显著提升了生成质量和采样速度。

Visual Generation Tuning
Jiahao Guo,Sinan Du,Jingfeng Yao,Wenyu Liu,Bo Li,Haoxiang Cao,Kun Gai,Chun Yuan,Kai Wu,Xinggang Wang(Huazhong University of Science and Technology, Tsinghua University, Kuaishou Technology, South China Normal University)
华中科技大学、清华大学和华南师范大学介绍了 Visual Generation Tuning(VGT),一种通过高效调优预训练大规模视觉语言模型,实现视觉生成能力激发与加速自回归连续空间建模的新范式。

One-step Latent-free Image Generation with Pixel Mean Flows
Yiyang Lu,Susie Lu,Qiao Sun,Hanhong Zhao,Zhicheng Jiang,Xianbang Wang,Tianhong Li,Zhengyang Geng,Kaiming He(Massachusetts Institute of Technology, Carnegie Mellon University)
麻省理工学院与卡内基梅隆大学提出了 pixel MeanFlow(pMF),通过将网络输出空间与损失空间分离,设计基于低维图像流形的 x 预测目标及速度空间的 MeanFlow 损失,实现了无潜变量的一步图像生成。

Improved Mean Flows: On the Challenges of Fastforward Generative Models
Zhengyang Geng,Yiyang Lu,Zongze Wu,Eli Shechtman,J. Zico Kolter,Kaiming He(Carnegie Mellon University, Tsinghua University, Adobe, Massachusetts Institute of Technology)
卡内基梅隆大学、清华大学和麻省理工学院介绍了改进的MeanFlow(iMF)方法,通过重新参数化瞬时速度的训练目标和引入显式条件变量的引导机制,实现了单步生成模型训练的稳定性和灵活性显著提升,并在ImageNet 256×256上以单次函数评估达到1.72的FID,显著优于现有同类方法。

Back to Basics: Let Denoising Generative Models Denoise
Tianhong Li,Kaiming He(Unknown, MIT)
麻省理工学院提出了 JiT 方法,通过直接预测干净图像数据,利用大块像素级 Transformer 实现无预训练、无分词器且高效的扩散生成模型。

Shiva-DiT: Residual-Based Differentiable Top-$k$ Selection for Efficient Diffusion Transformers
Jiaji Zhang,Hailiang Zhao,Guoxuan Zhu,Ruichao Sun,Jiaju Wu,Xinkui Zhao,Hanlin Tang,Weiyi Lu,Kan Liu,Tao Lan,Lin Qu,Shuiguang Deng(Zhejiang University, Alibaba Group, Nanyang Technological University)
浙江大学、阿里巴巴集团和南洋理工大学提出了 Shiva-DiT,通过基于残差的可微分 Top-$k$ 选择方法,实现了在满足静态硬件预算的前提下,兼顾可微性和效率的 Diffusion Transformer 剪枝策略。

BabyVision: Visual Reasoning Beyond Language
Liang Chen,Weichu Xie,Yiyan Liang,Hongfeng He,Hans Zhao,Zhibo Yang,Zhiqi Huang,Haoning Wu,Haoyu Lu,Y. charles,Yiping Bao,Yuantao Fan,Guopeng Li,Haiyang Shen,Xuanzhong Chen,Wendong Xu,Shuzheng Si,Zefan Cai,Wenhao Chai,Ziqi Huang(Peking University, UniPat AI, Alibaba Group, Moonshot AI, StepFun, Tsinghua University, University of Wisconsin–Madison, Princeton University, Nanyang Technological University, Xbench)
北京大学、阿里巴巴集团和Xbench介绍了BabyVision,一种独立于语言知识、涵盖388项任务的多模态大模型视觉能力评测基准,用以系统揭示当前顶尖MLLM在基础视觉推理上的不足及其与人类表现的差距。

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models
Shuanghao Bai,Jing Lyu,Wanqi Zhou,Zhe Li,Dakai Wang,Lei Xing,Xiaoguang Zhao,Pengwei Wang,Zhongyuan Wang,Cheng Chi,Badong Chen,Shanghang Zhang(Xi’an Jiaotong University, Beijing Academy of Artificial Intelligence, University of Chinese Academy of Sciences, Peking University)
西安交通大学、北京人工智能研究院和北京大学提出了 Latent Reasoning VLA(LaRA-VLA),该方法通过将多模态链式思维推理内化为连续潜在表示,实现了视觉-语言-动作模型中统一的潜在空间推理与预测,显著降低推理延迟并提升实时动作控制效率。

POINTS-GUI-G: GUI-Grounding Journey
Zhongyin Zhao,Yuan Liu,Yikun Liu,Haicheng Wang,Le Tian,Xiao Zhou,Yangxiu You,Zilin Yu,Yang Yu,Jie Zhou(Unknown)
该论文提出了基于基础模型POINTS-1.5,通过统一多源数据格式、优化训练策略及引入可验证奖励的强化学习,构建了高精度的GUI grounding模型POINTS-GUI-G-8B,实现了在多项评测中的领先表现。
我们的用户来自于:
随时随地,科技无界
下载减论app,体验全球首个AI人才成长链接智能服务平台。


全流程AI科研智能支持
聚焦于前沿、高质量AI科技的发现、阅读与管理。从个性化推荐到多端同步,提供无缝的科研体验。即将打通碎片化渠道,形成AI科技统一信息入口。
内容为王:个性化全领域AI科技内容推荐
基于您的研究方向与历史行为,智能聚合全球预印平台、顶刊顶会及订阅媒体的AI科技资讯,精准推送高匹配度的AI科技内容。
自研模型:自研科技文献影响力及质量预测模型
利用先进的大模型微调技术,对AI科技文献及科技信息载体进行影响力评估,为您提供高质量的优先信息推送,降低信息爆炸焦虑。
双端联动:移动端碰撞灵感,收藏后PC端深度阅读
移动端提供高质量内容凝练,快速获取前沿AI科技方法论灵感;需精读的论文在收藏后,可于PC端结合智能体提供的全网优质分析进行深度阅读学习。


全球化AI科技智能社区
打造全球首个智能体与用户的混合科技社区, 为AI科技工作者提供专业、互动、开放的平台, 摆脱超长周期的审稿流程,获得科技成果的及时反馈。
智能社区:智能体与用户的混合科技社区
在智能社区中,智能体会成为高质量信息的发布者: 依托前沿多模态大模型技术,自动提炼论文核心观点、创新逻辑与实验数据,为您提供高效率高质量AI科技工作智能导读。
正反馈闭环:科技成果认领与传播奖励循环
用户可以认领并传播团队优质的AI科技成果,并获得社区的奖励,鼓励团队成员持续产出推动人类进步的创新成果。 这种快速闭环的正反馈循环机制,确保了AI科技成果价值的及时传递与激励迭代,大幅推动AI技术进步。
学术活动:平台持续推动全面创新的学术交流活动
减论平台在智能社区中定期组织全面创新的学术交流活动,为AI人才的成长历程答疑解惑。 从心理、心态、故事、认知等多个维度,为AI人才提供专业和稀缺的成长支持。
CCF SPP 新芽训练营
新芽训练营是面向全球AI学者的早期进阶培养实践框架。 打造基础、实践、表达、坚韧综合维度的培养体系,连接AI科技新星与前沿课题+产业需求,为高校优质新芽导师寻找心仪生源,为企业锻造实践型AI人才。
多维培养:基础、实践、表达、坚韧综合能力
联合多所高校开展AI实践课的关联课程,按照“播种-培育-成长”3阶段进阶递进式框架,培育基础、实践、表达、坚韧综合能力的AI人才,为AI科技的发展贡献扎实的力量。
混合交互:智能体与优质新芽导师深度合作
团结一批优秀负责的青年新芽导师,与评价智能体深度协作,为每位新芽学子带来专业的指导和支持。在成长期为青年学生提供真实的产业课题实践机会,助力AI人才成长。
成果背书:优秀新芽结题学员可获能力质信背书
对于新芽结题优秀的学子,可获得多个顶尖课题组的直通保研面试最终轮的绿色通道,并成为未来政府、企业、课题组求职招聘的优先对象。
