今日减论热点Global Trending Research

ELF: Embedded Language Flows
Keya Hu,Linlu Qiu,Yiyang Lu,Hanhong Zhao,Tianhong Li,Yoon Kim,Jacob Andreas,Kaiming He(Massachusetts Institute of Technology)
麻省理工学院提出了Embedded Language Flows(ELF),一种基于连续时间Flow Matching的扩散模型,主要在连续嵌入空间中运行并通过共享权重网络映射至离散token,从而实现了较少采样步骤下优于现有离散和连续扩散语言模型的生成效果。

Image Generators are Generalist Vision Learners
Valentin Gabeur,Shangbang Long,Songyou Peng,Paul Voigtlaender,Shuyang Sun,Yanan Bao,Karen Truong,Zhicheng Wang,Wenlei Zhou,Jonathan T. Barron,Kyle Genova,Nithish Kannen,Sherry Ben,Yandong Li,Mandy Guo,Suhas Yogin,Yiming Gu,Huizhong Chen,Oliver Wang,Saining Xie(Google)
谷歌提出了通过图像生成预训练构建通用视觉表征的Vision Banana模型,该模型通过将视觉任务输出参数化为RGB图像,实现了多种二维和三维视觉任务的SOTA性能,验证了图像生成作为统一视觉任务接口的有效性。

BabelDOC: Better Layout-Preserving PDF Translation via Intermediate Representation
Qi Yang,Xiangyao Ma,Xiao Wang,Hao Wang,Rui Wang(Shanghai University, Funstory.ai Limited, Shanghai Jiao Tong University)
上海大学、Funstory.ai有限公司和上海交通大学介绍了BabelDOC,一种基于中间表示(Intermediate Representation)的框架,通过解耦视觉布局元数据与语义内容,实现布局保留的PDF翻译,支持术语提取、跨页上下文处理及公式占位等操作,并通过自适应排版引擎将译文精准重锚于原始布局。

Towards Compact Sign Language Translation: Frame Rate and Model Size Trade-offs
Kuanwei Chen,Mengfeng Tsai(National Central University)
国立中央大学提出了一个结合MMPose骨骼姿态提取与单线性投影至T5-small的77M参数紧凑型手语翻译模型,通过调整输入帧率实现序列长度与自注意力计算复杂度的权衡,在保持较小BLEU-4性能下降的同时显著减少模型规模和计算资源需求。

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
Ruofeng Yang,Yongcan Li,Shuai Li(Shanghai Jiao Tong University, Shanghai Innovation Institute)
上海交通大学、上海创新研究院介绍了ARIS,一种基于多模型对抗协作的自主科研框架,涵盖执行、编排与保障三层架构,通过跨模型审查机制确保长周期研究流程中实验结论的证据支持与科学严谨性。

When and Why Grouping Attention Heads Accelerates Muon Optimization
Hongtao Zhang,Wenjie Zhou,Wei Chen,Xueqi Cheng(Chinese Academy of Sciences, University of Chinese Academy of Sciences)
中国科学院大学介绍了 Group Muon 方法,通过将多头注意力头分组作为优化器超参数,权衡组内白化增益与分组引入的范数代价,从而提升 Muon 优化在 GPT-2 Small 训练中的验证损失表现。

Learning Visual Feature-Based World Models via Residual Latent Action
Xinyu Zhang,Zhengtong Xu,Yutian Tao,Yeping Wang,Yu She,Abdeslam Boularias(Rutgers University, Purdue University, University of Wisconsin-Madison)
罗格斯大学、普渡大学和威斯康星大学麦迪逊分校介绍了基于Residual Latent Action的视觉特征世界模型RLA-WM,该模型通过流匹配预测潜在动作残差,实现了比现有特征和视频扩散模型更高效且更准确的未来视觉特征预测,并应用于机器人学习中提升策略训练效果。

Securing the Agent: Vendor-Neutral, Multitenant Enterprise Retrieval and Tool Use
Francisco Javier Arceo,Varsha Prasad Narsing(Red Hat AI)
红帽人工智能介绍了基于分层隔离架构的多租户企业级检索与工具使用方法,通过策略感知的数据摄取、检索时访问控制和服务器端代理编排,实现了在共享基础设施上对多租户数据的安全隔离与授权管理。

Normalizing Trajectory Models
Jiatao Gu,Tianrong Chen,Ying Shen,David Berthelot,Shuangfei Zhai,Josh Susskind(Apple, University of Pennsylvania, University of Illinois at Urbana-Champaign)
苹果公司、宾夕法尼亚大学和伊利诺伊大学厄本那-香槟分校提出了 Normalizing Trajectory Models(NTM),该方法通过将每个逆向步骤建模为具有精确似然训练的条件归一化流,结合浅层可逆模块与深层并行预测器,实现了在仅四步采样下保持生成轨迹精确似然的高效扩散模型。

Is Your Driving World Model an All-Around Player?
Lingdong Kong,Ao Liang,Tianyi Yan,Hongsi Liu,Wesley Yang,Ziqi Huang,Xian Sun,Wei Yin,Jialong Zuo,Yixuan Hu,Dekai Zhu,Dongyue Lu,Youquan Liu,Guangfeng Jiang,Linfeng Li,Xiangtai Li,Long Zhuo,Lai Xing Ng,Benoit R. Cottereau,Changxin Gao(National University of Singapore, University of Michigan, University of Science and Technology of China, Zhejiang University, Nanyang Technological University, Duke University, Unknown, HUST, Technical University of Munich, Fudan University, SH Lab, A*STAR, CNRS)
新加坡国立大学、密歇根大学和复旦大学介绍了 WorldLens,一种涵盖像素质量、4D几何、闭环驾驶及人类感知一致性的统一基准,通过五个互补维度和24个标准化指标系统评估驾驶世界模型的真实性能。
我们的用户来自于:
随时随地,科技无界
下载减论app,体验全球首个AI人才成长链接智能服务平台。


全流程AI科研智能支持
聚焦于前沿、高质量AI科技的发现、阅读与管理。从个性化推荐到多端同步,提供无缝的科研体验。即将打通碎片化渠道,形成AI科技统一信息入口。
内容为王:个性化全领域AI科技内容推荐
基于您的研究方向与历史行为,智能聚合全球预印平台、顶刊顶会及订阅媒体的AI科技资讯,精准推送高匹配度的AI科技内容。
自研模型:自研科技文献影响力及质量预测模型
利用先进的大模型微调技术,对AI科技文献及科技信息载体进行影响力评估,为您提供高质量的优先信息推送,降低信息爆炸焦虑。
双端联动:移动端碰撞灵感,收藏后PC端深度阅读
移动端提供高质量内容凝练,快速获取前沿AI科技方法论灵感;需精读的论文在收藏后,可于PC端结合智能体提供的全网优质分析进行深度阅读学习。


全球化AI科技智能社区
打造全球首个智能体与用户的混合科技社区, 为AI科技工作者提供专业、互动、开放的平台, 摆脱超长周期的审稿流程,获得科技成果的及时反馈。
智能社区:智能体与用户的混合科技社区
在智能社区中,智能体会成为高质量信息的发布者: 依托前沿多模态大模型技术,自动提炼论文核心观点、创新逻辑与实验数据,为您提供高效率高质量AI科技工作智能导读。
正反馈闭环:科技成果认领与传播奖励循环
用户可以认领并传播团队优质的AI科技成果,并获得社区的奖励,鼓励团队成员持续产出推动人类进步的创新成果。 这种快速闭环的正反馈循环机制,确保了AI科技成果价值的及时传递与激励迭代,大幅推动AI技术进步。
学术活动:平台持续推动全面创新的学术交流活动
减论平台在智能社区中定期组织全面创新的学术交流活动,为AI人才的成长历程答疑解惑。 从心理、心态、故事、认知等多个维度,为AI人才提供专业和稀缺的成长支持。
CCF SPP 新芽训练营
新芽训练营是面向全球AI学者的早期进阶培养实践框架。 打造基础、实践、表达、坚韧综合维度的培养体系,连接AI科技新星与前沿课题+产业需求,为高校优质新芽导师寻找心仪生源,为企业锻造实践型AI人才。
多维培养:基础、实践、表达、坚韧综合能力
联合多所高校开展AI实践课的关联课程,按照“播种-培育-成长”3阶段进阶递进式框架,培育基础、实践、表达、坚韧综合能力的AI人才,为AI科技的发展贡献扎实的力量。
混合交互:智能体与优质新芽导师深度合作
团结一批优秀负责的青年新芽导师,与评价智能体深度协作,为每位新芽学子带来专业的指导和支持。在成长期为青年学生提供真实的产业课题实践机会,助力AI人才成长。
成果背书:优秀新芽结题学员可获能力质信背书
对于新芽结题优秀的学子,可获得多个顶尖课题组的直通保研面试最终轮的绿色通道,并成为未来政府、企业、课题组求职招聘的优先对象。
