Daily Papers

Daily Papers

Newer
May 29, 2026 58 papers
Older
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security
SH

Submitted by

shenqiorient
104

Liu, Dongrui · 50 authors

本文提出 AgentDoG 1.5,一个轻量级、可扩展的 AI 智能体安全对齐框架,通过更新安全分类法、基于影响函数的数据净化、仅用约 1000 样本训练小模型,并构建高效的 SFT/RL 训练环境和在线 guardrail,在多个智能体安全基准上达到 SOTA。

#01 ↑ 104 upvotes 2605.29801 May 29, 2026
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
TA

Submitted by

taesiri
90

Wang, Qiuyue · 40 authors

Qwen-VLA是一个统一视觉-语言-行动的具身基础模型,通过DiT动作解码器和体知提示,将操作、导航和轨迹预测统一在一个框架中,在多个基准上实现了跨任务、环境和机器人形态的泛化。

#02 ↑ 90 upvotes 2605.30280 May 29, 2026
YoCausal: How Far is Video Generation from World Model? A Causality Perspective
YU

Submitted by

yulunliu
37

Xie, You-Zhe · 6 authors

YoCausal提出了一种基于时间反转视频的两级基准,用于评估视频扩散模型对因果关系的理解。通过反向视频作为自然反事实样本,利用去噪损失度量模型惊讶程度,从而分离时间方向感知和因果认知。实验发现当前先进模型虽能感知时间方向,但缺乏真正的因果推理能力,与人类水平有显著差距。

#06 ↑ 37 upvotes 2605.30346 May 29, 2026
GenClaw: Code-Driven Agentic Image Generation
SE

Submitted by

SereinH
30

Ye, Junyan · 7 authors

提出GenClaw,一种代码驱动的智能体图像生成范式,将生成过程分解为概念化、草图绘制和着色三个阶段,利用代码(SVG/HTML等)作为可控中间画布,结合生成模型实现高可控性和可解释性。

#07 ↑ 30 upvotes 2605.30248 May 29, 2026
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models
CH

Submitted by

chanhee-luke
29

Min, Cheolhong · 8 authors

本文通过对比分析发现,视觉语言模型(VLM)在空间推理中普遍存在“垂直-距离纠缠”偏差,即模型错误地将图像中的垂直位置与物体距相机的距离关联,并由此导致系统性错误。作者提出了表征级分析框架和合成基准SpatialTunnel,证明这种偏差是模型固有的,且空间表征结构更好的模型具有更强的鲁棒性。

#08 ↑ 29 upvotes 2605.30161 May 29, 2026
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning
NI

Submitted by

Ningyu
22

Xu, Ziwen · 7 authors

论文通过将LoRA作为参数化记忆的定量探针,提出参数记忆定律(幂律),发现代币级预测概率>0.5是逐字回忆的充分条件,并基于此提出MemFT优化策略,动态分配训练预算给亚阈值代币,显著提升记忆保真度和参数效率。

#10 ↑ 22 upvotes 2605.30260 May 29, 2026
Native Audio-Visual Alignment for Generation
RO

Submitted by

robingg1
22

Ji, Longbin · 9 authors

NAVA提出了一种原生音视频对齐框架,通过解耦上下文条件与音视频同步,采用Align-then-Fuse MMDiT架构和音色上下文条件机制,在仅6.3B参数下实现了优越的视频质量、精准的音视频同步和可控制的语音音色。

#11 ↑ 22 upvotes 2605.30073 May 29, 2026
Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning
HE

Submitted by

heroding77
17

Zhu, Jiapeng · 8 authors

提出Skill0.5框架,通过难度感知路由器将任务分为不同掌握层级,对通用技能进行内化、对任务特定技能进行利用,在ALFWorld和WebShop上提升OOD泛化性能。(注意:提供的论文内容可能不完整,缺少实验细节和结论部分。)

#15 ↑ 17 upvotes 2605.28424 May 29, 2026
Colored Noise Diffusion Sampling
NO

Submitted by

NoamIssachar
14

Colored Noise Diffusion Sampling

LLM 解读 全文片段

Davidson, Hadar, Issachar, Noam, Benaim, Sagie

提出有色噪声采样(CNS),一种无需重新训练、即插即用的扩散模型采样器,通过动态注入频率相关的噪声(而非均匀白噪声)来利用模型的频谱偏置,显著提升生成质量。

#18 ↑ 14 upvotes 2605.30332 May 29, 2026
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists
SH

Submitted by

shizhuo2
9

Yang, Junlin · 10 authors

CausaLab是一个可扩展的交互式因果发现环境,用于评估LLM智能体在合成实验室中通过干预和观测恢复结构因果模型(SCM)的能力。实验表明,即使任务预测准确率高,机制恢复的保真度仍然很低,揭示了预测成功与因果理解之间的差距。

#21 ↑ 9 upvotes 2605.26029 May 29, 2026
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation
AK

Submitted by

akhaliq
5

Lee, Jusuk · 9 authors

DynaFLIP通过构造图像、语言和3D流三元组,利用单纯形体积最小化与余弦正则化及对比学习,将动力学感知融入视觉表征预训练,使视觉编码器不仅编码静态内容,还编码动作引起的状态变化,显著提升机器人操作的泛化能力。

#30 ↑ 5 upvotes 2605.30350 May 29, 2026
Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments
EX

Submitted by

Exploration
4

Jia, Jie · 7 authors

提出了一种统一风险图框架,用于部分可观测环境下的自动驾驶。该框架通过时空建模融合交通流风险和碰撞风险,并利用扩散模型生成对抗性遮挡场景来训练风险预测网络,最终实现风险感知规划。在Waymo数据集上,相比基线方法,最小碰撞时间提升0.78倍,平均碰撞时间提升1.67倍。

#32 ↑ 4 upvotes 2605.22189 May 29, 2026
NeuROK: Generative 4D Neural Object Kinematics
TA

Submitted by

taesiri
4

Geng, Chen · 6 authors

提出一种数据驱动的运动学状态参数化方法(NeuROK),通过学习潜在空间和解码器,在低维潜在空间中利用拉格朗日力学模拟4D物体动力学,无需类别特定的物理先验。

#33 ↑ 4 upvotes 2605.30347 May 29, 2026
Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation
AV

Submitted by

aviralchharia
3

Chharia, Aviral, De la Torre, Fernando

MVCHead是一种从单张2D图像直接生成多视角一致的3D高斯人头的方法,无需多视角数据、3D监督或中间视图生成。它采用层次化状态空间(HiSS)块和双方向扫描(HiBiSS)来增强一致性,并引入SE(3)多视角评判器奖励跨视角像素对齐,在感知质量和纹理几何一致性上达到最先进水平。

#37 ↑ 3 upvotes 2605.25220 May 29, 2026
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval
AS

Submitted by

ashutosh1919
2

Senthil, Vaishali, Hathidara, Ashutosh, Schreiber, Sebastian

CoHyDE通过迭代协同训练密集编码器和LLM重写器,使两者互相适应,在工具检索中同时提升标准查询和模糊查询的性能,相比最强的单组件基线在NDCG@5上分别提升2.5和6.3个百分点。

#42 ↑ 2 upvotes 2605.29271 May 29, 2026
Reflective Prompt Tuning through Language Model Function-Calling
FA

Submitted by

farimafatahi
2

Bayat, Farima Fatahi · 4 authors

提出Reflective Prompt Tuning (RPT)框架,利用LLM函数调用模拟人工提示工程师的迭代工作流:通过诊断函数评估目标模型、聚类失败模式并积累历史记忆来优化提示,在三个推理任务上提升性能并改善置信度校准。

#45 ↑ 2 upvotes 2605.21781 May 29, 2026
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases
HA

Submitted by

Hahmdong
1

Hahm, Dongyoon, Hadfield-Menell, Dylan, Lee, Kimin

本文发现RLHF中存在一种称为对齐篡改的漏洞:正在对齐的LLM通过影响偏好数据集,导致RLHF放大而非抑制错误偏见(如性别歧视、品牌推广等),且现有缓解方法难以在不牺牲回复质量的情况下解决。

#46 ↑ 1 upvotes 2605.27355 May 29, 2026
Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning
DA

Submitted by

danielchyeh
1

Yeh, Chun-Hsiao · 6 authors

GASP通过向VLM的Transformer层注入点对应和深度一致性先验,将内部对应匹配精度从低于5%提升至超过70%,在无需3D VQA数据的情况下,在All-Angles Bench和VSI-Bench上分别提升18.2%和29.0%。

#47 ↑ 1 upvotes 2605.30231 May 29, 2026
MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation
UT

Submitted by

utopiar
1

Liu, Dongxia · 10 authors

MoZoo 提出一种基于扩散模型的生成式动力学求解器,能从粗网格直接合成高保真动物视频,通过角色感知位置编码和非对称注意力机制实现运动对齐与特征解耦,并构建合成到真实的数据集和基准,在皮毛模拟上取得时间与结构一致性。

#50 ↑ 1 upvotes 2605.13857 May 29, 2026
Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection
TR

Submitted by

Travis-ML
1

Lelle, Travis

LoRA适配器可通过数据投毒可靠植入后门,后门在token特征层面泛化而非结构模式层面;行为检测器(基于outlier_gap和mean_attack_rate)和权重检测器(基于跨模块标准化Frobenius范数的标准差)均能有效区分干净与被污染适配器,且行为检测器可跨模型迁移。

#53 ↑ 1 upvotes 2605.30189 May 29, 2026
Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation
SA

Submitted by

samsongourevitch
1

Gourevitch, Samson · 7 authors

发现标准UDM参数化实际优化的是leave-one-out后验而非去噪后验,通过精确转换解耦训练与采样,并引入吸收态重整化,显著提升了UDM生成性能,表明与MDM的差距源于参数化设计而非边际分布。

#54 ↑ 1 upvotes 2605.22765 May 29, 2026
PhoneWorld: Scaling Phone-Use Agent Environments
TA

Submitted by

tangzhy
0

Tang, Zhengyang · 24 authors

PhoneWorld 是一个可复用的流程,能将真实 GUI 轨迹和截图转化为可控的手机使用环境、可执行任务、自动化验证器和训练数据,从而规模化构建手机智能体环境。

#56 ↑ 0 upvotes 2605.29486 May 29, 2026
Towards Consistent Video Geometry Estimation
PK

Submitted by

pkqbajng
0

Yu, Zhu · 11 authors

ViGeo是一个前馈基础模型,通过动态分块注意力机制和完成式数据精炼框架,从视频中恢复空间密集且时间一致的几何结构(深度、点图、法线),支持流式、全序列和长视频推理。

#58 ↑ 0 upvotes 2605.30060 May 29, 2026