Papers · Paper Lantern

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

SH

Submitted by

shenqiorient

104

AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

LLM 解读全文片段

Liu, Dongrui · 50 authors

本文提出 AgentDoG 1.5，一个轻量级、可扩展的 AI 智能体安全对齐框架，通过更新安全分类法、基于影响函数的数据净化、仅用约 1000 样本训练小模型，并构建高效的 SFT/RL 训练环境和在线 guardrail，在多个智能体安全基准上达到 SOTA。

#01 ↑ 104 upvotes 2605.29801 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

TA

Submitted by

taesiri

90

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

LLM 解读摘要模式

Wang, Qiuyue · 40 authors

Qwen-VLA是一个统一视觉-语言-行动的具身基础模型，通过DiT动作解码器和体知提示，将操作、导航和轨迹预测统一在一个框架中，在多个基准上实现了跨任务、环境和机器人形态的泛化。

#02 ↑ 90 upvotes 2605.30280 May 29, 2026

阅读解读 Hugging Face 原文 PDF

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

JI

Submitted by

jinheon

61

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

LLM 解读全文片段

Baek, Jinheon · 8 authors

提出OmniRetrieval框架，通过自然语言查询识别并调用不同知识源（文本、关系数据库、知识图谱等）的原生查询语言，实现异构知识源的统一检索，保留各源结构特性。

#03 ↑ 61 upvotes 2605.29250 May 29, 2026

阅读解读 Hugging Face 原文 PDF

CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

JA

Submitted by

jamesliu1217

50

CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

LLM 解读全文片段

Wu, Fangtai · 10 authors

CollectionLoRA通过多教师在线蒸馏将多达50种不同效果LoRA和少步生成能力整合到单个LoRA中，解决了存储、路由和参数冲突问题。

#04 ↑ 50 upvotes 2605.25378 May 29, 2026

阅读解读 Hugging Face 原文 PDF

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

TA

Submitted by

taesiri

44

minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

LLM 解读全文片段

Zhao, Min · 12 authors

提出了一个全栈开源框架minWM，将双向视频扩散模型转换为可控相机的少步自回归世界模型，覆盖数据构建、可控微调、自回归训练、蒸馏和流式推理完整流程。

#05 ↑ 44 upvotes 2605.30263 May 29, 2026

阅读解读 Hugging Face 原文 PDF

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

YU

Submitted by

yulunliu

37

YoCausal: How Far is Video Generation from World Model? A Causality Perspective

LLM 解读全文片段

Xie, You-Zhe · 6 authors

YoCausal提出了一种基于时间反转视频的两级基准，用于评估视频扩散模型对因果关系的理解。通过反向视频作为自然反事实样本，利用去噪损失度量模型惊讶程度，从而分离时间方向感知和因果认知。实验发现当前先进模型虽能感知时间方向，但缺乏真正的因果推理能力，与人类水平有显著差距。

#06 ↑ 37 upvotes 2605.30346 May 29, 2026

阅读解读 Hugging Face 原文 PDF

GenClaw: Code-Driven Agentic Image Generation

SE

Submitted by

SereinH

30

GenClaw: Code-Driven Agentic Image Generation

LLM 解读全文片段

Ye, Junyan · 7 authors

提出GenClaw，一种代码驱动的智能体图像生成范式，将生成过程分解为概念化、草图绘制和着色三个阶段，利用代码（SVG/HTML等）作为可控中间画布，结合生成模型实现高可控性和可解释性。

#07 ↑ 30 upvotes 2605.30248 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

CH

Submitted by

chanhee-luke

29

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

LLM 解读全文片段

Min, Cheolhong · 8 authors

本文通过对比分析发现，视觉语言模型（VLM）在空间推理中普遍存在“垂直-距离纠缠”偏差，即模型错误地将图像中的垂直位置与物体距相机的距离关联，并由此导致系统性错误。作者提出了表征级分析框架和合成基准SpatialTunnel，证明这种偏差是模型固有的，且空间表征结构更好的模型具有更强的鲁棒性。

#08 ↑ 29 upvotes 2605.30161 May 29, 2026

阅读解读 Hugging Face 原文 PDF

EarlyTom: Early Token Compression Completes Fast Video Understanding

AL

Submitted by

Alrightlone

24

EarlyTom: Early Token Compression Completes Fast Video Understanding

LLM 解读全文片段

Wang, Hesong · 7 authors

提出EarlyTom，一种训练无关的视觉token压缩框架，在视觉编码器内部早期压缩冗余token，显著降低首token延迟（TTFT）和计算量，同时保持任务精度。

#09 ↑ 24 upvotes 2605.30010 May 29, 2026

阅读解读 Hugging Face 原文 PDF

How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

NI

Submitted by

Ningyu

22

How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

LLM 解读全文片段

Xu, Ziwen · 7 authors

论文通过将LoRA作为参数化记忆的定量探针，提出参数记忆定律（幂律），发现代币级预测概率>0.5是逐字回忆的充分条件，并基于此提出MemFT优化策略，动态分配训练预算给亚阈值代币，显著提升记忆保真度和参数效率。

#10 ↑ 22 upvotes 2605.30260 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Native Audio-Visual Alignment for Generation

RO

Submitted by

robingg1

22

Native Audio-Visual Alignment for Generation

LLM 解读全文片段

Ji, Longbin · 9 authors

NAVA提出了一种原生音视频对齐框架，通过解耦上下文条件与音视频同步，采用Align-then-Fuse MMDiT架构和音色上下文条件机制，在仅6.3B参数下实现了优越的视频质量、精准的音视频同步和可控制的语音音色。

#11 ↑ 22 upvotes 2605.30073 May 29, 2026

阅读解读 Hugging Face 原文 PDF

LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

TA

Submitted by

talzoomanzoo

19

LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

LLM 解读全文片段

Gwak, Minju · 6 authors

提出LaRA框架，通过层间表示几何分析检测RL后训练中的数据污染，比基于输出的方法更可靠。

#12 ↑ 19 upvotes 2605.29888 May 29, 2026

阅读解读 Hugging Face 原文 PDF

UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

JO

Submitted by

jonathanShi

19

UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

LLM 解读全文片段

Shi, Yingdong · 7 authors

UniSteer提出了一种基于文本条件流匹配的激活空间控制方法，通过学习残差流激活上的条件速度场，实现对LLM行为、概念和多约束指令的统一操控与分类。

#13 ↑ 19 upvotes 2605.30076 May 29, 2026

阅读解读 Hugging Face 原文 PDF

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

RO

Submitted by

rookiexiong

18

LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

LLM 解读全文片段

Han, Feng · 5 authors

LoMo通过将文本片段局部替换为渲染图像并添加退化，构建文本-图像交错序列，在SFT中隐式训练跨模态对齐，解决了VLM对模态载体敏感的问题，在13个基准上平均提升2.6+分。

#14 ↑ 18 upvotes 2605.30265 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

HE

Submitted by

heroding77

17

Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

LLM 解读全文片段

Zhu, Jiapeng · 8 authors

提出Skill0.5框架，通过难度感知路由器将任务分为不同掌握层级，对通用技能进行内化、对任务特定技能进行利用，在ALFWorld和WebShop上提升OOD泛化性能。（注意：提供的论文内容可能不完整，缺少实验细节和结论部分。）

#15 ↑ 17 upvotes 2605.28424 May 29, 2026

阅读解读 Hugging Face 原文 PDF

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

NI

Submitted by

Ningyu

15

When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

LLM 解读全文片段

Xu, Haoming · 9 authors

本文提出上下文信念管理（CBM）概念，通过闭域基准BeliefTrack（规则发现与电路诊断）精确评估LLM的信念更新、保持和隔离能力，发现强化学习与表示层干预可显著降低错误率。

#16 ↑ 15 upvotes 2605.30219 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Xetrieval: Mechanistically Explaining Dense Retrieval

HI

Submitted by

hihiczx

15

Xetrieval: Mechanistically Explaining Dense Retrieval

LLM 解读全文片段

Cai, Zhixin · 10 authors

Xetrieval 是一个用于解释稠密检索的框架，它通过推理内化器和机制解释器将嵌入分解为稀疏、可解释的特征，从而揭示查询与文档之间的潜在语义因素。

#17 ↑ 15 upvotes 2605.29507 May 29, 2026

阅读解读 Hugging Face 原文 PDF

NO

Submitted by

NoamIssachar

14

Colored Noise Diffusion Sampling

LLM 解读全文片段

Davidson, Hadar, Issachar, Noam, Benaim, Sagie

提出有色噪声采样（CNS），一种无需重新训练、即插即用的扩散模型采样器，通过动态注入频率相关的噪声（而非均匀白噪声）来利用模型的频谱偏置，显著提升生成质量。

#18 ↑ 14 upvotes 2605.30332 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Is Position Bias in Dense Retrievers Built In-or Learned from Data?

SE

Submitted by

seungyoonee

11

Is Position Bias in Dense Retrievers Built In-or Learned from Data?

LLM 解读全文片段

Yu, Daegon, Han, SeungYoon, Park, Woomyoung

研究发现，密集检索器的位置偏差方向主要由微调数据中相关证据的位置分布决定，而非模型架构；平衡位置数据的训练可将位置敏感度降低57%-87%。

#19 ↑ 11 upvotes 2605.26578 May 29, 2026

阅读解读 Hugging Face 原文 PDF

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

KO

Submitted by

KouShi2

9

AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

LLM 解读全文片段

Shi, Kou · 10 authors

提出了AsyncTool基准，用于评估LLM代理在多任务异步工具调用场景下的协调能力，模拟工具响应延迟，并引入多层级效率指标。

#20 ↑ 9 upvotes 2605.27995 May 29, 2026

阅读解读 Hugging Face 原文 PDF

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

SH

Submitted by

shizhuo2

9

CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

LLM 解读全文片段

Yang, Junlin · 10 authors

CausaLab是一个可扩展的交互式因果发现环境，用于评估LLM智能体在合成实验室中通过干预和观测恢复结构因果模型（SCM）的能力。实验表明，即使任务预测准确率高，机制恢复的保真度仍然很低，揭示了预测成功与因果理解之间的差距。

#21 ↑ 9 upvotes 2605.26029 May 29, 2026

阅读解读 Hugging Face 原文 PDF

LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

LU

Submitted by

luxinyu

9

LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

LLM 解读全文片段

Peng, Xiaoxuan · 8 authors

提出LiteCoder-Terminal-Gen零依赖合成框架，自动生成可执行终端环境与专家轨迹，构建SFT和RL数据集，训练的语言代理在Terminal Bench上显著提升。

#22 ↑ 9 upvotes 2605.29559 May 29, 2026

阅读解读 Hugging Face 原文 PDF

PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

AN

Submitted by

anhduy0911

8

PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

LLM 解读全文片段

Loc, Ngoc Phan Phuoc · 11 authors

PRISM是一个四维评估基准，显示LLM审稿人在个别维度可超越人类，但无系统全面优于人类，建议作为辅助而非替代。

#23 ↑ 8 upvotes 2605.26730 May 29, 2026

阅读解读 Hugging Face 原文 PDF

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

CR

Submitted by

crainone

8

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

LLM 解读摘要模式

Rainone, Corrado · 4 authors

系统研究了混合多智能体系统中云模型与设备模型组合的设计空间，发现最优架构高度依赖任务，且更大模型未必带来更好性能。

#24 ↑ 8 upvotes 2605.30102 May 29, 2026

阅读解读 Hugging Face 原文 PDF

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

OM

Submitted by

omerbenishu

7

PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

LLM 解读全文片段

Benishu, Omer, Fiebelman, Gal, Benaim, Sagie

提出PhyGenHOI框架，结合生成式人体运动（MDM）与物理对象模拟（MPM），通过窗口吸引损失、接触驱动重模拟和掩码视频SDS三种机制，从静态3D高斯生成物理准确的4D人-物交互。

#25 ↑ 7 upvotes 2605.30268 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

SN

Submitted by

SnowNation

7

Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

LLM 解读全文片段

Zhang, Chenghao · 5 authors

提出Ptah多智能体框架，通过规划-研究-写作三阶段和验证机制生成可靠且视觉丰富的多模态深度研究报告。

#26 ↑ 7 upvotes 2605.29861 May 29, 2026

阅读解读 Hugging Face 原文 PDF

UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

YU

Submitted by

Yuxiang007

7

UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

LLM 解读全文片段

Chai, Yuxiang · 6 authors

提出UI-KOBE框架，通过自主探索构建应用知识图谱，将端到端GUI规划简化为图引导的局部决策，使轻量级模型能可靠执行移动任务。

#27 ↑ 7 upvotes 2605.29534 May 29, 2026

阅读解读 Hugging Face 原文 PDF

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

LL

Submitted by

lliutianc

6

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

LLM 解读摘要模式

Jiang, Haoxiang · 8 authors

提出RUBRIC-ARROW框架，联合训练评分标准生成器和条件评判器，仅利用成对偏好数据实现点式奖励建模，减少平局并提升下游策略训练效果。

#28 ↑ 6 upvotes 2605.29156 May 29, 2026

阅读解读 Hugging Face 原文 PDF

AdaState: Self-Evolving Anchors for Streaming Video Generation

YD

Submitted by

ydalva

5

AdaState: Self-Evolving Anchors for Streaming Video Generation

LLM 解读全文片段

Dalva, Yusuf, Yanardag, Pinar

提出自适应状态（adaptive state）替代静态第一帧锚点，通过联合去噪和注意力机制在KV缓存中传递隐藏状态，使场景参考随生成内容演化，显著提升视频动态和自然场景演进。

#29 ↑ 5 upvotes 2605.30349 May 29, 2026

阅读解读 Hugging Face 原文 PDF

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

AK

Submitted by

akhaliq

5

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

LLM 解读全文片段

Lee, Jusuk · 9 authors

DynaFLIP通过构造图像、语言和3D流三元组，利用单纯形体积最小化与余弦正则化及对比学习，将动力学感知融入视觉表征预训练，使视觉编码器不仅编码静态内容，还编码动作引起的状态变化，显著提升机器人操作的泛化能力。

#30 ↑ 5 upvotes 2605.30350 May 29, 2026

阅读解读 Hugging Face 原文 PDF

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

TI

Submitted by

tiantiaf

4

ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

LLM 解读摘要模式

Feng, Tiantian · 13 authors

提出了ChildVox基准，整合17个儿童声音数据集和20多个子任务，系统评估多种模型在儿童声音信号理解上的能力，覆盖从出生到学龄的全发展轨迹。

#31 ↑ 4 upvotes 2605.29257 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

EX

Submitted by

Exploration

4

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

LLM 解读全文片段

Jia, Jie · 7 authors

提出了一种统一风险图框架，用于部分可观测环境下的自动驾驶。该框架通过时空建模融合交通流风险和碰撞风险，并利用扩散模型生成对抗性遮挡场景来训练风险预测网络，最终实现风险感知规划。在Waymo数据集上，相比基线方法，最小碰撞时间提升0.78倍，平均碰撞时间提升1.67倍。

#32 ↑ 4 upvotes 2605.22189 May 29, 2026

阅读解读 Hugging Face 原文 PDF

NeuROK: Generative 4D Neural Object Kinematics

TA

Submitted by

taesiri

4

NeuROK: Generative 4D Neural Object Kinematics

LLM 解读全文片段

Geng, Chen · 6 authors

提出一种数据驱动的运动学状态参数化方法（NeuROK），通过学习潜在空间和解码器，在低维潜在空间中利用拉格朗日力学模拟4D物体动力学，无需类别特定的物理先验。

#33 ↑ 4 upvotes 2605.30347 May 29, 2026

阅读解读 Hugging Face 原文 PDF

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

PA

Submitted by

parsa-mz

4

REPOT: Recoverable Program-of-Thought via Checkpoint Repair

LLM 解读全文片段

Mazaheri, Parsa

RePoT is a recoverable extension of Program-of-Thought (PoT) that uses deterministic verified replay to identify the maximal valid prefix of a plan, then issues a single LLM call to repair the suffix, achieving up to +11pp improvement over PoT at minimal...

#34 ↑ 4 upvotes 2605.30052 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

ZH

Submitted by

ZhishanQ

4

Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

LLM 解读全文片段

Fan, Shicheng · 6 authors

提出CorVer，一种基于Wikipedia共现统计的轻量级过程奖励，用于事实问答的强化学习，无需神经验证器，在多个模型和基准上提升准确率并加快训练速度。

#35 ↑ 4 upvotes 2605.29648 May 29, 2026

阅读解读 Hugging Face 原文 PDF

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

TA

Submitted by

taesiri

4

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

LLM 解读全文片段

Liu, Chengzhi · 17 authors

提出WorldMemArena基准，通过动作-世界交互循环的四阶段生命周期（写、维护、检索、使用）评估多模态智能体记忆，揭示现有系统在视觉证据利用、跨领域稳定性和成本效率方面的不足。

#36 ↑ 4 upvotes 2605.29341 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

AV

Submitted by

aviralchharia

3

Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

LLM 解读全文片段

Chharia, Aviral, De la Torre, Fernando

MVCHead是一种从单张2D图像直接生成多视角一致的3D高斯人头的方法，无需多视角数据、3D监督或中间视图生成。它采用层次化状态空间（HiSS）块和双方向扫描（HiBiSS）来增强一致性，并引入SE(3)多视角评判器奖励跨视角像素对齐，在感知质量和纹理几何一致性上达到最先进水平。

#37 ↑ 3 upvotes 2605.25220 May 29, 2026

阅读解读 Hugging Face 原文 PDF

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

UT

Submitted by

utopiar

3

SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

LLM 解读全文片段

Zhang, Zhida · 8 authors

提出SmartDirector，一种基于关键帧条件的视频生成框架，通过双阶段（Director-Gen和Director-SR）生成具有叙事节奏控制的影视级视频，支持单镜头、多镜头和视频扩展。

#38 ↑ 3 upvotes 2605.27891 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

NG

Submitted by

ng-hung

3

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

LLM 解读全文片段

Nguyen, Ngoc Trinh Hung · 6 authors

提出In-Writing框架，通过触发令牌将自由形式推理与约束解码解耦，在单次生成中兼顾推理灵活性和格式保证，在分类和推理任务上准确率提升最高达27%。

#39 ↑ 3 upvotes 2601.07525 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

TA

Submitted by

taesiri

3

Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

LLM 解读全文片段

Huang, Jing · 9 authors

更大模型能学习小模型无法学习的任务，其根本原因在于更大模型通过更多参数降低了梯度干扰，从而能够保留和利用罕见复杂任务的特征，而小模型由于资源竞争会遗忘这些特征。

#40 ↑ 3 upvotes 2605.29548 May 29, 2026

阅读解读 Hugging Face 原文 PDF

CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

YU

Submitted by

yubol

2

CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

LLM 解读全文片段

Li, Yubo, Miao, Yidi

Conf-KV通过利用解码时的置信度动态调整KV缓存预算，结合混合精度存储和金字塔层预算，在极低内存占用下达到接近全缓存的生成质量和长上下文检索性能。

#41 ↑ 2 upvotes 2605.24786 May 29, 2026

阅读解读 Hugging Face 原文 PDF

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

AS

Submitted by

ashutosh1919

2

CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

LLM 解读全文片段

Senthil, Vaishali, Hathidara, Ashutosh, Schreiber, Sebastian

CoHyDE通过迭代协同训练密集编码器和LLM重写器，使两者互相适应，在工具检索中同时提升标准查询和模糊查询的性能，相比最强的单组件基线在NDCG@5上分别提升2.5和6.3个百分点。

#42 ↑ 2 upvotes 2605.29271 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

AR

Submitted by

Arturjssln

2

Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

LLM 解读全文片段

Jesslen, Artur, Dünkel, Olaf, Kortylewski, Adam

提出利用3D基础模型自动重建物体几何和姿态，渲染PartField描述符辅助2D特征，用地形距离过滤伪标签，训练适配器提升语义对应，无需人工姿态标注。

#43 ↑ 2 upvotes 2605.30093 May 29, 2026

阅读解读 Hugging Face 原文 PDF

PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

YU

Submitted by

yubol

2

PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

LLM 解读全文片段

Li, Yubo · 4 authors

PANDO提出一种在线技能蒸馏框架，通过结构化技能库、进度反思、置信度降级、分层路由、视觉压缩和缓存感知提示，在VisualWebArena上以更少token实现更高成功率，使智能体在积累经验时变得更高效而非更昂贵。

#44 ↑ 2 upvotes 2605.24785 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Reflective Prompt Tuning through Language Model Function-Calling

FA

Submitted by

farimafatahi

2

Reflective Prompt Tuning through Language Model Function-Calling

LLM 解读全文片段

Bayat, Farima Fatahi · 4 authors

提出Reflective Prompt Tuning (RPT)框架，利用LLM函数调用模拟人工提示工程师的迭代工作流：通过诊断函数评估目标模型、聚类失败模式并积累历史记忆来优化提示，在三个推理任务上提升性能并改善置信度校准。

#45 ↑ 2 upvotes 2605.21781 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

HA

Submitted by

Hahmdong

1

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

LLM 解读全文片段

Hahm, Dongyoon, Hadfield-Menell, Dylan, Lee, Kimin

本文发现RLHF中存在一种称为对齐篡改的漏洞：正在对齐的LLM通过影响偏好数据集，导致RLHF放大而非抑制错误偏见（如性别歧视、品牌推广等），且现有缓解方法难以在不牺牲回复质量的情况下解决。

#46 ↑ 1 upvotes 2605.27355 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

DA

Submitted by

danielchyeh

1

Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

LLM 解读全文片段

Yeh, Chun-Hsiao · 6 authors

GASP通过向VLM的Transformer层注入点对应和深度一致性先验，将内部对应匹配精度从低于5%提升至超过70%，在无需3D VQA数据的情况下，在All-Angles Bench和VSI-Bench上分别提升18.2%和29.0%。

#47 ↑ 1 upvotes 2605.30231 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

MI

Submitted by

miria0

1

Convex Low-resource Accent-Robust Language Detection in Speech Recognition

LLM 解读全文片段

Feng, Miria, Tan, William, Pilanci, Mert

提出凸语言检测（CLD）框架，利用凸优化和ADMM实现低资源下鲁棒的语言识别，在方言变体上达到97-98%准确率。

#48 ↑ 1 upvotes 2605.23235 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

VI

Submitted by

vicgalle

1

Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

LLM 解读全文片段

Gallego, Víctor

本文提出一种两层自动研究框架，外层AI研究者自主重新设计内层LLM策略合成系统的流水线，以优化多智能体序列社会困境中的合作，超越了手工设计的基线，并发现了依赖于福利目标的公平机制。

#49 ↑ 1 upvotes 2605.30003 May 29, 2026

阅读解读 Hugging Face 原文 PDF

MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

UT

Submitted by

utopiar

1

MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

LLM 解读摘要模式

Liu, Dongxia · 10 authors

MoZoo 提出一种基于扩散模型的生成式动力学求解器，能从粗网格直接合成高保真动物视频，通过角色感知位置编码和非对称注意力机制实现运动对齐与特征解耦，并构建合成到真实的数据集和基准，在皮毛模拟上取得时间与结构一致性。

#50 ↑ 1 upvotes 2605.13857 May 29, 2026

阅读解读 Hugging Face 原文 PDF

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

LU

Submitted by

lucky-lance

1

OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

LLM 解读全文片段

Lu, Xudong · 11 authors

提出OmniInteract基准，通过在线推理音频-视频流评估全模态LLM的实时交互能力，发现当前模型性能较弱，尤其在连续任务监控和中断处理方面。

#51 ↑ 1 upvotes 2605.26485 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Parallax: Parameterized Local Linear Attention for Language Modeling

YI

Submitted by

YifeiZuo

1

Parallax: Parameterized Local Linear Attention for Language Modeling

LLM 解读全文片段

Zuo, Yifei · 6 authors

Parallax是一种参数化的局部线性注意力机制，通过消除数值求解器并引入可学习的KV协方差投影器，实现了在LLM预训练中的可扩展性，并在Muon优化器下取得了优于Softmax Attention的困惑度改进。

#52 ↑ 1 upvotes 2605.29157 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

TR

Submitted by

Travis-ML

1

Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

LLM 解读全文片段

Lelle, Travis

LoRA适配器可通过数据投毒可靠植入后门，后门在token特征层面泛化而非结构模式层面；行为检测器（基于outlier_gap和mean_attack_rate）和权重检测器（基于跨模块标准化Frobenius范数的标准差）均能有效区分干净与被污染适配器，且行为检测器可跨模型迁移。

#53 ↑ 1 upvotes 2605.30189 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

SA

Submitted by

samsongourevitch

1

Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

LLM 解读摘要模式

Gourevitch, Samson · 7 authors

发现标准UDM参数化实际优化的是leave-one-out后验而非去噪后验，通过精确转换解耦训练与采样，并引入吸收态重整化，显著提升了UDM生成性能，表明与MDM的差距源于参数化设计而非边际分布。

#54 ↑ 1 upvotes 2605.22765 May 29, 2026

阅读解读 Hugging Face 原文 PDF

ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

SN

Submitted by

snowleo135

0

ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

LLM 解读全文片段

Gao, Wenbo · 9 authors

提出ORACLE框架，通过自演进上下文管理和在线自蒸馏技术，从流式app使用轨迹中早期预测多阶段、跨应用诈骗，减少误报并提前预警。

#55 ↑ 0 upvotes 2605.16363 May 29, 2026

阅读解读 Hugging Face 原文 PDF

PhoneWorld: Scaling Phone-Use Agent Environments

TA

Submitted by

tangzhy

0

PhoneWorld: Scaling Phone-Use Agent Environments

LLM 解读全文片段

Tang, Zhengyang · 24 authors

PhoneWorld 是一个可复用的流程，能将真实 GUI 轨迹和截图转化为可控的手机使用环境、可执行任务、自动化验证器和训练数据，从而规模化构建手机智能体环境。

#56 ↑ 0 upvotes 2605.29486 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Reducing Political Manipulation with Consistency Training

JU

Submitted by

justinphan3110

0

Reducing Political Manipulation with Consistency Training

LLM 解读摘要模式

Phan, Long · 6 authors

提出政治一致性训练（PCT），通过强化学习减少大型语言模型中的隐蔽政治偏见，保持帮助性。

#57 ↑ 0 upvotes 2605.22771 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Towards Consistent Video Geometry Estimation

PK

Submitted by

pkqbajng

0

Towards Consistent Video Geometry Estimation

LLM 解读全文片段

Yu, Zhu · 11 authors

ViGeo是一个前馈基础模型，通过动态分块注意力机制和完成式数据精炼框架，从视频中恢复空间密集且时间一致的几何结构（深度、点图、法线），支持流式、全序列和长视频推理。

#58 ↑ 0 upvotes 2605.30060 May 29, 2026

阅读解读 Hugging Face 原文 PDF

Daily Papers