Daily Papers

Daily Papers

Newer
Apr 1, 2026 25 papers
Older
LongCat-Next: Lexicalizing Modalities as Discrete Tokens
XI

Submitted by

XiaotongLi97
105

Meituan LongCat Team · 89 authors

本文提出LongCat-Next,一种原生多模态模型,通过离散原生自回归(DiNA)框架将文本、视觉和音频统一在共享离散令牌空间中,利用dNaViT进行任意分辨率的视觉标记化,实现了单一自回归目标下的多模态处理和工业级性能。

#02 ↑ 105 upvotes 2603.27538 Apr 1, 2026
daVinci-LLM:Towards the Science of Pretraining
MI

Submitted by

Midoria7
22

Qin, Yiwei · 15 authors

daVinci-LLM 结合工业级计算资源和完全开放的研究范式,通过 Data Darwinism 框架和两阶段自适应课程训练,系统性探索预训练科学,发现数据处理深度是关键因素,并分享了 200 多个控制实验的结果。

#08 ↑ 22 upvotes 2603.27164 Apr 1, 2026
Extend3D: Town-Scale 3D Generation
SW

Submitted by

SW-Yoon
10

Extend3D: Town-Scale 3D Generation

LLM 解读 全文片段

Yoon, Seungwoo, Kim, Jinmo, Park, Jaesik

Extend3D是一种无训练的3D场景生成管道,通过扩展对象中心模型的潜在空间和使用重叠补丁,从单张图像生成城镇规模的3D场景,结合点云先验、SDEdit细化和优化技术提高质量。注意:提供的论文内容可能不完整。

#11 ↑ 10 upvotes 2603.29387 Apr 1, 2026
Think Anywhere in Code Generation
TA

Submitted by

taesiri
6

Think Anywhere in Code Generation

LLM 解读 全文片段

Jiang, Xue · 11 authors

Think-Anywhere 是一种新型推理机制,使大型语言模型在代码生成过程中能在任意令牌位置按需触发思考,通过冷启动训练和基于结果的强化学习奖励实现,在多个基准测试上达到最先进性能并增强可解释性。

#13 ↑ 6 upvotes 2603.29957 Apr 1, 2026
VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing
TA

Submitted by

taesiri
4

Rodriguez, Juan · 16 authors

VectorGym是一个综合性的多任务基准测试套件,针对可缩放矢量图形(SVG),包括草图到SVG生成(VG-Sketch)、SVG编辑(VG-Edit)、文本到SVG生成(VG-Text)和SVG描述生成(VG-Cap)四项任务,采用人类专家标注的复杂数据,并提出基于多任务强化学习的方法和VLM作为评判指标,以推动视觉代码生成的研究。

#15 ↑ 4 upvotes 2603.29852 Apr 1, 2026
How Auditory Knowledge in LLM Backbones Shapes Audio Language Models: A Holistic Evaluation
KE

Submitted by

kehanlu
2

Lu, Ke-Han · 16 authors

该研究系统性评估了大型语言模型(LLMs)在纯文本预训练中编码的听觉知识,通过直接探测、级联评估和音频接地评估三种设置,发现听觉知识在模型家族间差异显著,且纯文本评估与音频性能强相关,为LLMs在音频研究中的选择提供经验依据。

#19 ↑ 2 upvotes 2603.19195 Apr 1, 2026
PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models
PR

Submitted by

prosperolo
2

Prospero, Lorenza · 5 authors

PoseDreamer 是一个利用扩散模型生成大规模合成人类数据集的管道,通过可控图像生成和3D标注对齐,解决了现有数据集在规模、逼真度和多样性方面的不足,生成了超过500,000个高质量样本,并在模型训练中表现出色。

#21 ↑ 2 upvotes 2603.28763 Apr 1, 2026
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
SH

Submitted by

shashi-kumar
1

Kumar, Shashi · 10 authors

论文研究了基于LLM的自动语音识别中,如何利用对话上下文提升性能,特别是识别上下文实体。提出抽象压缩方法,将前几轮音频压缩为固定潜在令牌以降低成本,在领域内外测试中部分恢复性能增益。

#23 ↑ 1 upvotes 2603.26246 Apr 1, 2026