Submitted by
737443hFIPO是一种强化学习算法,旨在克服大语言模型中的推理瓶颈,通过引入未来KL散度来创建密集优势分配,以替代GRPO中的粗粒度信用分配,从而显著提升推理长度和任务准确性。
Daily Papers
Submitted by
737443hFIPO是一种强化学习算法,旨在克服大语言模型中的推理瓶颈,通过引入未来KL散度来创建密集优势分配,以替代GRPO中的粗粒度信用分配,从而显著提升推理长度和任务准确性。
Submitted by
XiaotongLi97本文提出LongCat-Next,一种原生多模态模型,通过离散原生自回归(DiNA)框架将文本、视觉和音频统一在共享离散令牌空间中,利用dNaViT进行任意分辨率的视觉标记化,实现了单一自回归目标下的多模态处理和工业级性能。
Submitted by
tianlezengCARLA-Air是一个开源仿真基础设施,通过在单个Unreal Engine进程中统一CARLA的高保真城市驾驶和AirSim的物理精确多旋翼飞行,为空陆实体智能研究提供物理一致的模拟环境。
Submitted by
bibonaLingshu-Cell是一个基于掩码离散扩散模型的生成性细胞世界模型,用于转录组建模,能模拟细胞状态分布并预测扰动响应,在虚拟细胞和生物发现中具有潜力。
Submitted by
yhx12GEMS 是一个代理原生多模态生成框架,通过代理循环、内存和技能来提升复杂指令和下游任务的性能,使轻量模型超越先进模型。
Submitted by
ZhaochongAnVGGRPO是一种通过潜在空间几何引导的后训练框架,旨在提高视频扩散模型的几何一致性,无需重复RGB解码,支持动态场景,提升相机稳定性和3D一致性。
Submitted by
csfufuUnify-Agent是一种统一多模态代理,通过将图像生成重构为包括提示理解、证据搜索、重新描述和合成的代理流程,解决现有模型在长尾和知识密集型概念上的生成局限。
Submitted by
Midoria7daVinci-LLM 结合工业级计算资源和完全开放的研究范式,通过 Data Darwinism 框架和两阶段自适应课程训练,系统性探索预训练科学,发现数据处理深度是关键因素,并分享了 200 多个控制实验的结果。
Submitted by
vinthonyCutClaw是一个自主的多代理框架,利用多模态语言模型(MLLMs)将小时长的原始视频素材编辑成音乐同步的短视频,通过分层分解、叙事规划和精细优化,提升编辑质量和效率。
Submitted by
rookiehabcMonitorBench 是一个用于评估大语言模型中思维链可监测性的全面开源基准,包含1514个测试实例和压力测试设置,揭示了可监测性与模型能力、任务类型的关联。
Submitted by
SW-YoonExtend3D是一种无训练的3D场景生成管道,通过扩展对象中心模型的潜在空间和使用重叠补丁,从单张图像生成城镇规模的3D场景,结合点云先验、SDEdit细化和优化技术提高质量。注意:提供的论文内容可能不完整。
Submitted by
QiYao-WangFlowPIE是一个科学想法生成框架,通过流引导蒙特卡洛树搜索进行动态文献检索,并结合生成奖励模型驱动的进化算法进行测试时想法进化,以产生新颖、可行和多样化的研究想法。
Submitted by
taesiriThink-Anywhere 是一种新型推理机制,使大型语言模型在代码生成过程中能在任意令牌位置按需触发思考,通过冷启动训练和基于结果的强化学习奖励实现,在多个基准测试上达到最先进性能并增强可解释性。
Submitted by
shyyhsOptiMer 通过训练每个数据集的CPT模型提取分布向量,并使用贝叶斯优化后处理搜索最优合并权重,解耦数据混合比选择与训练,在持续预训练中优于数据混合方法,显著降低成本。
Submitted by
taesiriVectorGym是一个综合性的多任务基准测试套件,针对可缩放矢量图形(SVG),包括草图到SVG生成(VG-Sketch)、SVG编辑(VG-Edit)、文本到SVG生成(VG-Text)和SVG描述生成(VG-Cap)四项任务,采用人类专家标注的复杂数据,并提出基于多任务强化学习的方法和VLM作为评判指标,以推动视觉代码生成的研究。
Submitted by
cszhilu1998ArtHOI是一个优化框架,通过整合和优化多个基础模型的先验,从单目RGB视频重建4D手-关节物交互,解决现有方法局限于刚性物体或需要多视图的挑战。
Submitted by
taesiriLearn2Fold是一个神经符号框架,通过解耦语义提案与物理验证,使用大语言模型生成候选折叠程序,结合图结构世界模型进行前瞻规划,从文本生成物理有效的折纸序列。
Submitted by
lty2226262AutoWeather4D是一个前馈3D感知的天气编辑框架,通过G-buffer双通道编辑机制显式解耦几何和光照,实现自动驾驶视频的天气转换,无需逐场景优化,提供高效、可控的数据生成。
Submitted by
kehanlu该研究系统性评估了大型语言模型(LLMs)在纯文本预训练中编码的听觉知识,通过直接探测、级联评估和音频接地评估三种设置,发现听觉知识在模型家族间差异显著,且纯文本评估与音频性能强相关,为LLMs在音频研究中的选择提供经验依据。
Submitted by
BharathK333MMFace-DiT是一种双流扩散变换器,用于高保真多模态人脸生成,通过深度融合文本和空间先验改善空间-语义一致性。
Submitted by
prosperoloPoseDreamer 是一个利用扩散模型生成大规模合成人类数据集的管道,通过可控图像生成和3D标注对齐,解决了现有数据集在规模、逼真度和多样性方面的不足,生成了超过500,000个高质量样本,并在模型训练中表现出色。
Submitted by
kaizhaoSeGPruner是一个用于3D问答的视觉令牌修剪框架,通过结合语义重要性和几何多样性减少多视角图像中的冗余令牌,在提高推理效率的同时保持性能。
Submitted by
shashi-kumar论文研究了基于LLM的自动语音识别中,如何利用对话上下文提升性能,特别是识别上下文实体。提出抽象压缩方法,将前几轮音频压缩为固定潜在令牌以降低成本,在领域内外测试中部分恢复性能增益。
Submitted by
ryhara本文提出了Ghost-FWL,一个大规模移动全波形LiDAR数据集,用于鬼影检测和去除,并开发了基于FWL的基线模型和FWL-MAE自监督学习方法,显著提高了下游任务性能。
Submitted by
gabrielloiseau该研究通过知识蒸馏技术,将大型语言模型Mistral Large 3的隐私敏感性评估能力转移到参数仅150M的轻量级编码器模型,实现了与人类判断一致的高效、本地化隐私评估。