真正重要的不是今天读完多少篇论文,而是哪些问题因此第一次变得清晰。

2026-03-30 Research StreamShowing 1-20 / 117 papers

通过解耦优势归一化稳定Rubric集成训练

Stabilizing Rubric Integration Training via Decoupled Advantage Normalization

Topic · 大模型后训练Relevance · 85
该论文提出一种解耦优势归一化方法,用于提升Rubric集成训练在大模型后训练阶段的稳定性。通过分离优势估计与归一化过程,有效缓解了训练过程中的梯度波动和策略退化问题,从而提升模型在复杂评估标准下的对齐性能。

CADSmith:基于程序化几何验证的多智能体CAD生成

CADSmith: Multi-Agent CAD Generation with Programmatic Geometric Validation

Topic · AgentRelevance · 95PDF Deep Digest
CADSmith 是一种多智能体文本到CAD生成系统,通过程序化几何验证实现高精度建模。该系统采用分层架构,包含规划器、编码器、执行器、验证器和优化器五个专用智能体,并引入双重闭环修正机制:内环处理代码执行错误,外环基于OpenCASCADE内核的精确几何测量(如包围盒尺寸、体积、实体有效性)与独立视觉语言模型Judge的三视图评估进行几何优化。相比零样本基线,CADSmith将执行成功率提升至100%,中位数F1分数从0.9707提升至0.9846,平均倒角距离从28.37降至0.74,显著提高了生成模型的几何准确性和可靠性。

AIRA_2:突破AI研究代理的瓶颈

AIRA_2: Overcoming Bottlenecks in AI Research Agents

Topic · AgentRelevance · 95PDF Deep Digest
AIRA2 是一种新型 AI 研究代理系统,旨在解决现有研究代理面临的三大结构性瓶颈:单 GPU 同步执行导致的样本吞吐量限制、验证与测试性能之间的泛化差距(过拟合),以及固定单轮 LLM 操作符的能力局限。通过引入异步多 GPU 工作池、隐藏一致性评估协议(HCE)和动态作用域的 ReAct 代理,AIRA2 在 MLE-bench-30 基准上实现了 24 小时 71.8% 和 72 小时 76.0% 的平均百分位排名,显著优于此前最佳系统。消融实验表明,每个组件都对性能提升至关重要,且先前观察到的性能退化主要源于评估噪声而非真正的数据记忆。

GUIDE:通过实时网页视频检索与即插即用标注解决GUI代理中的领域偏差

GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation

Topic · GUI AgentRelevance · 95
该论文提出GUIDE框架,旨在解决GUI代理在跨领域任务中因训练数据偏差导致的性能下降问题。通过实时检索与当前界面相关的网页视频,并自动生成即插即用的标注数据,系统能够在无需人工干预的情况下动态适应新领域。该方法显著提升了GUI代理在未知或变化环境中的泛化能力与任务执行准确性。

面向机场全面管理的半自动知识工程与流程映射

Semi-Automated Knowledge Engineering and Process Mapping for Total Airport Management

Topic · 其他Relevance · 30
该论文提出了一种结合知识工程与流程映射的半自动化方法,用于支持机场的全面运营管理,旨在提升机场运行效率与决策支持能力。

AutoB2G:基于大语言模型的自动化建筑-电网协同仿真代理框架

AutoB2G: A Large Language Model-Driven Agentic Framework For Automated Building-Grid Co-Simulation

Topic · AgentRelevance · 95PDF Deep Digest
本文提出AutoB2G,一种基于大语言模型(LLM)的自动化建筑-电网协同仿真框架,能够通过自然语言描述全自动完成仿真流程。该框架扩展了CityLearn V2以支持建筑到电网(B2G)交互,并引入多维度电网侧评估指标,如电压合规性、线路负载、N-1鲁棒性和短路电流分析。通过构建有向无环图(DAG)结构的代码库并结合SOCIA多智能体框架,系统实现了模块依赖感知的检索与迭代式代码生成。实验表明,在IEEE 33节点配电系统上,AutoB2G能有效协调建筑控制策略,显著改善电网电压稳定性,任务成功率在复杂场景下达83%,代码准确率达88%。

BeSafe-Bench:揭示功能环境中具身智能体的行为安全风险

BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments

Topic · 具身智能Relevance · 95
该论文提出了BeSafe-Bench基准,用于评估具身智能体在真实功能环境中的行为安全性,识别潜在风险并推动安全智能体的发展。

Ruka-v2:用于机器人学习、带腕部与外展功能的肌腱驱动开源灵巧手

Ruka-v2: Tendon Driven Open-Source Dexterous Hand with Wrist and Abduction for Robot Learning

Topic · 具身智能Relevance · 95
Ruka-v2 是一款开源的肌腱驱动灵巧机械手,具备腕部运动和外展能力,专为机器人学习和具身智能研究设计。其模块化结构和开放源码特性支持灵活控制与算法验证,适用于复杂操作任务。

PerceptionComp:面向复杂感知推理的视频基准

PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

Topic · 其他Relevance · 70
该论文提出了一个名为 PerceptionComp 的视频基准测试,专注于复杂感知为中心的推理任务。该基准旨在评估模型在理解视频内容、识别复杂场景和进行多步推理方面的能力,推动感知与认知结合的研究发展。

Vision2Web:基于代理验证的视觉网站开发分层基准

Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification

Topic · GUI AgentRelevance · 95
本文提出 Vision2Web,一个用于评估视觉网站开发能力的分层基准,结合 GUI 代理进行自动化验证,衡量模型从视觉输入生成功能性网页的能力。

让几何在空间推理中发挥作用

Make Geometry Matter for Spatial Reasoning

Topic · 其他Relevance · 60
该论文探讨了如何有效利用几何信息来提升模型在空间推理任务中的表现,强调了几何结构在理解和处理空间关系中的重要性。

恶意软件检测中的机器学习迁移性

Machine Learning Transferability for Malware Detection

Topic · 其他Relevance · 60
该论文探讨了机器学习模型在恶意软件检测任务中的迁移能力,分析不同模型和数据集之间的泛化性能,旨在提升检测系统的适应性和鲁棒性。

基于视频生成的蜂窝信令GPS轨迹重建

Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling

Topic · 其他Relevance · 65
该论文提出利用视频生成技术,从蜂窝信令数据中重建GPS轨迹,探索了跨模态数据转换在定位领域的应用。

可持续性并非线性:量化设备端智能在性能、能耗与隐私间的权衡

Sustainability Is Not Linear: Quantifying Performance, Energy, and Privacy Trade-offs in On-Device Intelligence

Topic · 其他Relevance · 60
该论文探讨了设备端智能系统中性能、能耗与隐私三者之间的复杂权衡关系,指出这些因素并非线性相关,需综合建模与量化分析以实现可持续部署。

评估交互式2D可视化作为生物医学时间序列数据标注的样本选择策略

Evaluating Interactive 2D Visualization as a Sample Selection Strategy for Biomedical Time-Series Data Annotation

Topic · 其他Relevance · 60
该研究探讨了使用交互式2D可视化技术作为生物医学时间序列数据标注中的样本选择策略的有效性,旨在提升标注效率与质量。

生成即压缩:基于随机整流流的零样本视频编码

Generation Is Compression: Zero-Shot Video Coding via Stochastic Rectified Flow

Topic · 其他Relevance · 75
该论文提出一种新颖的零样本视频编码方法,将生成建模与数据压缩相结合,利用随机整流流(Stochastic Rectified Flow)实现高效视频压缩。

超越代码片段:在仓库级问题回答中评估大语言模型

Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering

Topic · 大模型后训练Relevance · 85
该论文提出了一个新的基准测试,用于评估大语言模型在理解整个代码仓库上下文并进行复杂问题回答方面的能力,超越了传统的代码片段级任务。

当困惑度说谎时:面向生成的混合序列模型蒸馏

When Perplexity Lies: Generation-Focused Distillation of Hybrid Sequence Models

Topic · 大模型后训练Relevance · 85
该论文探讨了传统困惑度指标在模型评估中的局限性,并提出一种面向生成任务的混合序列模型蒸馏方法,以提升生成质量与效率。

超越MACs:面向视觉骨干网络的硬件高效架构设计

Beyond MACs: Hardware Efficient Architecture Design for Vision Backbones

Topic · 其他Relevance · 60
本文探讨了在设计视觉骨干网络时,仅依赖MACs(乘加操作数)作为效率指标的局限性,并提出更全面的硬件效率评估方法。

多AMR缓冲区存储、检索与重排问题:精确与启发式方法

The Multi-AMR Buffer Storage, Retrieval, and Reshuffling Problem: Exact and Heuristic Approaches

Topic · 其他Relevance · 10
该论文研究多自主移动机器人(AMR)在仓储环境中的缓冲区管理问题,涵盖存储、检索与重排操作,提出精确算法与启发式方法以优化调度效率。
Page 1/6Next