Doctorina MedBench:基于代理的医疗AI端到端评估
Doctorina MedBench: End-to-End Evaluation of Agent-Based Medical AI
Topic · AgentRelevance · 95PDF Deep Digest
该论文提出了Doctorina MedBench,一个用于评估基于代理的医疗AI系统的端到端评测框架。该框架通过模拟真实的医患对话,评估AI在收集病史、分析检查报告、制定鉴别诊断和提供个性化治疗建议等方面的能力。核心评估指标D.O.T.S.包含诊断准确性、检查建议合理性、治疗方案安全性及对话步数效率四个维度。系统支持多层级测试架构,包括实时陷阱测试、分类随机抽样和全量回归测试,以监测模型退化并保障临床安全。实验表明,相比通用GPT-5模型,Doctorina在诊断准确率(89.3% vs 84.6%)、鉴别诊断(45.4% vs 24.0%)和治疗建议(53.0% vs 38.0%)方面显著更优,且能进行更深入但稳定的临床对话。
MAGNET:通过去中心化自主研究与BitNet训练实现自主专家模型生成
MAGNET: Autonomous Expert Model Generation via Decentralized Autoresearch and BitNet Training
Topic · 大模型底座Relevance · 95
该论文提出MAGNET框架,通过去中心化自主研究机制与BitNet训练技术,实现专家模型的自动生成。系统利用分布式智能体协同探索、验证和优化模型架构与参数,结合高效低比特训练方法,显著提升模型生成效率与性能。
超越可识别性:在少量环境和有限样本下学习因果表示
Beyond identifiability: Learning causal representations with few environments and finite samples
Topic · 其他Relevance · 65
该论文探讨了在仅有少数环境和有限数据样本的情况下,如何学习因果表示的问题。传统因果推断依赖于可识别性假设,但在现实场景中这些条件往往难以满足。作者提出了一种新的学习框架,能够在较弱假设下提取稳定的因果结构,提升模型在分布外泛化和干预预测中的表现。
纯数据驱动与物理引导的深度学习模型在任意位置时空地下水位预测中的应用
Pure and Physics-Guided Deep Learning Solutions for Spatio-Temporal Groundwater Level Prediction at Arbitrary Locations
Topic · 机器学习框架Relevance · 85
该论文提出结合纯数据驱动与物理约束的深度学习方法,用于在任意空间位置进行高精度的时空地下水位预测,融合了物理规律与数据建模优势。
人工智能助力聚变能源发展的挑战与机遇
Challenges and opportunities for AI to help deliver fusion energy
Topic · 其他Relevance · 65
本文探讨了人工智能在推动聚变能源实现过程中的潜在作用,分析了当前面临的技术挑战与未来机遇,涵盖模拟优化、实验控制与数据分析等方面。
强化学习在传染病防控中的作用
Empowering Epidemic Response: The Role of Reinforcement Learning in Infectious Disease Control
Topic · 强化学习Relevance · 95
本文探讨了强化学习在传染病防控中的应用,展示了其在优化干预策略、资源分配和疫情响应中的潜力。
ReCUBE:评估代码生成中仓库级上下文利用能力
ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation
Topic · 大模型后训练Relevance · 85
该论文提出 ReCUBE 基准,用于评估大语言模型在代码生成任务中对整个代码仓库上下文的理解与利用能力。
IncreRTL:需求演进下的可追溯性引导增量RTL生成
IncreRTL: Traceability-Guided Incremental RTL Generation under Requirement Evolution
Topic · 其他Relevance · 65
本文提出 IncreRTL,一种在需求不断演进过程中,基于可追溯性指导的增量式 RTL(寄存器传输级)代码生成方法。该方法通过建立需求与 RTL 设计之间的双向追踪关系,支持在需求变更时智能识别受影响的设计模块,并自动生成相应的 RTL 更新,从而提升硬件设计的可维护性与开发效率。
UCAgent:面向模块级功能验证的端到端智能体
UCAgent: An End-to-End Agent for Block-Level Functional Verification
Topic · AgentRelevance · 95PDF Deep Digest
UCAgent 是一种端到端的智能体系统,用于自动化硬件模块级功能验证。它通过三大核心机制解决传统验证流程中的关键挑战:采用纯 Python 验证环境(基于 Picker 和 Toffee)规避 LLM 生成 SystemVerilog 代码的准确性问题;设计 31 阶段细粒度可配置工作流,每阶段配备自动检查器以控制错误累积;提出验证一致性标注机制(VCLM),通过分层标签确保规范、覆盖模型和测试用例间的语义一致性。实验表明,UCAgent 在 UART、FPU、整数除法器等模块上实现了高达 98.5% 的代码覆盖率和 100% 的功能覆盖率,并成功发现真实设计中的未知缺陷,展示了其在工业场景下的实用潜力。
解锁强监督:通用音频预训练方法的数据中心研究
Unlocking Strong Supervision: A Data-Centric Study of General-Purpose Audio Pre-Training Methods
Topic · 数据飞轮Relevance · 85
本文从数据中心的视角系统研究了通用音频预训练方法,探讨了数据质量、标注策略与模型性能之间的关系,旨在通过优化数据流程提升音频模型的监督学习效果。
ETA-VLA:通过时间融合与LLM内部稀疏化实现高效Token适应的视觉-语言-动作模型
ETA-VLA: Efficient Token Adaptation via Temporal Fusion and Intra-LLM Sparsification for Vision-Language-Action Models
Topic · 具身智能Relevance · 95
该论文提出ETA-VLA模型,通过时间融合机制和LLM内部Token稀疏化策略,提升视觉-语言-动作模型在具身智能任务中的效率与性能。
一致性放大:行为方差如何塑造智能体准确性
Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy
Topic · AgentRelevance · 85PDF Deep Digest
该论文研究了基于大语言模型(LLM)的智能体在复杂软件工程任务中的行为一致性及其对准确性的影响。通过在SWE-bench基准上对Claude 4.5 Sonnet、GPT-5和Llama-3.1-70B进行多轮测试(每模型50次运行),发现模型间一致性与其整体准确性高度相关:Claude表现最佳(CV: 15.2%,准确率58%),其次是GPT-5(CV: 32.2%,准确率32%),Llama最差(CV: 47.0%,准确率4%)。然而,一致性并不保证正确性——71%的Claude失败源于‘一致的错误理解’,即所有运行都重复相同错误假设。此外,尽管GPT-5与Claude在轨迹早期分歧时间相近(约第3步),但其一致性显著更低,表明早期策略一致不足以维持整体行为稳定性。研究还揭示了速度-准确性-一致性之间的权衡
CANGuard:一种用于车载CAN网络入侵检测的时空CNN-GRU-Attention混合架构
CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks
Topic · 其他Relevance · 40
本文提出CANGuard,一种结合卷积神经网络(CNN)、门控循环单元(GRU)和注意力机制的混合模型,用于检测车载CAN网络中的入侵行为。该模型通过捕捉消息序列的时空特征,实现对异常通信模式的识别。
A-SelecT:扩散变换器表示学习中的自动时间步选择
A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning
Topic · 机器学习框架Relevance · 85
该论文提出了一种自动选择时间步的方法A-SelecT,用于优化扩散变换器在表示学习中的性能。
Sommelier:面向全双工语音语言模型的可扩展开放多轮音频预处理
Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models
Topic · 大模型底座Relevance · 85
本文提出 Sommelier,一个可扩展的开放多轮音频预处理系统,专为全双工语音语言模型设计。该系统支持实时、双向语音交互中的高效音频处理,优化语音识别与生成之间的协调,提升多轮对话的流畅性与准确性。
一种用于光伏系统中智能直流电弧故障检测的轻量级、可迁移与自适应框架
A Lightweight, Transferable, and Self-Adaptive Framework for Intelligent DC Arc-Fault Detection in Photovoltaic Systems
Topic · 其他Relevance · 65
该论文提出了一种用于光伏系统中直流电弧故障检测的轻量级、可迁移与自适应框架,旨在提升故障检测的准确性与适应性。
DesignWeaver:面向文本到图像产品设计的维度支架方法
DesignWeaver: Dimensional Scaffolding for Text-to-Image Product Design
Topic · 其他Relevance · 65
该论文提出DesignWeaver框架,通过构建多维设计支架(如功能、美学、制造约束等)引导文本到图像生成模型,提升产品设计输出的实用性与可控性。