auto-arxiv web

图神经网络中过平滑与过挤压问题的最优图重布线复杂度研究

On the Complexity of Optimal Graph Rewiring for Oversmoothing and Oversquashing in Graph Neural Networks

Topic · 其他Relevance · 65

该论文研究了图神经网络中过平滑和过挤压问题的最优图重布线策略的计算复杂度，分析了不同重布线操作对信息传播效率的影响，并探讨了算法设计中的理论边界。

Chat

面向仓库级软件工程评估的时间一致性基准

ATime-Consistent Benchmark for Repository-Level Software Engineering Evaluation

Topic · 其他Relevance · 60

该论文提出了一种用于评估软件工程能力的时间一致性基准，特别关注在完整代码仓库层面上的任务表现。

Chat

SWE-PRBench：基于拉取请求反馈对AI代码审查质量进行基准测试

SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback

Topic · 大模型后训练Relevance · 85

该论文提出SWE-PRBench基准，用于评估AI在代码审查任务中的表现，通过与真实GitHub拉取请求中的开发者反馈进行对比，衡量AI审查建议的质量和相关性。

Chat

自监督Transformer中分布式对象中心属性的发现

Finding Distributed Object-Centric Properties in Self-Supervised Transformers

Topic · 机器学习框架Relevance · 75

该研究探索了自监督Transformer模型中对象中心特征的分布式表示机制，揭示了模型如何隐式编码结构化视觉信息。

Chat

SkinGPT-X：用于透明可信皮肤病诊断的自进化协作多智能体系统

SkinGPT-X: A Self-Evolving Collaborative Multi-Agent System for Transparent and Trustworthy Dermatological Diagnosis

Topic · AgentRelevance · 95PDF Deep Digest

SkinGPT-X 是一种创新的多模态协作多智能体系统，专为皮肤科诊断设计，集成了自演进皮肤病记忆机制（EvoDerma-Mem）。该系统模拟真实临床诊断流程，通过视觉特征提取、初步诊断假设生成与基于检索增强生成（RAG）的证据验证，实现透明且可追溯的诊断推理。在四项公共数据集上的基准测试显示，SkinGPT-X 在准确率、加权F1、MCC和Cohen’s Kappa等指标上均显著优于现有先进模型，尤其在DDI31和Dermnet数据集上分别提升9.6%和13%。针对498类细粒度分类任务和包含8种罕见病的自建数据集RSDD，该系统分别实现+5.4%和+9.8%的准确率提升，并展现出强大的小样本推理能力。消融实验和专家盲评进一步验证了EvoDerma-Mem在提升诊断逻辑严谨性、指南完整性和临床表现合理性方面的

Chat

DPD-Cancer：基于图结构的可解释深度学习模型用于小分子抗癌活性预测

DPD-Cancer: Explainable Graph-based Deep Learning for Small Molecule Anti-Cancer Activity Prediction

Topic · 其他Relevance · 75

该论文提出了一种名为DPD-Cancer的图神经网络模型，用于预测小分子化合物的抗癌活性，并强调模型的可解释性，通过分析分子图结构识别关键子结构以支持药物发现。

Chat

“哎呀！ChatGPT暂时不可用！”：知识工作者在大型语言模型服务中断期间的体验日记研究

"Oops! ChatGPT is Temporarily Unavailable!": A Diary Study on Knowledge Workers' Experiences of LLM Withdrawal

Topic · 大模型后训练Relevance · 75

该研究通过日记法调查了知识工作者在ChatGPT等服务暂时不可用时的行为与心理反应，揭示了用户对大模型的高度依赖及其在中断期间的工作适应策略。

Chat

受人类启发的解耦架构用于高效音频表征学习

A Human-Inspired Decoupled Architecture for Efficient Audio Representation Learning

Topic · 其他Relevance · 60

该论文提出一种受人类听觉系统启发的解耦架构，用于提升音频表征学习的效率。通过分离时域与频域特征处理路径，模型能够更有效地捕捉音频中的关键信息，同时降低计算复杂度。实验表明，该方法在多个音频任务上表现优异，且参数量更少。

Chat

通过强化学习修补实现动态分词：端到端训练与零样本迁移

Dynamic Tokenization via Reinforcement Patching: End-to-end Training and Zero-shot Transfer

Topic · 大模型后训练Relevance · 85

该论文提出一种基于强化学习的动态分词方法，通过端到端训练优化分词策略，并实现零样本迁移能力，提升大模型在不同任务上的适应性与效率。

Chat

基于行为测试的大模型心理自我建模的选择性缺陷研究

Selective Deficits in LLM Mental Self-Modeling in a Behavior-Based Test of Theory of Mind

Topic · 大模型后训练Relevance · 85

该研究通过行为基础的‘心智理论’测试，揭示了大语言模型在心理自我建模方面存在选择性缺陷，表明其在理解他人心理状态方面仍有局限。

Chat

当身份崩溃时：多主体个性化压力测试基准

When Identities Collapse: A Stress-Test Benchmark for Multi-Subject Personalization

Topic · 大模型后训练Relevance · 85

该论文提出了一个用于评估多主体个性化能力的压力测试基准，旨在检验模型在同时处理多个用户身份时的表现，特别是在身份混淆或崩溃情况下的鲁棒性。

Chat

R-PGA：基于可重照明3D高斯溅射的鲁棒物理对抗伪装生成

R-PGA: Robust Physical Adversarial Camouflage Generation via Relightable 3D Gaussian Splatting

Topic · 具身智能Relevance · 85

本文提出R-PGA方法，利用可重照明3D高斯溅射技术生成在真实物理环境中鲁棒的对抗性伪装。该方法通过建模光照变化与视角变换，提升对抗样本在现实世界中的欺骗性与稳定性。

Chat

MuDD：一种多模态欺骗检测数据集及基于GSR引导的渐进式蒸馏非接触式欺骗检测方法

MuDD: A Multimodal Deception Detection Dataset and GSR-Guided Progressive Distillation for Non-Contact Deception Detection

Topic · 其他Relevance · 75

本文提出了一个名为MuDD的多模态欺骗检测数据集，并设计了一种基于皮肤电反应（GSR）引导的渐进式知识蒸馏框架，用于实现非接触式的欺骗检测。该方法融合视觉、语音与生理信号，提升检测准确性与鲁棒性。

Chat

连接像素与文字：面向多模态媒体验证的掩码感知局部语义融合

Bridging Pixels and Words: Mask-Aware Local Semantic Fusion for Multimodal Media Verification

Topic · 其他Relevance · 75

该论文提出一种掩码感知的局部语义融合方法，用于多模态媒体（图像与文本）的真实性验证。通过联合建模视觉区域与文本片段的细粒度对齐关系，增强模型对伪造内容的检测能力。

Chat

像放射科医生一样看：基于上下文与注视引导的胸部X光视觉-语言预训练

Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays

Topic · 大模型底座Relevance · 85

该论文提出一种受放射科医生诊断行为启发的视觉-语言预训练方法，结合上下文信息与眼动注视数据，提升胸部X光影像的理解能力。

Chat

大语言模型中的H-Node攻击与防御

H-Node Attack and Defense in Large Language Models

Topic · 其他Relevance · 60

该论文探讨了一种针对大语言模型的H-Node攻击方法及其防御机制，分析了攻击对模型内部表示的影响，并提出了相应的缓解策略。

Chat

基于生物力学模型的疲劳感知VR界面设计

Designing Fatigue-Aware VR Interfaces via Biomechanical Models

Topic · 其他Relevance · 60

该论文提出了一种通过生物力学模型来设计能够感知用户疲劳状态的虚拟现实（VR）界面的方法。研究结合人体运动学和肌肉疲劳模型，实时评估用户在VR交互过程中的生理负荷，并据此动态调整界面复杂度与交互方式，以减轻用户疲劳、提升体验。

Chat

无监督跨中心自动分析TAAD：从分割到临床特征的集成框架

Unlabeled Cross-Center Automatic Analysis for TAAD: An Integrated Framework from Segmentation to Clinical Features

Topic · 其他Relevance · 65

该论文提出一个集成框架，用于无监督跨中心自动分析TAAD（胸主动脉瘤和夹层），涵盖从图像分割到临床特征提取的全流程。

Chat

VLAgeBench：面向零样本人类年龄估计的大规模视觉-语言模型基准测试

VLAgeBench: Benchmarking Large Vision-Language Models for Zero-Shot Human Age Estimation

Topic · 大模型底座Relevance · 85

本文提出 VLAgeBench，一个专门用于评估大规模视觉-语言模型（LVLMs）在零样本人类年龄估计任务中性能的基准测试。该基准涵盖多样化的图像数据集与年龄标注，旨在推动 LVLMs 在细粒度视觉理解与跨模态推理方面的能力发展。

Chat

FairLLaVA：面向大型视觉-语言助手的公平性感知参数高效微调

FairLLaVA: Fairness-Aware Parameter-Efficient Fine-Tuning for Large Vision-Language Assistants

Topic · 大模型后训练Relevance · 90

该论文提出了一种在大型视觉-语言模型（如LLaVA）上进行公平性感知的参数高效微调方法，旨在减少模型在视觉-语言任务中的偏见，同时保持性能。

Chat