auto-arxiv web

语言模型需开放到何种程度才能实现可靠的科学推断？

How Open Must Language Models be to Enable Reliable Scientific Inference?

Topic · 大模型后训练Relevance · 85

探讨语言模型在科学推断中的可靠性与其开放程度之间的关系，分析模型透明度、可解释性与训练数据访问权限对科学应用的影响。

Chat

ALBA：用于评估生成式大模型语言与语言维度的欧洲葡萄牙语基准

ALBA: A European Portuguese Benchmark for Evaluating Language and Linguistic Dimensions in Generative LLMs

Topic · 大模型后训练Relevance · 85

ALBA 是一个专为欧洲葡萄牙语设计的基准测试，用于评估生成式大模型在语言理解和生成方面的能力。该基准涵盖多个语言维度，包括语法、语义、语用等，旨在推动葡萄牙语 NLP 研究的发展。

Chat

JAL-Turn：面向全双工口语对话系统的实时鲁棒联合声学-语言建模话轮检测

JAL-Turn: Joint Acoustic-Linguistic Modeling for Real-Time and Robust Turn-Taking Detection in Full-Duplex Spoken Dialogue Systems

Topic · 具身智能Relevance · 85

该论文提出JAL-Turn模型，通过联合声学-语言建模实现全双工对话系统中的实时话轮检测，提升交互自然性与鲁棒性。

Chat

AMALIA 技术报告：面向欧洲葡萄牙语的全开源大语言模型

AMALIA Technical Report: A Fully Open Source Large Language Model for European Portuguese

Topic · 大模型底座Relevance · 95

本文介绍了 AMALIA，一个专为欧洲葡萄牙语设计并完全开源的大语言模型。该模型旨在提升低资源语言在自然语言处理任务中的表现，支持多种下游应用。

Chat

岩石、卵石与沙子：面向多模态大语言模型推理的模态感知调度

Rocks, Pebbles and Sand: Modality-aware Scheduling for Multimodal Large Language Model Inference

Topic · 大模型底座Relevance · 85

本文提出一种针对多模态大语言模型推理的模态感知调度策略，通过区分不同模态数据的计算粒度（如图像、文本、音频），优化资源分配与推理效率。

Chat

基于掩码潜在注意力的心电时间序列基础模型

Foundation Model for Cardiac Time Series via Masked Latent Attention

Topic · 大模型底座Relevance · 90

该论文提出一种面向心电时间序列的基础模型，采用掩码潜在注意力机制进行预训练，以捕捉心脏信号中的长期依赖与潜在结构，为下游心血管任务提供通用表示。

Chat

UNIFERENCE：用于开发分布式AI模型的离散事件仿真框架

UNIFERENCE: A Discrete Event Simulation Framework for Developing Distributed AI Models

Topic · 机器学习框架Relevance · 90

本文提出UNIFERENCE，一个基于离散事件仿真（DES）的框架，用于建模和开发分布式AI系统。该框架支持对复杂通信模式、资源调度和故障恢复机制进行细粒度模拟，帮助研究人员在真实部署前评估系统性能。UNIFERENCE通过模块化设计支持多种AI任务（如联邦学习、多智能体协作），并提供可视化工具以分析系统行为。实验表明，该框架能有效预测实际系统中的瓶颈，提升开发效率。

Chat

基于玻尔兹曼机增强的Transformer用于DNA序列分类

A Boltzmann-machine-enhanced Transformer For DNA Sequence Classification

Topic · 机器学习框架Relevance · 85

该论文提出一种结合玻尔兹曼机与Transformer的混合模型，用于提升DNA序列分类性能。通过引入玻尔兹曼机的概率建模能力，增强Transformer对序列中潜在结构的捕捉，实验表明在多个生物数据集上分类准确率显著提高。

Chat

神经符号过程异常检测

Neuro-Symbolic Process Anomaly Detection

Topic · 其他Relevance · 60

该论文提出了一种结合神经网络与符号推理的混合方法，用于检测复杂系统中的过程异常。通过融合数据驱动的模式识别与基于规则的逻辑推理，提升异常检测的可解释性与准确性。

Chat

AI模型能否相互指导？组织结构作为训练局限性的探针

Can AI Models Direct Each Other? Organizational Structure as a Probe into Training Limitations

Topic · 大模型后训练Relevance · 85

该研究探讨大模型在组织化协作中相互指导的能力，通过模拟不同组织结构（如层级制、扁平化）来评估模型间的任务分配与协作效率，揭示当前训练范式在复杂多智能体协调方面的局限性。

Chat

CPUBone：面向低并行化能力设备的视觉骨干网络高效设计

CPUBone: Efficient Vision Backbone Design for Devices with Low Parallelization Capabilities

Topic · 大模型底座Relevance · 85

本文提出CPUBone，一种专为低并行化设备（如CPU）优化的视觉骨干网络架构，旨在提升在计算资源受限环境下的模型效率与推理性能。

Chat

KMM-CP：通过选择性核均值匹配实现协变量偏移下的实用共形预测

KMM-CP: Practical Conformal Prediction under Covariate Shift via Selective Kernel Mean Matching

Topic · 机器学习框架Relevance · 85

本文提出了一种在协变量偏移条件下实现共形预测的新方法KMM-CP，通过选择性核均值匹配技术提升预测的校准性和实用性。

Chat

模型知道但不表达：开源推理模型中思维链忠实度在思考标记与答案之间的分歧

Why Models Know But Don't Say: Chain-of-Thought Faithfulness Divergence Between Thinking Tokens and Answers in Open-Weight Reasoning Models

Topic · 大模型后训练Relevance · 95

该研究探讨了开源推理模型在链式思维（CoT）过程中，内部思考标记与最终答案之间存在的忠实度差异问题，揭示了模型虽具备推理能力但输出不一致的现象。

Chat

蛋白质设计中的生成建模：神经表示、条件生成与评估标准

Generative Modeling in Protein Design: Neural Representations, Conditional Generation, and Evaluation Standards

Topic · 其他Relevance · 75

该论文探讨了生成模型在蛋白质设计中的应用，涵盖神经表示方法、条件生成策略以及评估生成蛋白质结构与功能的新标准。

Chat

分子基态的自动化近期量子算法发现

Automated near-term quantum algorithm discovery for molecular ground states

Topic · 其他Relevance · 60

该论文提出了一种自动化方法，用于发现适用于近期量子设备的分子基态计算算法。

Chat

多模态数据的生成式得分推断

Generative Score Inference for Multimodal Data

Topic · 其他Relevance · 60

该论文提出了一种针对多模态数据的生成式得分推断方法，旨在通过建模不同模态间的联合分布来提升推断性能。

Chat

反思以指导：通过信息增益驱动的验证提升多模态推理

Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification

Topic · 大模型后训练Relevance · 85

该论文提出一种基于信息增益驱动的反思机制，用于增强多模态大模型的推理能力。通过引入验证模块，模型在生成答案前评估不同推理路径的信息增益，从而选择更优的推理策略。该方法在多个多模态基准测试中提升了模型的准确性和鲁棒性。

Chat

CALRK-Bench：评估韩语法律中的上下文感知法律推理能力

CALRK-Bench: Evaluating Context-Aware Legal Reasoning in Korean Law

Topic · 大模型后训练Relevance · 85

该论文提出 CALRK-Bench，一个专门用于评估大模型在韩语法律语境中进行上下文感知法律推理能力的基准测试。该基准聚焦于法律条文理解、案例推理和跨文档信息整合等复杂任务，旨在推动面向韩语法律场景的大模型后训练与能力优化。

Chat

通过输入自适应深度聚合缓解视觉-语言微调中的推理税

Mitigating the Reasoning Tax in Vision-Language Fine-Tuning with Input-Adaptive Depth Aggregation

Topic · 大模型后训练Relevance · 85

该论文提出一种输入自适应深度聚合方法，用于缓解视觉-语言模型微调过程中因推理复杂度增加而导致的性能下降问题（即“推理税”）。

Chat

PRISMA：面向负责任的药品知识管理的规范性信息基础设施

PRISMA: Toward a Normative Information Infrastructure for Responsible Pharmaceutical Knowledge Management

Topic · 其他Relevance · 20

本文提出PRISMA框架，旨在为药品知识管理构建一个规范性的信息基础设施，强调在医药信息处理中的责任性与合规性，涉及知识组织、数据治理与伦理规范等方面。

Chat