Tool Usage Adaptation(TUA)是一种新颖的训练范式,它旨在使大型语言模型(LLM)在解决科学问题时能够自适应地使用工具,以平衡其内在知识和外部工具的使用。TUA的核心思想是训练模型根据任务的复杂度智能地利用外部工具,结合直接推理和有效工具使用,提高科学问题解决的准确性和可靠性。
具体来说,TUA是两阶段训练范式中的第二阶段,第一阶段是世界知识蒸馏(World Knowledge Distillation, WKD),通过监督微调和偏好优化,使模型内化领域特定的专业知识。在TUA阶段,问题被分为简单和困难两类,基于模型的直接回答准确度进行划分。对于简单问题,保持与WKD阶段相同的对齐目标,而对于更复杂的问题,则训练模型智能地切换到工具使用。
TUA的应用领域包括解决不同复杂度的真实世界科学问题,如数学、气候科学和流行病学等。在自定义数据集上的实验结果表明,使用TUA方法的模型在高难度和专业问题上的表现大幅超越了所有基线模型。这种方法使得LLMs在解决科学问题时能够更加灵活和准确,提高了模型的实用性和效果。