Large Language Models Are Reasoning Teachers

最新推荐文章于 2025-04-30 14:21:34 发布

kebijuelun

最新推荐文章于 2025-04-30 14:21:34 发布

阅读量2.1k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： paper_reading 文章标签：语言模型人工智能算法

本文链接：https://blog.csdn.net/kebijuelun/article/details/128498072

paper_reading 专栏收录该内容

132 篇文章

订阅专栏

Paper name

Large Language Models Are Reasoning Teachers

Paper Reading Note

URL: https://arxiv.org/pdf/2212.10071.pdf
twitter 宣传： https://twitter.com/itsnamgyu/status/1605516353439354880

TL;DR

提出了 Fine-tune-CoT 方法，旨在利用非常大的语言模型 (LMs) 的CoT推理能力来教导小模型如何解决复杂任务，蒸馏出来的小模型在某些数据集上精度甚至能超过 teacher 大模型

Introduction

背景

最近的研究表明，通过包含思维链 (CoT) 推理或促使模型一步一步地思考的几个示例，可以在大语言模型 (LLM) 中激发复杂推理能力。
基于提示的CoT推理方法的一个主要缺点是它们依赖于跨越数千亿参数的超大模型，由于巨大的计算需求和推理成本，这些模型无法大规模部署
虽然有人试图通过显式推理步骤来微调小模型来解决这个问题，但它们需要复杂的推理注释，通常还需要特定于任务的训练设置
本文希望在小模型中实现复杂的推理，以便在实际应用中使用，提出了一种名为 Fine-tune-CoT 的方法，旨在利用非常大的语言模型 (LMs) 的CoT推理能力来教导小模型如何解决复杂任务

本文方案

应用现有的 zero-shot CoT 提示从非常大的教师模型中生成理据，并使用它们来微调较小的学生模型
- 该方法可以很容易地应用于新的下游任务，因为基于 LM 的教师具有显著的 zero-shot 推理能力，没有手工推理注释或任务特定工程
- 保留了基于提示的CoT的多功能性，而不需要过大的模型
Fine-tune-CoT 的蒸馏步骤
1. 一个非常大的教师模型被提示通过生成多步推理解释(绿色)来解决复杂的问题(黄色)
2. 根据最终预测的正确性(红色)对生成的补全进行筛选。问题、基本原理和答案用于组成由提示和多步骤完成组成的推理示例
3. 精心策划的推理样本用于微调一个小的、轻量级的学生模型
  同时基于 LM 的教师模型支持了多样化的推理——为每个原始样本生成多个不同的基本原理，以丰富微调数据。这提高了学生模型的性能，并且不需要人工注释

Dataset/Algorithm/Model/Experiment Detail

实现方式

Step 1. Reasoning generation

首先利用一个大型教师模型为给定的任务生成CoT推理解释
考虑一个标准样本Si，由一个问题qi和它的真实答案ai组成。使用 Zero-shot-CoT 模型，提示教师模型生成一个推理解释 $r^i\hat{r}_i$ 来解决 qi，生成的最终答案为 $a^i\hat{a}_i$
- 生成的文本序列，包括提示符和生成，采用以下形式： “Q: . A: Let’s think step by step. <ˆri> Therefore, the answer is <ˆai>”

Step 2. Curation

为了准备微调样本，过滤生成的样本并将它们重新格式化为提示补全对
- 对于过滤，简单地将教师模型的最终预测 $a^i\hat{a}_i$ 与 ground-truth 答案 ai 进行比较，挑选预测与 gt 一致的样本
- 将(Si, $r^i\hat{r}_i$ , $a^i\hat{a}_i$ ) 重新打包成一个推理样本S’i = (pi, ci)，一个提示补全对

Step 3. Fine-tuneFine-tune

使用广泛可访问的 OpenAI API 在组装的推理样本上对一个小型预训练的学生模型进行微调。使用与预训练期间相同的训练目标，即 autoregressive language modeling objective 或 next-token prediction

Diverse reasoning

为了使微调- cot的样本效率最大化，为每个训练样本生成多个推理解释，从而增加微调数据
- 具体而言，对于给定的样本 Si，采用随机采样策略，即大 T 的温度采样，而不是采用贪婪解码的 Zero-shot-CoT 来获得单个解释-答案对 (ei, ai)，以获得 D 个不同的样本对

实验结果

实验配置

模型列表，学生模型比非常大的教师模型小25 - 500倍
用于对比的 baseline 模型

Zero-shot-CoT： task-agnostic prompting baseline
finetuning：使用原始训练样本进行 finetune
Fine-tune-CoT：本文方法

实验结果

12 个数据集上的对比结果，“Random” 指的是在多项选择题的任务中，根据选项的数量随机猜测的表现，即只能以正确格式输出随机答案的模型的性能。

Fine-tune-CoT 性能超过 Zero-shot-CoT
一些小模型效果超过了大模型：Shuffled Objects and Coin Flip
Fine-tune vs Fine-tune-CoT： Date Understanding and Shuffle Objects 数据上 Fine-tune-CoT 比 Fine-tune 精度明显高（Fine-tune 精度与 Random 差不多），某些数据集上 Fine-tune 精度也会比 Fine-tune-CoT 高，不过 Fine-tune-CoT 性能随着模型大小显示出更可靠的缩放曲线，并在需要多个步骤的任务中显示出明显的优势