尝试将强化学习(RL)技术迁移至两类 NLP 任务,均取得显著效果提升。
任务一:封闭式语义判别(分类场景)
判断文本中特定实体是否属于预定义类别集合(如 3C 行业品牌识别),以下是一个例子
prompt:
以下出现的华为是否为 3C 行业品牌?
输入:刘德华为新剧做宣传。
label:不是
任务特性:
- 输出空间有限(离散的分类标签)
- 依赖实体上下文语义表征
- 基于规则奖励函数设计
任务二:开放式策略生成(主观分析场景)
prompt: 以下是青年置业困难的调查数据,
- 整体: 资金不足 40.4%,知识匮乏 23.9%,未来不确定性 21.7%