Transformer架构自2017年提出以来,彻底改变了自然语言处理领域的发展轨迹,成为当前大语言模型(如BERT、GPT系列)的核心基础。
这一架构通过自注意力机制取代传统RNN/CNN的序列处理方式,解决了长距离依赖建模困难和并行计算效率低下的问题,同时通过位置编码显式引入序列位置信息,弥补了注意力机制对顺序的天然不敏感性。
基于Transformer的预训练模型(如BERT、GPT)通过大规模无监督学习获取通用语言表示,再通过微调或提示工程灵活适配各种下游任务,实现了NLP领域的一系列突破性进展。
一、Transformer架构的历史背景与核心思想
Transformer架构由Google Brain团队的八位研究人员于2017年12月在论文《Attention Is All You Need》中首次提出。该架构的初衷是改进机器翻译,摆脱传统循环神经网络(RNN)和卷积神经网络(CNN)在序列处理上的局限性。
在提出Transformer之前,NLP领域的主流模型主要依赖RNN和LSTM来处理文本序列,这些模型虽然能捕捉长期依赖,但存在计算效率低下(无法并行处理)、