AI 2026-05-15 10:00

ChatGPT 背后的技术：从 Transformer 到 RLHF

Transformer 架构的革命

2017年，Google 发表了《Attention Is All You Need》，提出了 Transformer 架构。这个架构彻底改变了自然语言处理领域，成为当今几乎所有大语言模型的基础。

Transformer 的核心是自注意力机制（Self-Attention），它允许模型在处理序列数据时，直接关注到序列中任意位置的信息，而不需要像 RNN 那样逐步传递。

OpenAI 从 GPT-1 到 GPT-4，模型规模和能力都在快速增长。GPT-3 拥有 1750亿参数，展现了惊人的少样本学习能力。而 ChatGPT 在此基础上，引入了人类反馈强化学习（RLHF），让模型的输出更加符合人类的偏好。

RLHF 包括三个步骤：监督微调（SFT）→ 奖励模型训练 → 近端策略优化（PPO）。通过人类标注者的反馈，模型学会了什么是有帮助的、无害的、诚实的回答。

这种训练方式让 ChatGPT 不仅能回答问题，还能拒绝不当请求、承认错误、并进行多轮对话。

← 返回首页