《聊天机器人的背后，GPT如何运作？》（1）概述

这一系列的文章只有一个目的，让人看完之后对于 GPT 的实现原理，以及作为这波 AI 浪潮基石的Transformer架构，有一个全面、清晰的认知。以此在读者（&作者）的脑海里，建立起对于大语言模型的认知的基准线，今后可以发散开来，去比较和理解新模型、新架构。

名词共识

ChatGPT

ChatGPT是由OpenAI开发的大型语言模型聊天机器人。它基于GPT-3语言模型构建，并使用强化学习进行微调，使其能够与人类进行更自然和更具吸引力的对话。ChatGPT可以用于各种任务，包括：

生成逼真和连贯的聊天对话
回答各种问题，包括开放式、具有挑战性和奇怪的问题
创作各种创意文本格式，如诗歌、代码、脚本、音乐作品、电子邮件、信件等
翻译语言
总结事实主题

GPT

GPT代表Generative Pre-training Transformer，是OpenAI开发的系列大型语言模型。GPT模型通过使用大量的文本和代码数据集进行预训练，可以生成逼真和连贯的文本、翻译语言、编写不同类型的创意内容以及以信息丰富的方式回答您的问题。GPT模型的最新版本是GPT-4，它具有175万亿个参数，是迄今为止最大的语言模型之一。

Transformer

Transformer是Google Research于2017年开发的一种神经网络架构。它在机器翻译领域取得了重大突破，并迅速成为自然语言处理（NLP）任务的主流架构。Transformer架构的核心是注意力机制，它允许模型更有效地学习输入序列中的长期依赖关系。

深度学习

深度学习是一种机器学习方法，它使用人工神经网络来从数据中学习。深度学习模型由多层神经元组成，这些神经元相互连接并通过复杂的算法进行训练。深度学习已被证明在各种任务中非常有效，包括图像识别、语音识别和自然语言处理。

关系：

ChatGPT 是基于 GPT 搭建的应用
GPT 是基于 Transformer 架构，由 OpenAI 开发的大语言模型系列
Transformer 是 Google 开发的神经网络架构，是深度学习领域一种神经网络架构
深度学习是什么？看下图

原理概述

好进入正题，首先这是GPT模型的推理原理 ，

Tokenization：输入内容（prompt）被拆解为 Token（单词或单词的一部分）
Word2Vector：每个Token对应一个向量（Word to Vector）,在高维空间中坐标相近的词，含义相近
Attention Block：这些向量会经过一个“注意力模块（Attention Block）”处理，使得向量之间可以相互交流，并更新自身的值（这是因为同一个词在不同语句中含义不同）
Multilayer Perceptron（MLP）：多层感知机。向量不再互相交流，而是并行地经历同一处理；类比为对每个向量提出问题，然后根据问题答案来更新向量
（上面两个阶段的操作，本质上都是大量的矩阵乘法）
接下来的操作基本上是重复的，在注意力模块 和多层感知机 之间不断切换
最后，文段（prompt）的核心意义已经被完全融入到序列的最后一个向量中
对最后一个向量进行特定操作，产生一个覆盖所有可能 Token 的概率分布

对，就概括来看其实就这么几行字，有了上面这样一个模型，就可以补全文章、故事了，

输入一个故事的开头，例如“小明今天很开”
依照上面的运行原理，模型推理出下一个字为“心”
将“小明今天很开心”再次输入模型，推理下一个字，如此循环

chatGPT 类型的聊天机器人 在此基础上实现，

给定一段系统 Prompt，例如 “下面的对话是一个用户和一个AI助手，用户说：”
用户输入初始 Prompt，而 Assistant 的回复则是在补全这段对话中“AI助手”的话