慧棱镜 All In One 服务平台博主等级

行动起来，活在当下

累计撰写 23 篇文章
累计创建 58 个标签
累计收到 2 条评论

目录CONTENT

首页
/
人工智能
/
正文

人工智能

ChatGPT模型的深度解刨

创始者

2024-09-25 / 0 评论 / 0 点赞 / 26 阅读 / 0 字

09/29

本文内容大体来自于哔站视频: 【AI已经涌现出自主意识？从经典论文出发，看懂Ilya到底在担心什么】
剩余多出来的部分是: 自己的主观臆断进行的深层次的解说.
我们会十分尊重原作者的心血和内容版权!!!

向量矩阵(语义矩阵)

位置编码矩阵(语序)

注意力模块

主要作用: 提取整合信息

就是提取和整合这些纷繁复杂的信息, 然后找到最重要最相关的, 继而对他们分配最大的权重.

单头注意力

如上图所示, 每个token的输入向量是一列768维的数组, 包含了丰富的语意信息, 但在不同的语境里, 有的维度重要, 有的维度不重要. 比如:

如上图这个语境里, 苹果表示水果的那层语义就没啥用, 就可以不用关注.

权重矩阵

如上图所示, 每个数字大概代表了不同维度之间的关联性和重要性.

每一个token的输入向量都会分别跟3个权重矩阵相乘, 得到对应的3个新的向量QKV.

这样的话每一个权重矩阵相当于格子提取了这个token的一部分关联度高, 比较重要的维度.

如上图所示, 这三个新向量的作用很好理解. 可以举个例子: 现在, 你需要在一个巨大的文件柜里面找资料.

每一个文件夹代表着一个token, Q向量(Query) 是查找请求, K向量( Key) 是文件夹的标签, V向量是文件夹里的实际内容.

你拿着Q跟文件夹里的所有token的文件夹标签作对比, 计算每一个文件夹的匹配度或者相关性.

一旦发现了相关性, 注意力模块就会根据相关程度来分配注意力.

这就是所谓的单头注意力💡.

多头注意力

每头注意力关注token的不同的特征, 最后把每个注意力生成的所有新向量拼接起来, 我们就得到了一个包含一定特征和上下文关系的矩阵.

解码

经过第一个解码器, GPT对这句话的理解可能达到了小学生的水平:

GPT-1有12个解码器, 以上的过程会重复12遍, 这意味着GPT对这段token的理解会越来越深入, 直到最后一个解码器吐出最后一个矩阵.

最终矩阵包含所有token的综合特征和上下文信息的精华.

0

AI GPT OpenAI transformers

支付宝打赏
微信打赏

版权归属：创始者

本文链接： http://www.0p.fit/archives/b0436cfc-8882-48b5-8cf1-00bf59c612ad

许可协议：本文使用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》协议授权

微信扫一扫
1. 支付宝打赏
2. 微信打赏

评论区