浅尝AI大模型
浅尝AI大模型:人工智能 + 机器学习 + 深度学习 + 大模型架构
大模型
1人工智能基础概念全景介绍
1.1人工智能
- 提出:1956年的达特茅斯会议正式确立”人工智能”这一领域
- 也就是AI
1.2机器学习
概念:让计算机通过大量数据,自行识别模式总结规律
类别:
(有)监督学习:计算机通过已知的输入和对应输出的样本,训练出一个模型,使得模型能够预测未知输入的输出(学习原始数据与对应标签的关系)
- 分类:输入是一组特征,输出是离散的类别
- 回归:输入是一组特征,输出是连续的数值
无监督学习:计算机通过数据本身,训练出一个模型,使得模型能够 发现数据中的 模式、规律、结构等
- 聚类
- 降维
- 异值检测
- 自编码器
- 自监督学习
强化学习:计算机通过与环境的互动,训练出一个模型,使得模型能够 在不断的试错中,找到最优的策略。(让模型能够在环境中获得最大奖励的手段)如:Alpha-go
1.3深度学习
概念:深度学习(英语:deep learning)是机器学习的分支,是一种以 人工神经网络 为架构,对资料进行表征学习的算法。
特点:“深度”是指在网络中使用多层
深度学习全过程:
i. 数据准备
ii. 模型构建、损失函数(loss function)定义、优化器(optimizer)选择
iii. 模型训练:
- a. 前向传播
- b. 计算损失
- c. 反向传播
- d. 优化器更新参数
- e. 迭代训练
iv. 模型评估与调优
v. 模型应用与部署
思考1:深度学习 属于监督学习、无监督学习、和强化学习这三类中的哪一种呢?
答案:每一类都有深度学习的体现,故而都可以包含
思考2:生成式AI 与 大语言模型的关系?
答案:生成式AI 与 大语言模型 都属于深度学习的范畴,但两者的方向不同,属于交集的关系
1.4概念全景图
2语言模型的发展及核心算法
Larger Language Models(LLM)是指具有海量训练数据和参数量的语言模型,是深度学习的重要研究之一。
2.1发展格局
2.2LLM之”大”——数据&参数
- 数据量巨大:大模型的数据量通常是以 TB 计,而普通模型的训练数据量通常是以 GB 计。
- 参数量巨大:大模型的参数量通常是以 亿 计,而普通模型的参数量通常是以 千万 计。
2.3LLM之”通用”——集中化
2.4LLM之”最大功臣”——Transformer
- 提出:2017年,Google AI团队提出了 Transformer 架构,并在NLP领域取得了巨大成功
- Transformer 架构是一种基于 Attention 的 Seq2Seq 模型,其特点是 通过学习输入序列的全局依赖关系,来实现序列到序列的转换
- 优势:
- 自注意力机制 ->上下文记忆增强
- 位置编码 -> 可以实现并行计算,不需等待上文计算完毕再根据目前输入做输出
2.4.1自注意力机制
2.4.2位置编码
并行计算优势
本质
3Transformer内部发生着什么
3.1数据预处理
- Tokenization 将文本数据转化成 token序列
- Embedding 将token序列映射到 embedding向量空间
- Position Encoding 给每个token 添加位置编码
3.2编码器
- 关联词与其他所有词:计算每个词与其他词的 相关性得分,确定哪些词在当前上下文更加重要
- 权重赋予:根据相关性得分,给每个词赋予权重
- 权重加权:使用这些 权重 对每个词的 embedding向量 进行加权求和,得到当前上下文的 表示向量
- 多头注意力机制(Multi-Head Attention):多头注意力机制是指【多个头(多个注意力机制,从不同角度出发,互不影响)】共同计算当前上下文的 注意力权重,并将其加权求和,得到最终的 表示向量。
3.3解码器
- 解码器接受:编码器的输出 + 上一轮文本的输入
- 与编码器的不同之处:
- 编码器中,在处理各个词时,会关注【输入序列里所有其他词】
- 解码器中,只会关注【当前词和前面的其他词(确保生成过程的顺序性和正确性)】
3.4Linear层和 Softmax层
- Linear层:将 解码器的输出 映射到一个 更大logits向量(长度通常与词汇表的大小一致,预测各个词的概率值)
- Softmax层:将logis向量 转换成 各个词的概率分布(0-1之间的概率值,归一化)
拓展:Transformer的变形
4 大语言模型的诞生之路
4.1无监督学习 -> 基座大模型
- 数据准备和预处理
- 海量文本
- tokenizer将文本数据转化成token序列
- 任务构建
- 掩码语言建模(Masked Language Modeling,MLM):随机替换输入序列的一部分,并预测被替换的部分
- 模型训练
4.2有监督微调 -> 可对话
- 监督微调(supervised fine-tuning,SFT):使其能更好地适应特定任务
- 加入高质量的问答集合
4.3有监督学习 -> 奖励模型
- 能够评估回答的 奖励模型(Reward Model)
4.4强化学习 -> 提升回复质量
- 大模型权重调整:权重更新过程中 朝着增加这些行为或回答发生概率 的方向调整,不断提升模型的回复质量