.Xqq

浅尝AI大模型

2025-04-29 下午 1446字 7.2分钟 code

浅尝AI大模型：人工智能 + 机器学习 + 深度学习 + 大模型架构

大模型

1人工智能基础概念全景介绍

1.1人工智能

提出：1956年的达特茅斯会议正式确立”人工智能”这一领域
也就是AI

1.2机器学习

概念：让计算机通过大量数据，自行识别模式总结规律
类别：
- （有）监督学习：计算机通过已知的输入和对应输出的样本，训练出一个模型，使得模型能够预测未知输入的输出（学习原始数据与对应标签的关系）
  - 分类：输入是一组特征，输出是离散的类别
  - 回归：输入是一组特征，输出是连续的数值
- 无监督学习：计算机通过数据本身，训练出一个模型，使得模型能够发现数据中的模式、规律、结构等
  - 聚类
  - 降维
  - 异值检测
  - 自编码器
  - 自监督学习
- 强化学习：计算机通过与环境的互动，训练出一个模型，使得模型能够在不断的试错中，找到最优的策略。（让模型能够在环境中获得最大奖励的手段）如：Alpha-go

1.3深度学习

概念：深度学习（英语：deep learning）是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。
特点：“深度”是指在网络中使用多层
深度学习全过程：
- i. 数据准备
- ii. 模型构建、损失函数(loss function)定义、优化器(optimizer)选择
- iii. 模型训练：
  - a. 前向传播
  - b. 计算损失
  - c. 反向传播
  - d. 优化器更新参数
  - e. 迭代训练
- iv. 模型评估与调优
- v. 模型应用与部署

思考1：深度学习属于监督学习、无监督学习、和强化学习这三类中的哪一种呢？

答案：每一类都有深度学习的体现，故而都可以包含

思考2：生成式AI 与大语言模型的关系？

答案：生成式AI 与大语言模型都属于深度学习的范畴，但两者的方向不同，属于交集的关系

1.4概念全景图

2语言模型的发展及核心算法

Larger Language Models（LLM）是指具有海量训练数据和参数量的语言模型，是深度学习的重要研究之一。

2.1发展格局

2.2LLM之”大”——数据&参数

数据量巨大：大模型的数据量通常是以 TB 计，而普通模型的训练数据量通常是以 GB 计。
参数量巨大：大模型的参数量通常是以亿计，而普通模型的参数量通常是以千万计。

2.3LLM之”通用”——集中化

2.4LLM之”最大功臣”——Transformer

提出：2017年，Google AI团队提出了 Transformer 架构，并在NLP领域取得了巨大成功
Transformer 架构是一种基于 Attention 的 Seq2Seq 模型，其特点是 通过学习输入序列的全局依赖关系，来实现序列到序列的转换
优势：
- 自注意力机制 ->上下文记忆增强
- 位置编码 -> 可以实现并行计算，不需等待上文计算完毕再根据目前输入做输出

2.4.1自注意力机制

2.4.2位置编码

并行计算优势

本质

3Transformer内部发生着什么

3.1数据预处理

Tokenization 将文本数据转化成 token序列
Embedding 将token序列映射到 embedding向量空间
Position Encoding 给每个token 添加位置编码

3.2编码器

关联词与其他所有词：计算每个词与其他词的 相关性得分，确定哪些词在当前上下文更加重要
权重赋予：根据相关性得分，给每个词赋予权重
权重加权：使用这些权重对每个词的 embedding向量 进行加权求和，得到当前上下文的 表示向量
多头注意力机制(Multi-Head Attention)：多头注意力机制是指【多个头（多个注意力机制，从不同角度出发，互不影响）】共同计算当前上下文的 注意力权重，并将其加权求和，得到最终的 表示向量。

3.3解码器

解码器接受：编码器的输出 + 上一轮文本的输入
与编码器的不同之处：
- 编码器中，在处理各个词时，会关注【输入序列里所有其他词】
- 解码器中，只会关注【当前词和前面的其他词（确保生成过程的顺序性和正确性）】

3.4Linear层和 Softmax层

Linear层：将解码器的输出映射到一个更大logits向量（长度通常与词汇表的大小一致，预测各个词的概率值）
Softmax层：将logis向量转换成各个词的概率分布（0-1之间的概率值，归一化）

拓展：Transformer的变形

4 大语言模型的诞生之路

4.1无监督学习 -> 基座大模型

数据准备和预处理
- 海量文本
- tokenizer将文本数据转化成token序列
任务构建
- 掩码语言建模(Masked Language Modeling,MLM)：随机替换输入序列的一部分，并预测被替换的部分
模型训练

4.2有监督微调 -> 可对话

监督微调(supervised fine-tuning,SFT)：使其能更好地适应特定任务
加入高质量的问答集合

4.3有监督学习 -> 奖励模型

能够评估回答的奖励模型(Reward Model)

4.4强化学习 -> 提升回复质量

大模型权重调整：权重更新过程中 朝着增加这些行为或回答发生概率的方向调整，不断提升模型的回复质量

The End