分类：学习 - MaXiaoTiao

BERT 之输入表示

BERT 之输入表示 BERT的输入序列构造如下： [CLS] Token: 输入序列的开始是一个特殊的分类token（[CLS]），其最终的隐藏状态被用作分类任务的聚合序列表示。 Token Embeddings: 接下来是句子中每个token的WordPiece tokenization结果。

学习

2023-04-13

BERT之语言掩码模型（MLM）

BERT之语言掩码模型（MLM） BERT 作者认为，使用自左向右编码和自右向左编码的单向编码器拼接而成的双向编码器，在性能、参数规模和效率等方面，都不如直接使用深度双向编码器强大，这也是为什么 BERT 使用 Transformer Encoder 作为特征提取器，而不使用自左向右编码和自右向左编

学习

2023-04-05

BERT 的结构：强大的特征提取能力

BERT 的结构：强大的特征提取能力如下图所示，我们来看看 ELMo、GPT 和 BERT 三者的区别 ELMo 使用自左向右编码和自右向左编码的两个 LST

学习

2023-04-05

为什么 Encoder 给予 Decoders 的是 K、V 矩阵

为什么 Encoder 给予 Decoders 的是 K、V 矩阵我们在讲解 Attention 机制中曾提到，Query 的目的是借助它从一堆信息中找到重要的信息。现在 Encoder 提供了 Ke、VeKe、Ve 矩阵，Decoder 提供了 QdQd 矩阵，通过 “我爱中国” 翻译为 “I

学习

2023-03-31

为什么 Decoder 需要做 Mask

为什么 Decoder 需要做 Mask 训练阶段：我们知道 “je suis etudiant” 的翻译结果为 “I am a student”，我们把 “I am a student” 的 Embedding 输入到 Decoders 里面，翻译第一个词 “I” 时如果对 “I am a st

学习

2023-03-29

Transformer 中的前馈神经网络

Transformer 中的前馈神经网络在Transformer模型中，前馈神经网络（Feed-Forward Neural Network，FFN）是模型架构的关键组成部分之一，它通常位于每个自注意力层（self-attention layer）之后。以下是前馈神经网络在Transformer模

学习

2023-03-28

Transformer 输出结果

Transformer 输出结果以上，就讲完了 Transformer 编码和解码两大模块，那么我们回归最初的问题，将 “机器学习” 翻译成 “machine learing”，解码器的输出是一个浮点型的向量，怎么转化成 “machine learing” 这两个词呢？让我们来看看 Encoder

学习

2023-03-26

Encoder

Encoder Encoder 有了上述那么多知识的铺垫，我们知道 Eecoders 是 N

学习

2023-03-22

Self Attention

Self Attention Self-Attention（自注意力）是一种在序列任务处理中广泛使用的机制，尤其是在自然语言处理（NLP）领域。它是Transformer模型的核心组成部分，能够让模型在处理序列数据时自动捕捉到序列内部的长距离依赖关系。以下是Self-Attention的基本概念和工

学习

2023-03-17

88.合并两个有序数组

88.合并两个有序数组给定两个按非递减顺序排列的整数数组 nums1 和 nums2，其中 nums1 有足够的空间容纳 nums2 的元素。请你将 nums2 合并到 nums1 中，使得合并后的数组同样按非递减顺序排列。注意：最终，合并后数组不应由函数返回，而是存储在数组 nums1 中。

学习

2023-03-13