深度学习

位置编码

位置编码 位置编码(Positional Encoding)是Transformer模型中用来引入序列中词语位置信息的一种技术。由于Transformer模型本身不包含循环神经网络的递归结构或卷积神经网络的层次结构,因此它本身无法捕捉到序列数据中的顺序信息。位置编码就是为了解决这个问题而设计的。 位
2023-03-03

Position Embedding

Position Embedding Position Embedding 是一种在序列模型中引入位置信息的方法,特别是在 Transformer 模型中,因为它不像传统的循环神经网络(RNN)或卷积神经网络(CNN)那样天然具有对序列位置的感知能力。Position Embedding 的目的是给
2023-03-02

Multi-head Self Attention

Multi-head Self Attention Multi-head Self-Attention 是 Transformer 架构中的一个核心组成部分,它允许模型在不同的表示子空间中并行地学习信息,这有助于捕获输入序列中的复杂关系。以下是 Multi-head Self-Attention 的
2023-03-01

Masked Self Attention

Masked Self Attention Masked Self-Attention,即掩码自注意力,是一种在Transformer模型中使用的自注意力机制的变体。它的主要目的是在训练过程中防止模型看到未来的信息,这在处理序列数据时非常重要,尤其是在语言模型中,我们希望模型在预测下一个词时只能依赖
2023-02-24

Self Attention 和 RNN、LSTM 的区别

Self Attention 和 RNN、LSTM 的区别 Self-Attention(自注意力)和RNN(循环神经网络)、LSTM(长短期记忆网络)是不同的神经网络架构,它们在处理序列数据时有着各自的特点和优势。以下是它们之间的主要区别: 1. 结构和复杂性 RNN和LSTM: RNN和LSTM
2023-02-22

Attention

Attention 注意力机制的本质思想 注意力机制模拟了人类视觉系统的工作方式,即能够在大量的信息中聚焦于某些重要的部分,而忽略其他不重要的部分。在机器学习领域,这意味着模型能够在处理输入数据时,根据当前的任务需求,更加关注某些关键的信息。 注意力机制的作用 解决长距离依赖问题:与LSTM相比,注
2023-02-10

LSTM(Long Short-Term Memory,长短期记忆网络)

LSTM(Long Short-Term Memory,长短期记忆网络) STM(长短期记忆网络)是一种特殊的循环神经网络(RNN),它通过特殊的网络结构设计来有效地解决传统RNN在处理长序列数据时遇到的梯度消失和梯度爆炸问题。以下是LSTM的工作原理的详细解释: 1. 循环神经网络的问题 在传统的
2023-02-08

RNN(Recurrent Neural Network)

RNN(Recurrent Neural Network) 传统的神经网络无法获取时序信息,然而时序信息在自然语言处理任务中非常重要。 例如对于这一句话 “我吃了一个苹果”,“苹果” 的词性和意思,在这里取决于前面词的信息,如果没有 “我吃了一个” 这些词,“苹果” 也可以翻译为乔布斯搞出来的那个被
2023-02-07

词向量(Word Embedding)

词向量(Word Embedding) 词向量(Word Embedding)是自然语言处理(NLP)中的一种重要技术,它将词汇映射到高维空间中的向量,以捕捉词汇之间的语义关系。词向量能够将词汇的含义编码为数值形式,从而使得计算机能够处理和理解自然语言。 以下是关于词向量的一些核心概念: 基本概念
2023-02-06

独热(Onehot)编码

独热(Onehot)编码 独热编码(One-Hot Encoding)是一种将分类变量转换为机器学习算法易于利用的形式的技术。在独热编码中,每个类别值都被转换成一个只含有一个“1”和一个“0”组成的向量,其中“1”的位置对应于该类别的索引,而其他位置都是“0”。 下面是独热编码的一些基本要点: 举例
2023-02-04