Introduction

BERT 是一种新的语言表征模型,它是一种双向编码器表征的Transformers模型(Bidirectional Encoder Representions from Transformers)

BERT 利用了无标签预训练文本数据的左右上下文信息,训练出一个深度双向表征模型。预训练后的模型可以通过一个额外的输出层并微调到多个下游任务,并取得 state-of-the-art 的结果。

本文中,BERT通过使用“掩码语言模型(Masked Language Model, MLM)”作为预训练目标函数,缓解了单向性约束,改进了基于微调的方法。MLM即随机地将输入中的一些token替换为掩码,并且目标是基于上下文预测被掩码位置token的原始词典id。这种目标函数使表征有能力融合左右上下文的信息,从而使训练一个深度双向Transformer成为可能。

BERT是第一个在大量句级和词级任务上取得最优结果的基于微调的表征模型,优于许多特定于任务的体系结构。

阅读全文 »

Motivation

Transformer 模型中, FFN 层的参数占 3/2,但是其在网络中的作用还没有很好的被研究和理解

作者提出 FFN 层相当于神经记忆系统,以第一个矩阵为 key, 第二个矩阵为 value 记录了键值对信息。其中的 key 指人类可解释的文本特征(表层的文本结构特征和深层的文本语义特征), value 则可以诱导成在词典空间中的概率分布。

阅读全文 »

作者基于一种观点:结合多模态信息的语言表征与不结合多模态信息的语言表征在表征空间中的位置不同,因此,可以将多模态信息视为表征空间中的 移位向量,与不结合多模态信息的语言表征向量相加可以得到向量空间中的最终位置。

阅读全文 »

本文写于 2020 年 5 月 3 日,2022 年 3 月 20 日重新整理

阅读全文 »

本文写于 2020 年 4 月 1 日,2022 年 3 月 20 日重新整理

阅读全文 »
0%