ERNIE: Enhanced Representation through Knowledge Integration

发表于 2021-10-10 更新于 2024-01-02 分类于 Paper Note 阅读次数：本文字数： 940 阅读时长 ≈ 1 分钟

百度 ERNIE, 与清华 ERNIE (ERNIE-Enhanced-Language-Representation-with-Informative-Entities) 同名

Motivation

现有的表征学习方法在学习 token embedding 时没有考虑语句中的先验知识，作者认为如果模型能够学习到先验知识，则可以获得更可靠的语言表征。

Methodology

ERNIE 使用 knowledge masking 策略隐式地学习先验知识，除了标准的随机 masking 方法之外，ERNIE 引入了两种特殊的 maksing 策略：phrase-level 和 entity-level，即分别将一个短语或一个实体作为一个基本单元进行 masking。

BERT as Backbone

语言表征的基础编码器采用和 BERT 等模型相同的多层 Transformer 结构。针对中文语料，作者将每个字用空格分开，并采用 WordPiece 进行 tokenize。每个 token 的输入 embedding 由 token embedding, segment embedding 和 position embedding 相加构成(与 BERT 相同)，每个输入序列的第一个 token 是特殊的分类 token ( $[CLS]$ )(与 BERT 相同)