编码器-解码器架构

joker ... 2022-4-7 大约 1 分钟

# 编码器-解码器架构

机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构:

第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。

第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。

这被称为编码器-解码器

../_images/encoder-decoder.svg

我们以英语到法语的机器翻译为例: 给定一个英文的输入序列:“They”、“are”、“watching”、“.”。

首先,这种“编码器-解码器”架构将长度可变的输入序列编码成一个“状态”,

然后对该状态进行解码, 一个词元接着一个词元地生成翻译后的序列作为输出: “Ils”、“regordent”、“.”。

编码器-解码器架构是形成后续章节中不同序列转换模型的基础

# 小结

  • “编码器-解码器”架构可以将长度可变的序列作为输入和输出,因此适用于机器翻译等序列转换问题。
  • 编码器将长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。
  • 解码器将具有固定形状的编码状态映射为长度可变的序列。