ちょっと、そこ!私は変圧器のサプライヤーです。今日は、変圧器の自己注意メカニズムがどのように機能するかについて話します。少し技術的に聞こえるかもしれませんが、理解しやすい方法で分解します。
基本から始めましょう。トランスは、自然言語処理の分野(NLP)およびその他の分野に革命をもたらしたニューラルネットワークアーキテクチャの一種です。自己注意メカニズムは、変圧器を非常に強力にする重要なコンポーネントの1つです。
自己とは何ですか?
自己注意は、モデルが入力シーケンスの処理時にさまざまな部分の重要性を比較検討する方法です。簡単に言えば、モデルが入力の関連部分に焦点を合わせるのに役立ちます。長い記事を読んでいると想像してください。同じレベルの注意を払ってすべての単語を読むわけではありません。重要な文章、見出し、関連する詳細にもっと注意を払うことができます。それがまさに自分自身が変圧器モデルに対して行うことです。
どのように段階的に機能しますか?
1。クエリ、キー、および値ベクトル
自己注意メカニズムの最初のステップは、入力シーケンスの各要素に3つのタイプのベクトルを作成することです:クエリ(q)、キー(k)、および値(v)ベクトル。これらのベクトルは、入力埋め込みに3つの異なる重みマトリックスを掛けることによって作成されます。
単語の入力シーケンスがあり、各単語がベクトルとして表されているとしましょう。これらの入力ベクトルに重量行列(W_Q)、(W_K)、および(W_V)を掛けて、それぞれクエリ、キー、および値ベクトルを取得します。
[Q = XW_Q]
[k = xw_k]
[v = xw_v]
ここで、(x)は入力埋め込みのマトリックスです。
2。注意スコアの計算
次に、注意スコアを計算します。これを行い、キーベクトルを使用してクエリベクトルのDOT製品を取得します。 DOT製品は、クエリとキーの類似性を測定します。
シーケンスの各クエリベクトル(Q_I)について、シーケンス内のすべてのキーベクトル(k_j)を使用して、注意スコア(A_ {i、j})を計算します。
[a_ {i、j} = q_i \ cdot k_j]
これらのスコアは、シーケンス内の(i)-th要素が(j)-th要素にどれだけ注意を払うべきかを教えてくれます。
3。スケーリングとソフトマックス
次に、注意スコアは、キーベクトル((\ sqrt {d_k}))の寸法の平方根で除算することにより拡張されます。このスケーリングは、DOT製品が大きくなりすぎないようにするのに役立ち、トレーニング中に勾配が不安定になる可能性があります。
[a_ {i、j}^{scaled} = \ frac {a_ {i、j}} {\ sqrt {d_k}}]
スケーリング後、SoftMax関数をスケーリングされたスコアに適用します。 SoftMax関数は、スコアを確率に変換するため、合計1まで。
[\ alpha_ {i、j} = \ frac {\ exp(a_ {i、j}^{scaled})} {\ sum_ {k = 1}^{n} \ exp(a_ {i、k}^{scaled})} \ exp(
ここで、(\ alpha_ {i、j})は注意の重量であり、(j)-th要素の重要性を(i)-th要素の重要性を表します。


4。値の加重合計
最後に、値ベクトルの加重合計を取ることにより、自己注意メカニズムの出力を計算します。各値ベクトル(V_J)に対応する注意重量(\ alpha_ {i、j})を掛け、すべて(j)に合計します。
[o_i = \ sum_ {j = 1}^{n} \ alpha_ {i、j} v_j]
出力ベクトル(O_I)は、入力シーケンスの各要素の自己注意メカニズムの出力です。
なぜ自己注意が重要なのですか?
自己注意メカニズムにはいくつかの利点があります。まず、モデルが入力シーケンスで長い範囲の依存関係をキャプチャできるようにします。再発性ニューラルネットワーク(RNNS)などの従来のニューラルネットワークアーキテクチャでは、シーケンスではるかに離れている要素間の依存関係をキャプチャすることは困難です。セルフの注意は、シーケンス内の2つの要素間の関係を直接計算できるため、このような長い範囲の依存関係を簡単に処理できます。
第二に、自己注意は並行可能です。入力シーケンスを順番に処理するRNNとは異なり、自己注意はシーケンス内のすべての要素を同時に処理できます。これにより、特に長いシーケンスの場合、トレーニングと推論がはるかに高速になります。
トランスと自己の注意のアプリケーション
自己注意メカニズムを備えたトランスは、幅広いアプリケーションで使用されています。 NLPでは、機械翻訳、テキスト生成、質問 - 応答システム、センチメント分析などのタスクに使用されます。たとえば、BertやGPTなどのモデルは、変圧器アーキテクチャに基づいています。
コンピュータービジョンでは、自己注意も適用されています。画像を分析し、オブジェクトを検出し、画像のキャプションを生成するために使用できます。
私たちの変圧器製品
トランスサプライヤーとして、私たちはさまざまな高品質の変圧器を提供しています。たとえば、167 kVa電柱トランス、屋外アプリケーションに適しており、信頼できる電源を提供できます。私たちのオイル浸漬低損失トランスエネルギーの損失を減らすように設計されており、長いサービス寿命があります。そして、あなたがドライトランスが必要な場合、私たち400 kVaドライトランス優れたパフォーマンスと安全性の機能を備えた素晴らしい選択です。
当社の製品に興味がある場合、またはトランスに関する質問がある場合は、購入交渉についてお気軽にお問い合わせください。私たちはあなたの力のニーズに最適なソリューションを提供するためにここにいます。
参照
- Vaswani、A.、Shazer、N.、Parmar、N.、Uszkoreit、J.、Jones、L.、Gomez、An、...&Polosukhin、I。(2017)。注意が必要です。神経情報処理システムの進歩。
- Devlin、J.、Chang、MW、Lee、K。、&Toutanova、K。(2018)。 BERT:言語理解のための深い双方向変圧器のトレーニング前。 arxiv preprint arxiv:1810.04805。
- Radford、A.、Wu、J.、Child、R.、Luan、D.、Amodei、D。、&Sutskever、I。(2019)。言語モデルは、教師のないマルチタスク学習者です。 Openaiブログ、1(8)、9。
