ビジョントランスフォーマーはコンピュータビジョンの分野に旋風を巻き起こしましたが、ビジョントランスフォーマーは何を学ぶのでしょうか?

ビジョントランスフォーマー (ViT) は、画像分類、セマンティックセグメンテーション、オブジェクト検出などのビジョンタスクで非常に人気のあるニューラルネットワークアーキテクチャの一種です。ビジョンとオリジナルのトランスフォーマーの主な違いは、テキストの離散トークンを画像パッチから抽出された連続ピクセル値に置き換えることでした。 ViTs は、画像のさまざまな領域に注目し、それらを組み合わせて予測を行うことにより、画像から特徴を抽出します。しかし、最近広く使用されているにもかかわらず、ViT が学習する傾向にある誘導バイアスや特徴についてはほとんど知られていません。特徴の視覚化と画像再構成は畳み込みニューラルネットワーク (CNN) の仕組みを理解することに成功していますが、これらの方法は視覚化が難しい ViT の理解にはそれほど成功していません。

メリーランド大学カレッジパーク校とニューヨーク大学の研究者グループによる最新の研究では、ViT の挙動と内部処理メカニズムに関する詳細な研究により、ViT の文献が拡大されています。著者らは、ViT モデルのニューロンを最大限に活性化する画像を合成するための視覚化フレームワークを確立しました。特に、この方法では、ランダムノイズから開始し、総変動にペナルティを課したり、オーグメンテーションアンサンブルを使用したりするなど、さまざまな正則化手法を適用して、生成された画像の品質を向上させることで、特徴のアクティベーションを最大化する勾配ステップを実行することが含まれていました。

分析の結果、ViT のパッチトークンは、CNN で広く使用されている平均的なプーリング操作と同様のトークン混合操作を学習する最後のアテンションブロックを除くすべてのレイヤーにわたって空間情報を保持していることがわかりました。著者らは、ネットワークの深い層にある個々のチャネルであっても、表現がローカルのままであることを観察しました。

このため、CLS トークンはネットワーク全体で比較的小さな役割を果たしているように見え、最後の層までグローバリゼーションには使用されません。著者らは、レイヤー 1 ～ 11 で CLS トークンを使用せずに画像に対して推論を実行し、レイヤー 12 で CLS トークンの値を挿入することでこの仮説を実証しました。結果として得られた ViT は、依然として、ImageNet 検証セットの代わりに、ImageNet 検証セットの 78.61% を正常に分類できました。オリジナル 84.20%。

したがって、CNN と ViT は両方とも特徴の漸進的な特殊化を示し、初期の層は色やエッジなどの基本的な画像特徴を認識し、より深い層はより複雑な構造を認識します。ただし、著者らによって発見された重要な違いは、背景および前景画像の特徴に対する ViT と CNN の依存性に関係しています。この研究では、ViT は画像内の背景情報を使用して正しいクラスを識別する点で CNN よりも大幅に優れており、背景の除去による影響が少ないことが観察されました。さらに、ViT 予測は、ResNet モデルと比較して、高周波テクスチャ情報の除去に対する耐性が高くなります (結果は論文の表 2 に示されています)。

最後に、この研究では、画像とテキストを結び付ける対照言語画像事前トレーニング (CLIP) フレームワークでトレーニングされた ViT モデルによって学習された表現も簡単に分析しています。興味深いことに、分類器として訓練された ViT とは異なり、CLIP で訓練された ViT は、明確に認識できる概念的カテゴリ内のオブジェクトによって活性化される、より深い層で特徴を生成することがわかりました。これは合理的ではありますが、驚くべきことであります。なぜなら、インターネット上で入手可能なテキストは、「疾病」などの抽象的で意味論的な概念のターゲットを提供しているからです (例を図 11 に示します)。

をチェックしてください紙そしてギットハブ。この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、忘れずに参加してください13,000 以上の ML SubReddit、Discordチャンネル、そしてメールニュースレターでは、最新の AI 研究ニュースやクールな AI プロジェクトなどを共有します。

Lorenzo Brigato は、ベルン大学付属の研究機関である ARTORG センターの博士研究員で、現在は健康と栄養への AI の応用に取り組んでいます。彼は博士号を取得しています。イタリア、ローマのサピエンツァ大学でコンピューターサイエンスの学位を取得。彼の博士号論文は、サンプルとラベルが欠如したデータ分布による画像分類の問題に焦点を当てていました。

紙のGithub。 13,000 以上の ML SubReddit Discord チャネルの電子メールニュースレター

ニュース

ビジョン トランスフォーマーはコンピュータ ビジョンの分野に旋風を巻き起こしましたが、ビジョン トランスフォーマーは何を学ぶのでしょうか?

ビジョントランスフォーマーはコンピュータビジョンの分野に旋風を巻き起こしましたが、ビジョントランスフォーマーは何を学ぶのでしょうか?