banner

ブログ

Oct 05, 2023

メリーランド大学とニューヨーク大学の視覚的探求により、ビジョントランスフォーマーが何を学ぶのかが明らかになる

新しい論文「ビジョントランスフォーマーは何を学ぶのか?」 メリーランド大学とニューヨーク大学の研究チームである「A Visual Exploration」では、さまざまなビジョン トランスフォーマーによる大規模な特徴視覚化を使用して、画像から何を学習するのか、また畳み込みニューラル ネットワークとどのように異なるのかについて洞察を得ることができます。

2020 年の導入以来、ビジョン トランスフォーマー (ViT) は主要なコンピューター ビジョン アーキテクチャとなり、物体検出や画像認識からセマンティック セグメンテーションに至るまでのタスクで最先端のパフォーマンスを実現しています。 しかし、ViT の成功に貢献する内部メカニズム、つまり ViT が実際に画像から何をどのように学習するかを理解することは依然として困難です。

新しい論文「ビジョントランスフォーマーは何を学ぶのか?」 メリーランド大学とニューヨーク大学の研究チームである「A Visual Exploration」では、さまざまな ViT からの大規模な特徴視覚化を使用して、画像から何を学習するのか、また畳み込みニューラル ネットワーク (CNN) とどのように異なるのかについて洞察を得ることができます。

チームは主な貢献を次のように要約しています。

従来の視覚化手法と同様に、チームは勾配ステップを使用して、ランダム ノイズによる機能のアクティベーションを最大化します。 画質を向上させるために、彼らは全体の変動にペナルティを課し(Mahendran & Vedaldi、2015)、ジッター拡張(ying et al.、2020)、ColorShift拡張、および拡張アンサンブル(Ghiasi et al.、2021)技術を採用しています。

特定の視覚化された機能のコンテンツをより深く理解できるようにするために、チームは各視覚化を、関連する機能に関して最も強力なアクティベーション効果を持つ ImageNet 検証/トレーニング セットの画像と組み合わせます。 最もアクティブ化された画像を ViT ネットワーク経由で渡し、その結果得られる機能アクティブ化パターンを表示することで、機能のアクティブ化パターンをプロットします。

チームはまず、活性化されたニューロンを最大化することによって、キー、クエリ、値を含む、ViT のマルチヘッド アテンション レイヤーの機能を視覚化することを試みます。 次に、パッチごとの特徴活性化レベルの視覚化からパッチごとの空間情報の保存を研究し、驚くべきことに、すべてのパッチが他のすべてのパッチの表現に影響を与える可能性があるにもかかわらず、その表現は局所的なままであることを発見しました。 これは、ViT が空間情報を最初から学習して保存することを示しています。

また、チームは、この空間情報の保存が、平均プーリングと同様に機能するネットワークの最後のアテンション ブロックで放棄されていることも発見しました。 彼らは、クラス トークン (CLS) がイメージ全体にアクセスできるようにするために、ネットワークが最後の層で情報をグローバル化していると推測し、CLS トークンはネットワーク全体で比較的小さな役割を果たしており、この最後の層までグローバリゼーションには使用されないと結論付けています。 。

研究者らは実証研究で、ViTのフィードフォワード層の高次元内部投影は解釈可能な画像の生成に適しているが、自己注意のキー、クエリ、および価値の特徴は適していないことを発見した。 CNN と ViT を比較すると、チームは、ViT が背景情報をより適切に活用し、非常に優れた予測を行うことができることを観察しました。 言語モデルの監視でトレーニングされた ViT は、より優れた意味論的および概念的な特徴を取得することも示されています。

全体として、この研究では効果的で解釈可能な視覚化アプローチを採用し、ViT がどのように機能し、何を学ぶのかについて貴重な洞察を提供します。

コードはプロジェクトの GitHub で入手できます。 論文「ビジョントランスフォーマーは何を学ぶのか?」 Visual Exploration は arXiv にあります。

著者: ヘカテ・ヘ |編集者:マイケル・サラゼン

ニュースや研究の画期的な成果を見逃したくないのはわかります。人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。

マシンインテリジェンス | テクノロジーと産業 | 情報と分析

ピンバック: メリーランド大学とニューヨーク大学の視覚的探索により、ビジョン トランスフォーマーが何を学んだのかが明らかに | 同期済み -

ピンバック: ゲームの先を行く 2023 年のトップ ソーシャル メディア トレンド

ありがとう

要約すると、この研究は強力でわかりやすい視覚化戦略を使用して、ViT の内部の仕組みと ViT が得た教訓に光を当てています。

貴重な情報と洞察をありがとう。

あなたのメールアドレスが公開されることはありません。 必須フィールドは、マークされています *

コメント *

名前

Eメール

Webサイト

フォローアップコメントを電子メールで通知します。

新しい投稿をメールで通知します。

D

著者 編集者 人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。
共有