banner

ブログ

Oct 31, 2023

Microsoft と Bath U の SpectFormer は、頻度と注目度によってビジョン トランスフォーマーを大幅に改善します

新しい論文「SpectFormer: Frequency and tention Is What You Need in a Vision Transformer」では、Microsoft とバース大学の研究チームが、適切な特徴表現をより適切に捕捉するためにスペクトル層とマルチヘッドの注意層を組み合わせた新しいトランスフォーマー アーキテクチャである Spectformer を提案しています。そしてパフォーマンスを向上させます。

トランスフォーマー アーキテクチャ ベースの大規模言語モデルの画期的なパフォーマンスに続いて、ビジョン トランスフォーマー (ViT) が画像処理への強力なアプローチとして登場しました。 テキストベースの前任者と同様に、ViT は当初、入力画像から特徴をキャプチャするためにマルチヘッドのセルフ アテンション レイヤーに依存していましたが、より最近のアプローチでは、スペクトル レイヤーを使用して周波数領域で画像パッチを表現しています。 ViT は両方の方法を組み込んだアーキテクチャから恩恵を受けることができますか?

新しい論文「SpectFormer: Frequency and tention Is What You Need in a Vision Transformer」の中で、Microsoft とバース大学の研究チームは、適切な特徴表現をより適切に捕捉するために、スペクトル層とマルチヘッドの注意層を組み合わせた新しいトランスフォーマー アーキテクチャである SpectFormer を提案しています。 ViT パフォーマンスを向上させます。

チームは主な貢献を次のように要約しています。

チームはまず、スペクトルと多頭のアテンション レイヤーのさまざまな組み合わせが、アテンションまたはスペクトルのみのモデルと比較してどのように機能するかを調査し、フーリエ変換で実装された初期スペクトル レイヤーを提案した SpectFormer に装備し、続いて多頭のアテンション レイヤーを装備することが最も有望な結果を達成するという結論に達しました。 。

SpectFormer アーキテクチャには、パッチ埋め込み層、位置埋め込み層、一連のスペクトル層とその後に続くアテンション層で構成される変換ブロック、および分類ヘッドの 4 つの主要コンポーネントがあります。 SpectFormer パイプラインは、まず画像トークンをフーリエ領域 (スペクトル空間) に変換します。そこで、画像情報の周波数ベースの分析が実行され、関連する特徴がキャプチャされます。 次に、学習可能な重みパラメータを介してゲート技術を適用します。 そして最後に逆フーリエ変換を実行して、信号をスペクトル空間から物理空間に戻します。

実証研究でチームは、さまざまな物体検出および画像分類タスクに関して、SpectFormer を多頭自己注意ベースの DeIT、並列アーキテクチャ LiT、スペクトルベースの GFNet ViT と比較しました。 SpectFormer は実験のすべてのベースラインを上回り、ImageNet-1K データセットで最先端のトップ 1 精度 (85.7%) を達成しました。

コードと追加情報はプロジェクトの Web ページで入手できます。 論文「Spectformer: Frequency and tention Is What You Need in a Vision Transformer」は arXiv にあります。

著者: ヘカテ・ヘ |編集者:マイケル・サラゼン

ニュースや研究の画期的な成果を見逃したくないのはわかります。人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。

マシンインテリジェンス | テクノロジーと産業 | 情報と分析

素晴らしい投稿素晴らしい記事です! 提案された SpectFormer アーキテクチャは非常に有望に思えます。 パフォーマンスや計算効率の点で、Swin Transformer や ViT-L などの他の最先端モデルとどのように比較するかに興味があります。 SpectFormer はビジョン トランスフォーマーの新しいベンチマークになる可能性があると思いますか?Johnhttps://www.airiches.online/

読書がとても簡単でとても気に入っています。 新しい投稿が作成されるたびに通知を受け取る方法を知りたいです。

あなたのメールアドレスが公開されることはありません。 必須フィールドは、マークされています *

コメント *

名前

Eメール

Webサイト

フォローアップコメントを電子メールで通知します。

新しい投稿をメールで通知します。

D

著者 編集者 人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。
共有