banner

ブログ

Nov 09, 2023

時間的脳波

Scientific Reports volume 12、記事番号: 14378 (2022) この記事を引用

4079 アクセス

1 引用

3 オルトメトリック

メトリクスの詳細

EEG 信号は簡単には盗まれないため、脳波 (EEG) の同一性認識に焦点を当てた研究が増えています。 EEG 個人識別に関する既存の研究のほとんどは、特定の反復的な感覚刺激に応じた単一状態の脳信号のみを扱っています。 しかし実際には、人間の状態は多様で急速に変化しているため、現実的な設定での実用性は制限されています。 多くの潜在的なソリューションの中で、transformer は広く使用されており、自然言語処理において優れたパフォーマンスを達成しています。これは、時間信号をモデル化するアテンション メカニズムの優れた能力を示しています。 この論文では、自己注意メカニズムを使用して時間領域と空間領域の特徴を抽出するEEG個人識別タスクのためのトランスフォーマーベースのアプローチを提案します。 我々は、提案された方法のさまざまな状態間での一般化能力を評価するために広範な研究を実施します。 私たちの方法は最先端のEEGバイオメトリクス技術と比較され、その結果は私たちの方法が最先端の結果に達していることを示しています。 特に、特徴を手動で抽出する必要はありません。

今日のグローバル化した情報世界では、個人情報のセキュリティが特に重要になっており1、より高度な新しい識別技術の必要性が生じています。 指紋、虹彩、顔認識 2、3、4 など、既存の識別技術が日常生活に広く応用され、高い精度を達成し、高い認識精度率を達成しているにもかかわらずです。 ただし、これらの生体認証の問題は、簡単に盗まれたり、不注意で公開されたりする可能性があることです。 これらのテクノロジーのセキュリティは事実上保証されていません。 前述の従来の生体認証と比較して、認知生体認証は、セキュリティ上の理由から、より多くの研究の関心を集めています。

生理学的または行動的特徴に依存する従来の生体認証とは異なり、認知生体認証は人間の脳の活動を測定し、人々がどのように「考える」かを分析する生体認証の一種です5。 人間の脳活動を測定する方法にはさまざまなものがあり、これらの方法は脳活動を反映するための異なる原理に基づいています。 機能的磁気共鳴画像法 (fMRI) は、ニューロンの活動によって引き起こされる血行力学的変化を示すことができるオキシヘモグロビンとデオキシヘモグロビンの濃度を測定しました。 陽電子放射断層撮影法 (PET) は、被験者の体内に放射性物質を注入することによって神経代謝を測定します。 近赤外分光法(NIRS)は、脳活動を反映する大脳皮質からの赤外光の反射強度によってオキシヘモグロビンとデオキシヘモグロビンの濃度を測定します。 脳磁図 (MEG) は脳電流によって生成される磁場を収集し、脳波検査 (EEG) は生成される電場を収集します。

識別タスクにはEEGを選択しました。 他の技術と比較して、EEG はポータブルで比較的安価なデバイスで取得できます 6,7。 特に、非侵襲的な脳とコンピューターのインターフェイス技術は、EEG 信号をキャプチャするためによく使用されます。これは、侵襲的なアプローチよりも安全で便利です。 正常な人間の脳波信号の振幅は 10 ~ 200 \(\upmu \)V の範囲ですが、周波数は通常 0.5 ~ 40 Hz の間で変化します。 時間分解能は高く、通常はミリ秒程度です5。 空間分解能に関しては、EEG では、取得デバイスのサイズ制限と、異なる脳領域間の電場の相互作用により、空間分解能が低いことがわかります。 しかし、個人差が個人識別の基礎であり、脳波も例外ではないことは注目に値します。 いくつかの研究 8,9 では、EEG 信号、特にアルファ波において強い個人差があることが実証されています 10。 この生体認証にはテストと再テストが必要であるため、一貫性も識別にとって重要な要素です。これは、特徴が時間や場所を超えて安定して不変であることを意味します11,12。 EEG 信号も非常に安全です。 個人識別には情報を収集するための専用の取得機器と増幅器が必要であるため、これは個人識別にとって特に重要です。 このような個人情報は、不用意に漏洩したり、リモートからアクセスされたりしてはなりません。 したがって、データセキュリティの観点からは、EEG ベースの識別は犯罪者による悪用がより困難であるため、信頼性が高くなります。 EEG は感情検出を通じて情報セキュリティを確保します。 脳波によって緊張が検出されると認証が失敗する可能性があるため、ユーザーの同意なしに本人確認を処理することはできません。 また、EEG 信号は脳が活動しているときにのみ生成される内部特性ではありますが、当然、活性を検出する機能を持っています 13。 最後になりますが、EEG 信号は普遍的なものであり、EEG 信号の生成を妨げる何らかの病理が脳に構造的損傷を引き起こさない限り、EEG 信号はすべての個人から取得できます。

要約すると、EEG 個人識別は応用に大きな期待を寄せています。 しかし、現在の研究のほとんどは単一状態での認識のみを研究しており、認識の精度と堅牢性を保証することはまだできていません。 そこで、私たちはアテンションの仕組みを応用して識別タスクのネットワークを構築し、大きな進歩を遂げました。 この論文の主な貢献を以下に説明します。

我々は、トランスエンコーダベースのニューラルネットワークモデルETST、EEG時間空間変換器を提案します。これは、時間領域と空間領域の個人差に関するEEG信号の情報をうまく抽出し、クロスステートの場合でも識別の精度を保証できます。 。

広範な実験が実施され、その結果、私たちのモデルがすべての最先端のモデルよりも優れていることが示されました。 私たちは、個人識別タスクにおけるEEG信号の時間的および空間的情報の役割を調査します。 さらに、EEG 変換器に対する異なる位置エンコーディングの影響が調査されます。

トランスフォーマーベースのモデルに対するサンプル長の影響を調査し、パフォーマンスを向上させるデータ拡張手法を導入します。 この方法では、サンプル間の重複率を時間内に増加させることでサンプル サイズを増加させ、最終的にこの戦略では 1 ~ 3% の改善が観察されます。

現在の脳波ベースの生体認証システムは、大きく 2 つのアプローチに分かれています。 1 つは、最初に区別可能な特徴を抽出してから分類に従来の機械学習手法を利用することであり、もう 1 つは、特徴抽出と分類の両方を達成するエンドツーエンドの深層学習アプローチを採用することです。 コングら。 課題関連 EEG は、バックグラウンド EEG (BEEG) と残留 EEG (REEG) の 2 つの部分に分解できると仮定します。 BEEG には個人の特有の特徴が含まれているのに対し、REEG は課題誘発脳波とノイズで構成されています。 Kong は、低ランク行列分解 (LRDM) に基づく識別アルゴリズムを利用して EEG 信号を分解し、次に最大相関基準 (MCC) アルゴリズムを使用して分類を達成しました 14。 王ら。 脳の機能的接続性は個人の特異性を反映していると主張した。 彼らは、脳波信号のメトリクスを特徴ベクトルとして計算することで脳波信号の接続性を計算し、マハラノビス距離に基づく判別モデルを使用して個人識別を実施しました15。 モクテズマら。 EEG 信号を一連の固有モード関数 (IMF) に分解するために経験的モード分解 (EMD) を採用し、続いて最も近い 2 つの IMF を選択して 4 つの特徴に分解しました。 このようにして、各チャネルは 8 つの特徴を返します。 最終的に、彼らは分類子として動径基底関数 (RBF) を備えたサポート ベクター マシン (SVM) を採用しました16。 Alyasseri らは、SVM を分類子として使用することに加えて、 FPA\(\beta \)-hc は、特徴を抽出するためのバイナリ受粉アルゴリズム (FPA) と \(\beta \)-hill登頂に基づくハイブリッド最適化手法です17。 ユルドゥルムら。 は、個人の特異性に関する EEG 信号の深いレベルの特徴を抽出するために、複数のレイヤーを積み重ねた 1D CNN モデルを構築しました 18。 Wilaiprasitporn ら。 畳み込みニューラル ネットワーク (CNN) とリカレント ニューラル ネットワーク (RNN) を組み合わせることを試みました。CNN は空間特徴の抽出に使用され、RNN は時間特徴の抽出に使用されます 19。 オズデニズシら。 は、セッション不変および人物識別機能を学習できる、深い畳み込みネットワーク構造内で敵対的推論アプローチを試みました20。

現在、Transformer は自然言語処理 (NLP) とコンピューター ビジョン (CV) の両方の分野で良好な結果を示しています21、22、23。 Transformer は長距離の依存関係をモデル化でき、その並列計算特性により、RNN や長期短期記憶 (LSTM) と比較して計算速度が速くなります。 したがって、Transformer は NLP 分野で先導しており、研究者の関心を集めています。 ただし、Transformer が EEG 信号を処理する能力は学者によってまだ調査されていません。 アルジュンら。 画像上で優れたパフォーマンスを発揮する ViT を EEG 信号に直接移行しました。 1D の EEG 信号は時間次元で異なるパッチに分割され、ViT モデルへの入力として使用されました24。 リーら。 EEGNet とトランスフォーマーを組み合わせ、EEGNet ベースの畳み込みニューラル ネットワークを使用して時間-スペクトル-空間の特徴を取得します25。 タオら。 は、時系列上の脳波信号の情報を取得するために、GRU の自己注意メカニズムとゲートメカニズムを組み合わせたゲート トランスフォーマーを提案しました 26。 ソングら。 は、共通空間パターン (CSP) に基づいて EEG 信号の空間的特徴を抽出する方法と、それをデコードするセルフ アテンション アルゴリズムを提案しました。 この方法は最先端の効果を実現します27。 これらのアプローチは、自己注意メカニズムがブレイン コンピューター インターフェイス (BCI) システムのパフォーマンスを向上させることができることを示しています。 したがって、私たちは自己注意メカニズムに基づいてモデルを設計しました。

この論文では、注意メカニズム 21 に基づいた脳波個人識別モデルを提案します。その全体的な枠組み図を図 1 に示します。他のモデルとは異なり、私たちのアプローチは脳波信号の人為的特徴の追加の抽出を必要とせず、生の脳波信号のみを抽出します。 EEG 信号は識別タスクに使用されます。 EEG 信号は時間的に連続的であり、チャネル間で機能的に接続されていることを考慮して、時間的特徴と空間的特徴の両方を捕捉するようにモデルを設計します。 モデルは、時間トランスフォーマー エンコーダー (TTE) と空間トランスフォーマー エンコーダー (STE) を含む 2 つの主要な部分で構成されます。 TTE 部分では、時間領域のアテンション メカニズムを使用して、サンプル内のサンプリング ポイント間の相関を計算します。これは、EEG の時間領域の特徴を抽出するために使用されます。 個人間のチャネルの結合関係には個人の特異性があるため、チャネルの空間ドメイン アテンションを計算して、異なるチャネル信号間の結合関係を捕捉するように STE 部分を設計します。これにより、モデルが異なる個人をより安定して識別できるようになります。特定のカップリング関係。 最後に、単純な全結合層を適用して、グローバル情報を集約し、分類を実行します。 以下では、生の EEG の前処理と ETST モデルのコンポーネントについて詳しく説明します。

ETST モデルのアーキテクチャ。

ETST にデータを入力する前に、まず生の EEG を処理しました。 元の EEG 信号は、[0.5 42] Hz バンドパス フィルターを使用してフィルター処理され、低周波ノイズと高周波ノイズが除去されます。 独立成分分析 (ICA) を使用して、眼球および筋肉のアーチファクトを除去します。 各サンプルのサイズは T \(\times \) C です。ここで、T はサンプリング ポイントの数、C は EEG チャネルの数です。 各サンプルについて、次の Z スコア標準化が各チャネルに対して時間の経過とともに採用されます。

ここで、 \(x_{t,c}\) の t , c はサンプルのサンプリング点とチャネルを表し、 \({\overline{x}}_{c}\) はチャネル c のサンプルの平均を表します。 \(\sigma _{c}\) はチャネル c のサンプルの標準偏差を示します。 標準化後、サンプルの各チャネルのデータの平均は 0、標準偏差は 1 になります。

時間相関、つまり 2 つの時点間の相関を使用して、EEG 信号の時間領域情報を取得します。 注意メカニズム 21 にヒントを得て、複数のトランスフォーマー ブロックを使用して EEG の時間情報をエンコードします。 TTE は、ローカル情報に焦点を当てた畳み込みの代わりに、時間の長距離依存性を考慮します。 畳み込み 28,29 や訓練可能な線形投影 24 などの複雑な変換を使用する代わりに、前処理された EEG データを変換器に直接入力します。 与えられた入力 \(X=[x^{1},x^{2},\ldots ,x^{T}]\in {\mathbb {R}}^{T\times C}\) に対して、 Transformer ブロックで自己注意を計算して時間相関を推定し、合計に重みを付けて新しい表現を取得します。 自己注意力は次のように計算されます。

ここで、Q、K、および V はすべて、入力の線形投影によって取得された行列であり、\(d_{k}\) はスカラー係数です。 異なる位置にある異なる表現部分空間からの情報に共同で注意を払うために、入力にマルチヘッド アテンション メカニズム 21 を採用します。 各トランスフォーマー エンコーダーには、マルチヘッド アテンション (MHA) とマルチレイヤー パーセプトロン (MLP) の 2 つの部分が含まれています。 各部分は、トレーニングの速度とモデルの堅牢性を向上させるために、残差接続 30 と層正規化 (LN) 31 を採用しています。 図 2 は、上記の計算プロセスを示しています。 TTE 部分は次のように表現できます。

(左) トランスエンコーダーのアーキテクチャ。 (右) マルチヘッド アテンション。

EEG 信号のチャネルは頭皮上の電極の位置を表し、異なるチャネル間の依存関係を考慮することで、異なる脳領域間の機能的接続を計算できます。 TTE と同様に、STE でもアテンション メカニズムを使用して、さまざまなチャネル間の空間情報をモデル化しました。 空間的な位置情報を保存するために、空間ドメインの位置エンコーディングを入力に追加し、その結果を STE に供給しました。

ここで、 tran() は転置演算を表し、 \(E_{pos}\in {\mathbb {R}}^{C\times T}\) は位置エンコーディングを表します。 この論文では、固定位置での三角関数の形式で位置エンコーディングを使用します。 \(z^{s}_{0}\) は空間的な位置情報を付加した表現を表します。 STE では、TTE と同様の構造を使用して、EEG のさまざまなチャネルの空間情報を学習します。 プロセス方程式は次のように表されます。

トランスエンコーダ層の出力である TTE および STE は、時間領域と空間領域の両方の特徴を含むより適切な表現を生成します。 ETST は、TTE のさまざまなサンプリング ポイントでの EEG データの時間領域情報を学習します。 続く STE では、ETST がチャネル間の空間情報を学習します。 次に、分類表現にグローバル情報を融合するために、層が 1 つだけの単純な全結合層を使用して、クロスエントロピー損失関数を使用して最適化された最終的な分類出力を取得します。

ここで、N はバッチ サイズの数を示し、C はカテゴリの数を示します。 \(y^{c}_{n}\) は真のワンホットラベル、\({\hat{y}}^{c}_{n}\) は対応するカテゴリの予測確率です。

この論文には、著者らによって行われた人間または動物の参加者を対象とした研究は含まれていません。

PhysioNet32 によって提供される EEG データセットでメソッドを検証します。 このデータセットは、BCI2000 システム 33 を使用して記録され、109 人の被験者から得られた 1,500 を超える 1 分間および 2 分間の EEG 記録で構成されています。 サンプリング周波数は160Hzであった。 これらの脳波データは、10-10 システムに準拠した 64 個の電極を使用して記録されました。 被験者は、EEG信号がシステムによって記録されている間、運動/イメージタスクを行うように依頼されました。 各被験者は、2 回の 1 分間のベースライン実行と 12 回の 2 分間のタスク実行を含む 14 回の実験実行を完了しました。 ベースライン実行では、被験者がそれぞれ目を開けた状態 (EO) と目を閉じた状態 (EC) に保ったまま、EEG 信号が記録されました。 タスクの実行では、被験者は、対応する物理的動作を実際に完了する(PHY)、またはターゲットがコンピュータ上に現れたときに対応する動作を完了することを想像する(IMA)こと、ターゲットが消えたときに休むなど、4つの運動/イメージタスクを完了するように求められました。 タスク 1 は、ターゲットがコンピュータ画面の左側または右側にあるときに、対応する拳を開いて握り締めることです。 タスク 2 は、ターゲットがコンピューター画面の左側または右側にあるときに、対応する拳を開いて握り締めることを想像することです。 タスク 3 は、コンピューターの上部または下部にターゲットが現れたら、両拳を開いて握り締めます。 タスク 4 は、コンピューターの上部または下部にターゲットが現れたときに、両拳を開いて握り締める様子を想像することです。 各タスクは 3 回繰り返され、合計 12 回のタスクが実行されます。 私たちの実験では、データセット内のすべての被験者を使用します。 各チャンネルの 50% オーバーラップを持つ 1 秒ウィンドウを使用してサンプルを生成します。 したがって、標本の形状は 160 \(\times \) 64 となります。

EEG個人識別技術を現実的かつ実現可能にするためには、システムの安定性と堅牢性が保証できなければなりません。 これは、被験者が幸せか穏やかであるか、あるいは何かを考えているなど、さまざまな状態にある場合でも、モデルが脳波信号によって被験者を一貫して正確に識別できる必要があることも意味します。 私たちは、EEG バイオメトリクスに対する ETST の有効性と実用性を検証するために、いくつかの実験を実施しました。 Physionet データセットの EEG 信号には、EO、EC、PHY、および IMA の 4 つの状態が含まれています。 これら 4 つの異なる状態に基づいてさまざまな実験を設計し、さまざまなシナリオで ETST のパフォーマンスをテストしました。 私たちが行った実験については以下に説明します。

私たちのモデルを最先端のEEG識別法と比較し、さらにCNN、MLPなどの従来のニューラルネットワーク法、SVMなどの従来の機械学習法とも比較しました。 他の手法との比較実験では、3 つのサブ実験を設定しました。 1 つ目は単一の人間状態での訓練とテストであり、固定状態での脳波個人識別の場合に相当する EC、EO、IMA、PHY の 4 つの状態で訓練とテストを実施しました。 2 つ目は、ある状態でトレーニングし、別の状態でテストすることです。EC および EO データの下でトレーニングし、IMA および PHY の下でテストします。 このタイプのタスクは最も困難であり、1 つの EEG パラダイムの下でトレーニングして得られたモデルを他の EEG パラダイムに一般化できるかどうかをテストします。 3 つ目は、トレーニングとテスト用の EC、EO、IMA、および PHY データセットの混合です。 州内および多様な州の実験では、データセットをそれぞれトレーニング セットとテスト セットとして 4:1 にランダムに分割します。

アブレーション実験を実行して、モデルの各部分が結果に及ぼす影響を調査しました。 位置エンコーディングはモデルの重要なコンポーネントです。 EEG 信号には、時間領域と空間領域の両方の位置情報が含まれています。 Transformer は、入力種に位置エンコーディングを追加することで、モデルが位置情報を確実に保持するようにします。 時間領域の位置エンコーディングと空間領域の位置エンコーディングを追加した場合の人物識別への影響を個別に調査します。 空間的および時間的位置エンコーディングの比較に加えて、ETST のエンコーダー部分でアブレーション実験も実施しました。 各エンコーダ部分の役割を調査するために、TTE と STE をそれぞれ削除した場合の ETST のパフォーマンスを調査しました。

EEG 識別方法では、サンプルの最適なセグメンテーション長についてはまだ一致していません。 たとえば、Wang et al. が使用したセグメンテーションの長さは次のとおりです。 は 1s34 ですが、Thiago Schons らが使用したセグメンテーションの長さは 1s34 です。 は 12s35 であり、異なる方法のサンプル セグメンテーションの長さの間には大きなギャップがある可能性があります。 したがって、異なるサンプル分割長での ETST のパフォーマンスを調査するために、実験では異なる分割長でデータセットを分割しました。

異なるセグメンテーション長に加えて、サンプルの重複率も、結果として得られるサンプル サイズのサイズと、異なるサンプル間での情報の重複の程度に直接影響します。 Transformer の損失関数は CNN36 の損失関数よりも滑らかであるため、サンプル サイズが小さいと Transformer の収束がより困難になり、パフォーマンスが低下する可能性があります。 したがって、異なるサンプルオーバーラップ長を使用して実験を設計し、異なるサンプルサイズでトレーニングデータセットを取得して、モデルに対するサンプルサイズの影響を調査します。

このペーパーのすべての実験は、NVIDIA TITAN Xp GPU で実行されます。 モデルの TTE 層数、TTE 層のヘッド数、STE 層の数、および STE 層のヘッド数は、それぞれ 2、8、2、および 8 に設定されます。 ネットワークを最適化するために、学習率、重み減衰、バッチ サイズをそれぞれ 4e−5、1e−6、256 とした AdamW37 オプティマイザーを使用します。

現在、EEG ベースの個人識別アルゴリズムは、大きく 2 つのカテゴリに分類されます。 1 つは従来の機械学習アルゴリズムで、通常、パワー スペクトル密度 (PSD)、自己回帰係数 (AR)、ファジー エントロピー (FuzzEn) などの手動の特徴抽出が必要です。 もう 1 つのカテゴリは、CNN ベースまたは RNN ベースのニューラル ネットワーク モデルなどの深層学習アルゴリズムです。 さらに、グラフの概念は脳領域間の関係を表すためにグラフの特徴が使用される神経科学の機能的接続性とよく適合するため、グラフ畳み込みニューラル ネットワーク (GCNN) も脳波の分野で人気を集めています。 王ら。 グラフを構築するためにノード間のエッジ特徴として位相ロック値 (PLV) とピアソン相関 (COR) を計算し、最先端の結果を達成しました 34。 私たちは私たちの方法を他の先進的な方法と比較しました15。 また、CNN とアテンションを組み合わせた最近のトランスフォーマーベースのモデルの効果も調査しました 38,39。 したがって、前述の方法をベースラインとして使用し、モデルの結果と比較しました。

最初の実験では、同じ単一状態での ETST のパフォーマンスを調査しました。 前述のパフォーマンスを評価するために、単一状態のデータセットで ETST をトレーニングおよびテストしました。結果を表 1 に示します。実験結果は、データが同じ状態にある場合、提案した方法がすべての方法よりも優れていることを示しています。は GCNN よりわずかに低く、わずか 0.2% 低いだけです。

EEG 信号は、さまざまな状態で大きく変化する可能性があります。たとえば、デルタ波は注意力の向上 40 に関連し、アルファ波は作業パフォーマンス 41 などのさまざまな認知機能に関連し、ベータ波は動きや運動イメージに関連付けられます 42。 しかし、EEG バイオメトリクスを実生活で実用化するには、アルゴリズムが状態の変化に対して堅牢である必要があります。 言い換えれば、モデルはさまざまな状態でユーザーの ID を認識できる必要があります。 したがって、2 番目の実験では、さまざまなデータセットで ETST をトレーニングおよびテストすることにより、さまざまな状態における提案手法の一般化能力を評価します。 EO と EC データはトレーニング セットとして使用され、それぞれ PHY と IMA データでテストされました。 表 2 は、この実験の結果を示しています。これは、トレーニング セットとテスト セットが異なる状態にあることです。 結果は、ETST がさまざまな状態の条件において他の方法と比較して大幅な改善があることを示しています。 GCNN と比較すると、PHY で 10.3%、IMA で 10.27% の改善が見られます。 トレーニング セットとテスト セットの状態が異なる場合、すべてのメソッドはさまざまな程度でパフォーマンスの低下に見舞われ、GCNN は約 13%、SVM は約 40% 低下し、残りのメソッドの精度は 30% 未満に低下しました。 。 これは、他のモデルが同じ状態からの特徴の抽出に限定されており、異なる状態に対する汎化能力が弱いことを示しています。 対照的に、ETST モデルは約 3% しか減少していません。これは、ETST がさまざまな状態にわたって有効な特徴を抽出できることを示しています。

モデル自体の強力な汎化能力に加えて、さまざまな精神状態に対するモデルの堅牢性を強化するための別のアプローチは、トレーニング セットに複数の状態を含めて、すべての状態に共通する特徴を抽出することをモデルに学習させることです。 したがって、3 番目の実験では、EO、EC、PHY、IMA を含むすべての状態をトレーニング セットとテスト セットの両方に含めました。 表 3 に示すように、ETST は最良に近い結果を達成します。前の実験の結果と比較して、この実験の結果では精度の低下が少なく、SVM のみが 73% まで大幅に低下しています。 これは、トレーニング セットとテスト セットにすべての状態データが含まれている場合、さまざまなアルゴリズムが良好な結果を達成できることを示しています。 ただし、この強化方法は現実的なシナリオには適用できません。 人間の状態は複雑で変動しやすいため、すべての状態のデータをトレーニング セットに含めることは不可能です。 したがって、EEG に基づく個人識別問題を解決する鍵は、異なる状態間でのモデルの汎化能力を向上させることです。 そして私たちが提案するETSTは強力な一般化能力を持っています。

Transformer では、self-attention はすべての入力のアテンションの重みを同時に計算し、重みを合計して出力を取得します。 このプロセスにおいて、セルフアテンションはグローバル情報を考慮し、入力データの位置情報を破棄します。 EEG データの場合、信号には時間領域と空間領域の両方の位置情報が含まれており、それぞれ異なる時間サンプリング ポイントとさまざまな脳領域を表します。 EEG の位置情報が個人識別に及ぼす影響を調査するために、TTE 層と STE 層の入力に位置エンコーディングをそれぞれ追加することで、EEG の位置情報を保持することを試みました。 クロスステート データセットの下で、時間領域と空間領域で ETST に位置エンコーディングを追加した効果を比較しました。その結果を表 4 に示します。空間位置エンコーディングのみを追加した方が時間エンコーディングよりも良い結果が得られたことを示しています。位置エンコーディング。 このモデル設計では、モデルの最高のパフォーマンスも得られました (IMA で 97%、PHY で 97%)。 時間的位置エンコーディングと空間的位置エンコーディングの両方を追加すると、次に良い結果が得られました (IMA で 96%、PHY で 95%)。 空間情報を追加するとモデルのパフォーマンスが向上するが、時間情報を追加するとモデルのパフォーマンスが低下することがわかりました。 さらに、モデルのトレーニング プロセスを観察することで、時間領域で位置情報を追加することもトレーニング効率にある程度影響を及ぼし、モデルがより悪い最小値に収束する可能性が高くなり、悪い結果につながることがわかりました。 私たちは、時間領域での絶対位置エンコーディングが EEG 信号の変換不変性を壊すため、モデルが時間領域の特徴を抽出することがより困難になると考えています。 絶対空間位置エンコードでは、さまざまなチャネルの位置情報が保持されます。 隣接するサンプルの異なる位置に現れる可能性のある同じサンプリング ポイントとは異なり、サンプル内のチャネル位置は固定されています。 したがって、空間領域に絶対位置エンコーディングを含めることで、モデルの空間特徴抽出能力が向上する可能性があります。

ETST モデルには、時間領域と空間領域の特徴をそれぞれ抽出するための TTE 層と STE 層の 2 つの部分が含まれています。 実験結果における 2 つの異なる特徴の重要性を説明するために、モデルの各部分の必要性を反映するために、モデルの交差状態でアブレーション実験を実施しました。 表 5 に見られるように、TTE、STE、および TTE + STE モデルで結果を比較しました。 結果は、TTE 層のみを使用するか、STE 層のみを使用すると、どちらも精度が大幅に低下することを示しています。 さらに、結果は、TTE 層の分類精度が STE よりわずかに高いことを示しています (IMA では 75.19%、PHY では 72.98% に対し、IMA では 70.22%、PHY では 68.98%)。 したがって、個人識別には空間領域の情報よりも時間領域の情報の方が重要であることがわかります。 EEGの時間的および空間的情報を同時に取得するために、私たちのモデルはTTE層とSTE層で構成されており、これによりモデルのパフォーマンスが大幅に向上し、最先端の効果が得られます。

サンプルのセグメント化の長さは、以前の方法では異なります。 その結果、一部の方法はより短いサンプル セグメンテーション長でのみ機能する場合がありますが、他の方法はその逆の場合があります。 異なる分割長のサンプルを使用した同じ方法では、大きく異なる結果が得られる可能性があります。 私たちの方法のサンプル長の一般化可能性を説明するために、異なるセグメンテーション長のサンプルの下でモデルの分類精度を比較しました。 より長いサンプル長を使用すると、サンプル サイズが小さくなることに注意してください。 たとえば、5 秒のセグメンテーション長のサンプル サイズは、1 秒のサンプル サイズの約 5 分の 1 にすぎません。 図 3 から、長さ 1 秒のサンプルが同じオーバーラップ率で最良の結果を達成しています。 また、サンプル長が長くなるほど、分類精度が低下することがわかります。 Namuk Park et al.36 は、Transformer の場合、より滑らかな損失関数により、データセットのサイズが最終的なトレーニング結果に直接影響する、つまりサンプルが少ないと Transformer のパフォーマンスが低下すると述べました。

スライディング ウィンドウのオーバーラップ率を増やすことでサンプル数を増やそうとします。 サンプルのデータ拡張は 80% のオーバーラップ率を使用して実行され、結果がさまざまなトレーニング セット サイズで比較されます。 図 3 に見られるように、重複率を 80% に変更し、データセットのサンプル サイズを 2 倍に拡大すると、モデルの精度が向上しました。 5 秒の精度は 95.44% に上昇しますが、1 秒の精度と比較して約 2% わずかに低くなります。 これは、データのサンプル サイズが不十分であると、トランスフォーマー ベースのモデルのパフォーマンスが低下することを示唆しています。 一般に、サンプルの長さに関係なく、私たちのモデルは最先端の結果を達成します。

異なるセグメント長とオーバーラップでの ETST モデルの結果。

本稿では、注意メカニズムに基づく深層学習モデルであるETSTを提案します。 私たちは、多頭注意メカニズムを使用して、EEG 信号の時間的および空間的特徴を抽出しました。 モデル内の時間変換エンコーダーは、長距離の識別可能な表現を抽出することができ、空間変換エンコーダーは、脳領域間の機能的接続を特徴付けるチャネル間の空間依存性を取得することができます。 このようにして、数回の注意重み付けを通じて、モデルは真の分類ラベルに最も関連する特徴に焦点を当てることができます。 実験結果は、私たちの方法が個人識別に関して最先端の精度を達成していることを示しており、これは生体認証におけるEEGの実現可能性も検証しています。 このモデルはさまざまな状態に対しても堅牢です。 アブレーション実験の結果は、時間的特徴が EEG 生体認証の結果に比較的重大な影響を与えることを示しています。 また、空間内の絶対位置エンコーディングがモデルを強化することも示しています。 これは、特定のチャネルとチャネル間の相関関係の両方が個人識別に影響を与える可能性があることを示しています。 実験は、EEG データが長くなると、注意メカニズムのパフォーマンスがわずかに低下することを示しています。 さらに、EEG での Transformer のアプリケーションには、そのパフォーマンスを保証するために十分なデータが必要です。 したがって、今後の研究では脳波データのデータ引数方法を検討する必要がある。 さらに、時間の制限により、モデルのハイパーパラメーターの選択がまだ最適ではなく、それがモデルのパフォーマンスを次善に導きます。

安定性と一貫性の問題は、EEG バイオメトリクスを実際のアプリケーションに実装する際の 2 つの重要な問題であり、条件や時間に関係なくモデルがユーザーを正しく再識別できることを保証する必要があります。 これには、モデルが時間不変および状態不変の特徴を抽出できる必要があります。 今後の研究では、EEG 信号のより効果的な特徴抽出を実行するための新しいアプローチを探索していきます。 考えられる方法としては、安静状態では個人間のばらつきが大きい EEG 信号のアルファ帯域特徴をフィルタリングすることが含まれます。 冗長チャネルの影響を除去しながら、個人識別と強い相関を持つチャネルを選択します。 同時に、異なる日の脳波に基づく個人識別の実験はまだ行われていません。

この研究に使用されたデータセットは公開されており、PhysioNet データベース [https://physionet.org/content/eegmmidb/1.0.0/]32 でオンラインでアクセスできます。

Soomro, ZA、Shah, MH & Ahmed, J. 情報セキュリティ管理には、より総合的なアプローチが必要です: 文献レビュー。 内部。 J.Inf. 管理。 36、215–225 (2016)。

記事 Google Scholar

Cappelli, R.、Ferrara, M. & Maltoni, D. Minutia シリンダー コード: 指紋認識のための新しい表現および照合技術。 IEEEトランス。 パターンアナル。 マッハ。 知性。 32、2128–2141 (2010)。

記事 Google Scholar

Masek、L.ら。 生体認証のための人間の虹彩パターンの認識。 博士号論文、Citeseer (2003)。

ギヨーミン、M.、ファーベーク、J. & シュミット、C. それはあなたですか? 顔識別のためのメトリクス学習アプローチ。 2009 年、IEEE 12th International Conference on Computer Vision 498–505 (IEEE、2009)。

Campisi, P. & La Rocca, D. 生体認証ベースの自動ユーザー認識のための脳波。 IEEEトランス。 情報フォレンジックセキュリティ。 9、782–800 (2014)。

記事 Google Scholar

Tan, D. & Nijholt, A. 脳とコンピューターのインターフェイスと人間とコンピューターの相互作用。 Brain–Computer Interfaces (Tan, DS および Nijholt, A. 編) 3–19 (Springer、2010)。

Google Scholar の章

ミン、B.-K.、マルゼッリ、MJ、ユ、S.-S. 脳とコンピューターのインターフェースにおけるニューロイメージングに基づくアプローチ。 トレンドバイオテクノロジー。 28、552–560 (2010)。

記事 CAS Google Scholar

Berkhout, J. & Walter, DO 人間の脳波における時間的安定性と個人差: スペクトル値の分散の分析。 IEEEトランス。 バイオメッド。 工学 3、165–168 (1968)。

記事 Google Scholar

Vogel, F. 正常な人間の脳波 (EEG) の遺伝的基礎。 ヒト遺伝学 10、91–114 (1970)。

記事 CAS Google Scholar

Van Dis, H.、Corner, M.、Dapper, R.、Hanewald, G. & Kok, H. 静かに覚醒しているときの人間の脳波の個人差。 脳波計。 クリン。 神経生理学。 47、87–94 (1979)。

記事 Google Scholar

ヘンリー、CE 脳波の個人差とその不変性: I. 睡眠中。 J.Exp. サイコル。 29、117 (1941)。

記事 Google Scholar

ヘンリー、CE 脳波の個人差とその恒常性: II. 起きている間。 J.Exp. サイコル。 29、236 (1941)。

記事 Google Scholar

Ruiz-Blondet, MV、Jin, Z. & Laszlo, S. Cerebre: 非常に高精度のイベント関連の潜在的な生体認証識別のための新しい方法。 IEEEトランス。 情報フォレンジックセキュリティ。 11、1618–1629 (2016)。

記事 Google Scholar

Kong, X.、Kong, W.、Fan, Q.、Zhao, Q.、Cicchocki, A. 低ランク行列分解によるタスクに依存しない EEG 同定。 2018 年の IEEE 生物情報学および生物医学国際会議 (BIBM) 412–419 (IEEE、2018)。

Wang, M.、Hu, J. & Abbass, HA Brainprint: 脳接続グラフの分析に基づく EEG 生体認証識別。 パターン認識。 105、107381 (2020)。

記事 Google Scholar

Moctezuma, LA & Molinas, M. EEG ベースの対象者識別システムにおける EEG チャネル選択と正確な侵入者検出のための多目的最適化。 科学。 議員 10、1–12 (2020)。

記事 Google Scholar

Alyasseri、ZAA、Khader、AT、Al-Betar、MA、Alomari、OA ハイブリッド花受粉アルゴリズムによる EEG チャネル選択を使用した個人識別。 パターン認識。 105、107393 (2020)。

記事 Google Scholar

Yıldırım, Ö.、Baloglu, UB & Acharya, UR 異常な EEG 信号を自動識別するためのディープ畳み込みニューラル ネットワーク モデル。 ニューラルコンピューティング。 応用 32、15857–15868 (2020)。

記事 Google Scholar

Wilaiprasitporn、T. et al. 深層学習アプローチを使用した、感情 EEG ベースの個人識別。 IEEEトランス。 認識します。 開発者システム。 12、486–496 (2019)。

記事 Google Scholar

Özdenizci, O.、Wang, Y.、Koike-Akino, T.、Erdoğmuş, D. EEG バイオメトリクスにおける敵対的深層学習。 IEEE 信号プロセス。 レット。 26、710–714 (2019)。

記事 ADS Google Scholar

Vaswani、A. et al. 必要なのは注意力だけです。 神経情報処理システムの進歩、vol. 30(2017)。

Dosovitskiy、A. et al. 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。 arXiv プレプリント arXiv:2010.11929 (2020)。

Liu、Z.ら。 Swin トランスフォーマー: シフトされたウィンドウを使用する階層型ビジョン トランスフォーマー。 コンピューター ビジョンに関する IEEE/CVF 国際会議議事録 10012–10022 (2021)。

Arjun, A.、Rajpoot, AS & Panicker, MR EEG 信号の注意メカニズムの紹介: ビジョン トランスフォーマーによる感情認識。 2021 年、IEEE Engineering in Medicine and Biology Society (EMBC) 5723–5726 (IEEE、2021) の第 43 回年次国際会議。

リー、Y.-E. & リー、S.-H. EEG-transformer: 想像上の音声の EEG をデコードするためのトランスフォーマー アーキテクチャからのセルフアテンション。 2022 年、ブレイン コンピューター インターフェイス (BCI) 1 ~ 4 に関する第 10 回国際冬季会議 (IEEE、2022 年)。

タオ、Y. 他人間の脳EEG信号をデコードするためのゲート付きトランス。 2021 年、IEEE Engineering in Medicine and Biology Society (EMBC) 125–130 (IEEE、2021) の第 43 回年次国際会議。

Song, Y.、Jia, X.、Yang, L. & Xie, L. EEG デコードのためのトランスフォーマー ベースの時空間特徴学習。 arXiv プレプリント arXiv:2106.11170 (2021)。

Kostas, D.、Aroca-Ouellette, S. & Rudzicz, F. Bendr: 変換器と対照的な自己教師あり学習タスクを使用して、大量の EEG データから学習します。 フロント。 ハム。 神経科学。 15、1–15 (2021)。

記事 Google Scholar

Bagchi, S. および Bathula, DR 単一試行 EEG ベースの視覚刺激分類のための EEG 変換変換器。 パターン認識。 129、108757 (2022)。

記事 Google Scholar

He, K.、Zhang, X.、Ren, S.、Sun, J. 画像認識のための深層残差学習。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録 770–778 (2016)。

Ba、JL、Kiros、JR & Hinton、GE レイヤーの正規化。 arXiv プレプリント arXiv:1607.06450 (2016)。

アラバマ州ゴールドバーガーら。 Physiobank、physiotoolkit、および physionet: 複雑な生理学的信号に関する新しい研究リソースのコンポーネント。 回覧 101、e215–e220 (2000)。

CAS PubMed Google Scholar

Schalk, G.、McFarland, DJ、Hinterberger, T.、Birbaumer, N. & Wolpaw, JR BCI 2000: 汎用のブレイン コンピューター インターフェイス (BCI) システム。 IEEEトランス。 バイオメッド。 工学 51、1034–1043 (2004)。

記事 Google Scholar

Wang, M.、El-Fiqi, H.、Hu, J. & Abbass, HA 多様な人間の状態における EEG ベースの個人識別に動的機能接続を使用した畳み込みニューラル ネットワーク。 IEEEトランス。 情報フォレンジックセキュリティ。 14、3259–3272 (2019)。

記事 Google Scholar

Schons, T.、Moreira, GJ、Silva, PH、Coelho, VN & Luz, EJ EEG ベースの生体認証用の畳み込みネットワーク。 パターン認識に関するイベロアメリカ会議、601–608 (Springer、2017)。

Park, N. & Kim, S. ビジョントランスフォーマーはどのように機能しますか? arXiv プレプリント arXiv:2202.06709 (2022)。

Loshchilov, I. & Hutter, F. 分離された重み減衰正則化。 arXiv プレプリント arXiv:1711.05101 (2017)。

Wu、Z.、Liu、Z.、Lin、J.、Lin、Y.、Han、S. 長短距離注意のライトトランス。 arXiv プレプリント arXiv:2004.11886 (2020)。

Wang, Y. et al. 残差畳み込みによる注意の進化。 機械学習に関する国際会議 10971–10980 (PMLR、2021)。

ハーモニー、T.ら。 EEG デルタ活動: 精神的なタスクの実行中の内部処理への注意の指標。 内部。 J.精神生理学。 24、161–171 (1996)。

記事 CAS Google Scholar

Jann, K.、Koenig, T.、Dierks, T.、Boesch, C. & Federspiel, A. 個々の安静状態の EEG アルファ周波数と脳血流の関連。 ニューロイメージ 51、365–372 (2010)。

記事 Google Scholar

McFarland、DJ、Miner、LA、Vaughan、TM & Wolpaw、JR Mu、およびモーターイメージと実際の動き中のベータリズムトポグラフィー。 ブレイントポグル。 12、177–186 (2000)。

記事 CAS Google Scholar

リファレンスをダウンロードする

Yang Du、Yongling Xu、Xiaoan Wang の著者も同様に貢献しました。

ビッグ データ センター、南方医科大学、南方医科大学、広州、510515、中国

ヤン・ドゥ、リー・リウ、ペンチェン・マー

Brainup Research Lab、Naolu Technology Co., Ltd.、北京、100124、中国

Yongling Xu & Xiaoan Wang

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

YD と YX は手法を提案し、実験を行い、原稿を執筆しました。 XW、LL、PM は実験について指導し、原稿をレビューしました。

Xiaoan Wang、Li Liu、Pengcheng Ma への対応。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Du, Y.、Xu, Y.、Wang, X. 他個人識別のためのEEG時間空間変換器。 Sci Rep 12、14378 (2022)。 https://doi.org/10.1038/s41598-022-18502-3

引用をダウンロード

受信日: 2022 年 4 月 11 日

受理日: 2022 年 8 月 12 日

公開日: 2022 年 8 月 23 日

DOI: https://doi.org/10.1038/s41598-022-18502-3

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有