banner

ニュース

Oct 25, 2023

再構成可能な音声認識用の Hopf 物理リザーバー コンピューター

Scientific Reports volume 13、記事番号: 8719 (2023) この記事を引用

271 アクセス

3 オルトメトリック

メトリクスの詳細

ホップ発振器は、リミット サイクル動作を示す非線形発振器です。 このリザーバー コンピューターは発振器の振動特性を利用しているため、再構成可能な音声認識タスクの理想的な候補となります。 この論文では、音声認識を実行するホップ貯水池コンピュータの機能を系統的に実証します。 この研究は、ホップリザーバーコンピューターが従来のアプローチ (メルスペクトル + 機械学習アプローチなど) と比較して優れた音声認識精度を提供できることを示しています。 さらに重要なことは、音声認識システムとして動作するホップ リザーバー コンピューターは、音声の前処理を必要とせず、セットアップが非常に簡単でありながら、高度な再構成可能性を備えていることです。 これらの機能により、低電力エッジ デバイスでの音声認識に物理リザーバー コンピューティングを適用する道が開かれます。

特に音声認識では、音声信号を分類する方法が広く普及しています 1,2。 ただし、機械学習には、モノのインターネット (IoT) での広範な普及を妨げるいくつかの欠点があります3。 まず、機械学習、特にディープ ニューラル ネットワーク (DNN) は、モデルのトレーニングと推論の両方で大規模な計算を実行するためにクラウド インフラストラクチャに依存しています。 GPT-3 などの最先端 (SOTA) 深層学習モデルには、1,750 億を超えるパラメーターと 3.14 \(\times\) \(10^{23}\) FLOPS (浮動演算) のトレーニング要件を含めることができます。毎秒)4,5。 SOTA 音声転写モデル Whisper のトレーニングでは、1 人が 77 年間継続的に話し続けるのと同じ数の単語を含む単語ライブラリを使用しました6。 これらの技術要件はいずれも、IoT のエッジ デバイスでは満たすことができません。 したがって、DNN タスクにはクラウド インフラストラクチャが不可欠です。 第 2 に、機械学習をクラウド コンピューティングに依存すると、セキュリティとプライバシーに大きなリスクが生じます。 これまでのセキュリティ侵害の 60% 以上は、機械学習のためのクラウドとエッジ間の生データ通信中に発生しました7。 さらに、侵害ごとに平均 424 万ドルの損失が発生しており、この額は増加し続けています8。 プライバシーへの懸念は、スマート デバイス ユーザーの間で不信感を引き起こし、スマート デバイスの放棄を促進します9,10。 第三に、クラウド インフラストラクチャを介して DNN を実装する場合の環境への影響は見落とされがちですが、無視することはできません。 2 億 1,300 万のパラメータを使用して変圧器モデルをトレーニングすると、米国メーカーの車両の全寿命にわたって 4 倍に相当する二酸化炭素排出量が発生します11。 したがって、次世代のスマート IoT デバイスには、エッジで機械学習やディープラーニングを実行するのに十分な計算能力が必要です。

機械学習をエッジデバイスに導入する取り組みの中で、リザーバーコンピューティング、特に物理リザーバーコンピューティングは、過去 20 年間にわたって初期の成功を収めてきました。 研究者らは、液体状態マシンとエコー状態ネットワークの概念に基づいて、水の入ったバケツの表面に音によって引き起こされる波紋を使用して音声信号認識を実行できることを実証しました12。 簡単に言うと、リザーバー コンピューティングは、物理システムの固有の非線形性を利用して、ニューラル ネットワーク内のノード接続のプロセスを複製し、機械認識のための時系列信号から特徴を抽出します。 リザーバー コンピューティングは、物理システムを使用してアナログ方式で計算を直接実行するため、個別のデータ ストレージ、編成、機械学習の認識の必要性が大幅に排除されます。 特に、リザーバー コンピューティングは、時系列信号のサブセットであるオーディオ処理タスクに自然に適しています。

研究者たちは、時間信号処理のためのリザーバーコンピューターとして動作する多くの物理システムを探索してきました。 これらのシステムには、フィールド プログラマブル ゲート アレイ (FPGA)15、化学反応 16、メモリスタ 17、超常磁性トンネル接合 18、スピントロニクス 19、特殊媒体内でのレーザーの波長の減衰 20、MEMS (微小電気機械システム)21、その他 13、22 が含まれます。 これらの研究は、リザーバー コンピューティングがオーディオ信号処理を処理できることを実証しましたが、コンピューティングのための物理システムは通常非常に扱いにくく 20、それらはすべてメル スペクトルなどの方法を使用して元のオーディオ クリップを前処理する必要があり、これにより、コンピューティングを削減する利点が大幅に無効になります。リザーバーコンピューティングによる機械学習の計算要件。 さらに重要なことは、計算能力を向上させるために、従来のリザーバー コンピューティング技術は、デジタルからアナログへの変換によって実現される時間遅延フィードバックを使用しており 23、時間遅延フィードバックはリザーバー コンピューティングの処理速度を妨げると同時に、コンピューティングのエネルギー消費の範囲を大幅に増加させます。 。 我々は、物理リザーバーコンピューティングの満足のいく性能とは言えない主な原因は、これまでの研究で選択されたコンピューティングシステムの計算能力が不十分であることを示唆しています。

最近、多くの物理プロセスの一般的なモデルであるホップ発振器が、機械学習を実行するのに十分な計算能力を備えていることがわかりました。 これは非常に単純な物理システムですが、追加のデータ処理、時間遅延フィードバック、または補助的な電気コンポーネントを必要とせずにコンピューティングを実現できます24、25、26、27。 興味深いことに、ニューラルネットワークの非線形活性化は物理リザーバによって捕捉される場合もあり、これにより物理リザーバコンピュータのアーキテクチャ(例えば、形状記憶合金アクチュエータ物理リザーバコンピュータ28)をさらに簡素化することができる。 ホップ発振器リザーバ コンピュータの一連のベンチマーク タスク (論理タスク、時系列信号のエミュレーション、予測タスクなど) におけるパフォーマンスは、はるかに複雑な物理リザーバと比較して例外的です。

この論文は、音声信号認識タスクに対するホップ リザーバー コンピューターの優れた機能をさらに実証するために、以前の研究を拡張したものです。 ホップ発振器は非線形フィルターとして機能しますが、計算タスクの一部はホップ物理リザーバー コンピューターにオフロードされます。 私たちの以前の研究に基づいて、ホップ発振器は計算を実行し、動的状態で情報を保存します24、25。 基本的に、発振器の非線形応答は非伝統的なコンピューティングの一種であり、機械学習によって解き明かされます。 さらに、遅延線を介して追加のメモリが導入されていないため、発振器の動的状態は一種のローカル メモリとして機能します。 ホップ発振器に関するこの以前の研究では、単一の読み出し層が一連のタスクを実行するようにトレーニングされました。 ここでは、音声認識などのより困難なタスクのために、単一の読み出し層が比較的浅いニューラル ネットワークに置き換えられます。 これらの結果は、このタイプのリザーバーコンピューターをエッジコンピューティングに使用することの有効性を示しており、これにより近い将来、エッジ人工知能と分散型ディープラーニングを取得する道が開かれる可能性があります。

強制ホップ発振器は式 1 で表されます。 (1)27,29:

上の方程式では、x と y はそれぞれホップ発振器の 1 番目と 2 番目の状態を指します。 \(\omega _0\) 項は、ホップ発振器の共振周波数です。 \(\mu\) パラメーターは、リミット サイクル モーションの半径に影響します。 たとえば、外部強制がなければ、ホップ発振器は半径 \(\mu\) のリミット サイクルを持ち、 \(\omega _0\) の周波数で発振します。 このパラメータは、発振器の品質係数とも緩やかに相関します。 A は正弦波力の振幅です。

発振器がオーディオ信号を分類するために、オーディオ信号を含む外部強制信号 a(t) が構築されます。これは式 1 に示されています。 (2); これはホップ発振器への入力として使用されます。 リザーバとしての修正されたホップ発振器は、式 1 と 2 で表されます。 (3) および (4):

外部信号 f(t) は、DC オフセットとオーディオ信号 a(t) で構成されます。 DC オフセットにより、半径パラメータが負でないことが保証されます。 この外部信号は、半径パラメータ \(\mu\) と正弦波 \(A\sin (\Omega t)\) の両方に注入されます。 Hopf オシレーターはオーディオ信号に動的に応答し、x 状態は機械学習オーディオ分類タスクのオーディオ特徴に対応します。 y 状態は、分類タスク (図 1 に示すように) では明示的に使用されませんが、情報を保存し、計算タスクを支援する可能性があります。 ホップ発振器リザーバー コンピューターの元の形式とは異なり、時系列信号予測に 2 つの状態出力を直接使用するのではなく、ホップ発振を使用して分類用のオーディオ特徴を抽出します24。 そのため、ホップ発振器リザーバー コンピューターの計算方式にいくつかの変更が加えられています。 まず、このリザーバーの定式化には、マスキング関数が含まれていないため、入力とマスキング関数を乗算する一般的な手順が含まれていません。 従来のリザーバー コンピューティングでは、リザーバー出力を乗算するプリセット マスクを使用して、リザーバー システム内にニューロンを作成します。 マスクのトレーニングは、デジタル的に実現されたニューラル ネットワークをトレーニングする際のパラメーターを更新することに相当します。 ただし、マスクの長さはオーディオ クリップの長さと信号分類に必要なノード接続をカバーするのに十分である必要があるため、この方法はメモリが高価であり、オーディオ信号処理には非効率的です。 マスクをトレーニングする代わりに、より効率的な多層畳み込みニューラル ネットワーク読み出しを使用して、リザーバー出力を直接フィードフォワードし、各層間の接続をパラメータとしてトレーニングします。 第 2 に、オーディオ信号には既にバックグラウンド ノイズが含まれているため、ガウス ノイズはオーディオ信号に乗算されません。 このノイズ マスクは、その堅牢性を強調するために、以前のホップ貯水池のコンピューター研究で使用されました 24。 第三に、機械学習読み出しのトレーニングをガイドするために擬似周期を使用する代わりに、分類のために収集されたサンプルの数を使用して、リザーバー処理 1D オーディオ データから生成された収集された各特徴点内のノード接続を制御します。 N 個の仮想ノードは、元のオーディオのサンプリング ポイントごとに、リザーバーが分類のためにリザーバー状態ごとに \(N-1\) 個のノード接続を 1D で生成することを意味します。 たとえば、N 個の仮想ノードがある場合、サンプリングされた音声データ ポイントは物理ノード (つまり、図 1 の x) によって \(N-1\) 回処理され、1 つの音声サンプルから N 個の特徴点が作成され、\(N -1\) これらの N 個の特徴点の節点接続。 今回の論文では、音声処理のために N を 100 に設定しました。 この方法は、オーディオ信号のサンプリング速度を妨げます。 したがって、比較的短い時間内で実験を行えるように、元のフル解像度のオーディオ データをリサンプリングします。 各分類イベントのオーディオ クリップの長さは、時間遅延フィードバック ループを介してリザーバー コンピューティングの従来のコンテキストで擬似周期を効果的に構築することに注目する価値があります (つまり、固定長のオーディオは、次のような 1 つの分類結果を生成します)詳細は後述します)。 ホップ貯水池コンピューターの最終的なノード接続と出力処理は、図 1 のように概念化できます。

リザーバーコンピューティング用のホップ発振器内のノード接続を示す概略図。 元の信号 f(t) は、発振器の 2 つの状態 (つまり、2 つの物理ノード) に送信されます。 各物理ノードは時系列に N 個の仮想ノードを生成します。 デジタル読み出し層 (つまり、機械学習アルゴリズム) は、発振器のノード x から n 個のサンプルを読み取ります (この論文では、音声分類に 1 つのノードのみを使用することに注意してください)。 \(n_0\) は元のオーディオ信号のサンプル数に対応し、N は読み出しメカニズムによって制御される仮想ノードの数を指します。 リザーバーからの信号は、青い破線の矢印で示されるニューラル ネットワークに送信されます。 このニューラル ネットワークについては、図 12 で説明します。デジタル読み出しにより、1 つのオーディオ クリップに対応する n 個のサンプルがそのクラスに分類されます。

ここでは、ホップ リザーバ コンピューターを使用して特徴マップを計算します。いくつかの代表的な例を図 2 に示します。「VN#」は仮想ノード番号を指し、もう一方の軸の時間スケールはステップ サイズが次のように定義されます。サンプリングレートの逆数。 特徴マップの値は 0 から 1 に再スケーリングされます。図 12 に示す、連続した畳み込み層、それに続く平坦化層と全結合層は、リザーバーからのオーディオ信号出力を処理するための機械学習の読み出しを構築します。詳細については「方法」セクションで説明します。 同様のアプローチがエッジデバイス上の SOTA 都市音認識にも適用されていることに注意してください30。ただし、特徴抽出をリザーバーコンピューターにオフロードすることで、計算コストのかかるメルスペクトログラムの前処理を排除しています。 さらに重要なのは、私たちのアプローチでは、オーディオ信号の粒度をキャプチャするために、メル スペクトログラムを適用する代わりに、非常に粗いサンプリング (ここでは 4000 Hz を使用) を使用できることです。 ホップ貯水池コンピューターからの優れた特徴抽出を実証するために、次のセクションで詳細な比較が提供されます。

さまざまなオーディオ イベントに対応するホップ オシレーターによって生成されたサンプル機能マップ。 各オーディオ クリップの長さは 1 秒で、4000 Hz でサンプリングされます。 X 軸は仮想ノードの算術順序に従い、Y 軸は時間です。 リザーバにはテスト用に 100 個のノードが含まれるように設定されています。 各ピクセルのグレースケール値 (0 から 1) は、各データ ポイント (オーディオ信号の特徴点) の信号強度に対応します。 (a) エアコン。 (b) 車のクラクション。 (c) 遊んでいる子供たち。 (d) 犬が吠える。 (e) 穴あけ。 (f) エンジンのアイドリング。 (g) 銃声。 (h) 削岩機。 (i) サイレン。 (j) ストリートミュージック。

まず、都市音認識タスクに対するホップ貯水池コンピューターの結果を示します。 図 3 の左列に示すように、メル スペクトル操作からのオーディオ特徴 (サンプリング レート 44.1 kHz のオーディオ クリップで計算) は、3 つの例の間で大きな違いを示しています。 上の例を基準として使用すると、基準と他の 2 つの例の間の点ごとの平均ユークリッド距離は 25 よりも大きくなります。比較して、Hopf RC からのオーディオ特徴を図 3 の右の列に示します。 3 つの例はすべて、これら 3 つの例に対してはるかに高い類似性を持っています (たとえば、ユークリッド距離 < 12)。 クラス間のサンプルの平均ユークリッド距離は次のとおりです。

ここで、c(x, y) は、時間 x および仮想ノード番号 y におけるホップ リザーバー コンピューターの振幅です。 ここで、i はクラス I に対してインデックスが付けられ、j はクラス J に対してインデックスが付けられ、\(\alpha\) は x のすべての値に対してインデックスが付けられ、\(\beta\) は y のすべての値に対してインデックスが付けられます。 平均ユークリッド距離を図 4 に示します。対角線には各列と行の最小値があり、ニューラル ネットワークがなくてもホップ発振器がクラスを分離できることを示しています。

都市音認識タスクに関して、Mel スペクトルが Hopf RC と比較されます。 上から下に、siren クラスの 3 つの例が示されています。 左の列には、メルスペクトルのエネルギーが表示されます。横軸は時間、縦軸は周波数です。 メル スペクトル操作は、44.1 kHz のサンプリング レートで 4 秒の長さのサンプルに対して実行されます。 周波数帯域の総数は 100 に設定され、時間ステップは 0.025 秒に設定されます。 右側の列は、同じサンプルのホップ リザーバー コンピューターから抽出されたオーディオ特徴です。各 1 秒のオーディオ クリップが 4000 Hz にダウンサンプリングされ、仮想ノードの数が 100 に設定されています。特に、Mel の結果とホップリザーバーの結果は互いに似ていないように見えますが、各プロセスによって伝達される情報は内部的に一貫しており、これは分類器のパフォーマンスによって強調されます。

平均ユークリッド距離は、10 の都市音クラスのこの対称行列に表示されます。 平均ユークリッド距離は、単一クラス内のすべてのサンプル間 (対角要素)、および 2 つのクラスのすべてのサンプル間 (非対角要素) で計算されました。

音声分類の堅牢性は、現実世界のアプリケーションにとっても非常に重要です。 これを強調するために、メル スペクトルの結果を 3 つの異なるノイズ レベルに対するホップ RC の結果と比較します。 図 3 の一番上の行の例を使用すると、元の信号にホワイト ノイズが追加されて、さまざまな信号対雑音比 (SNR) が作成されます。 これら 3 つの新しい信号のオーディオ特徴は、メル スペクトル (44.1 kHz オーディオ サンプリング レートを使用) とホップ リザーバー コンピューター (4000 Hz オーディオ サンプリング レートを使用) を使用して計算されます。 出力オーディオ特徴を図 5 に示します。SNR が 20 に低下すると、メルスペクトルベースのオーディオ特徴は低周波情報を失いますが、ホップリザーバーコンピューターによって生成された特徴は、ホップリザーバーコンピューターと同様の構造を維持していることが明確に示されています。 SNR 20 のユークリッド距離 < 5 のオリジナルのオーディオ対応物。

Hopf RC オーディオ抽出の堅牢性は、さまざまな信号対雑音比 (SNR) のメル スペクトルと比較されます。 視覚化するために、図 3 の上部に示されているサイレンの例が、さまざまなレベルの騒音とともに使用されています。 上から下まで、3 つの異なる量のノイズが元のサイレン音声の例に追加されました。 左の列には、メルスペクトルのエネルギーが表示されます。 SNR が 20 に低下すると、結果は低周波情報を失い始めることに注意してください。右側の列には、Hopf RC を使用して抽出されたオーディオ特徴が表示されます。 SNR が 20 に等しい場合でも、結果はすべてのノイズ レベルでほぼ同じままであることに注意してください。

都市音認識タスクの混同行列を図 6 に示します。ホップ貯水池コンピューターに基づいて提案された音声認識アプローチの精度は 96.2% です。 これにより、30 と比較して精度が 10% 向上し、高サンプリング レートの読み出しとメル スペクトル計算の FLOPS (1 秒あたりの浮動演算) が 94% 以上削減され、\(\sim {90\%}\) が削減されます。トレーニング用のオーディオ作品。

都市部の音認識タスクでは、10 個の異なる音声イベントについてラベル付けされた認識精度を使用して混同行列が表示されます。 この図のクラス ラベルは図 2 のクラス ラベルと同じであることに注意してください。

前のテスト ケース (都市音認識タスク) でトレーニングされた機械学習モデルをベースラインとして使用し、クアルコム音声コマンド データセットをテストして、ホップ レザバー コンピューター音声認識システムの再構成可能性を実証します。 この実験では、意図的にエポック数を 20 に減らし、機械学習モデルの CNN 部分をフリーズして、音声認識システムのプロセスを都市音検出タスクから音声コマンド タスクに再構成しました。 図 7 の左側には、4 つのクラスの代表的なオーディオ特徴が示されていますが、都市サウンド イベントの特徴 (図 2) と比較すると大きな違いがあります。 音声認識は、図 7 の右側に示されている混同行列により、99% を超える精度をもたらします。この実験用にトレーニングされたパラメーターの数は約 35,000 であり、これは 8 ビットの場合約 300 KB の動的メモリに相当することに注意してください。これは、Li-Po バッテリー レベルの電力を消費する低レベルのエッジ デバイスで機械学習読み出しのトレーニングを実行できる可能性を示しています。

Qualcomm 音声コマンド タスクのホップ リザーバー コンピューターの結果の概要。 左: ホップリザーバーコンピューターによって生成されたさまざまなウェイクワードの特徴マップの例。 右: クアルコムのウェイクワードを処理する提案された音声認識システムの混同行列。 各ラベルは、(a) 「こんにちは、Galaxy」、(b) 「こんにちは、Lumia」、(c) 「こんにちは、Snapdragon」、および (d) 「こんにちは、Android」に対応します。

音声認識数字データセットは、音声認識のためのホップリザーバーコンピューターのパフォーマンスを他のリザーバー (15、16、17、18、19、20、21、22 など) と比較するために使用されます。 図 8 に示すように、ホップ リザーバー コンピューターは、音声数字分類タスクに対して約 97% の精度をもたらします。 この結果は、1 つの物理デバイス (つまり、1 つの統合アナログ回路) と 2 つの物理ノード (x および y 状態) のみを使用しながら、このデータセットで最先端の認識精度を維持します。 比較として、最もパフォーマンスの高いリザーバー 17 は 10 個のメモリスタとオリジナルのオーディオ クリップの前処理を使用して、同様の精度を実現しました。 我々は、リザーバーの振動特性が、提案するサウンドイベント検出システムの簡素化に大きく貢献しており、正弦波信号を使用したリザーバーの活性化が、ホップ振動を使用したオーディオ信号の特徴抽出を促進することを示唆しています(詳細は後述)。

ホップリザーバーコンピュータが音声数字認識タスクを実行した結果の概要。 機械学習による読み出しの前に、元の活性化強度と逆双曲線正接を使用して音声数字データセットを処理する、提案された音声認識システムの混同行列。

さらに、機械学習の読み出しの前に、活性化信号 (式 1 の項 A) の強度を増加し、逆双曲線正接活性化 (式 6) を破棄します。 図9に示す得られた結果は、式(1)を使用した場合と比較して96%の精度を持っています。 (6) x 状態を機械学習の読み出しに送信する前。 これは、このホップ貯留コンピューターは、他の物理貯留コンピューターと同様に、デジタル読み取りによって再構成できることを示唆しています。 さらに、ホップ発振器の計算能力は、発振器の内部物理的条件を変更することによって大幅に強化することもできます。

ホップリザーバーコンピュータが音声数字認識タスクを実行した結果の概要。 機械学習による読み出しの前に、活性化強度を 10 倍に増加させ、逆双曲線正接を行わずに音声数字データセットを処理する、提案された音声認識システムの混同行列。

このホップ物理リザーバー コンピューター アーキテクチャは、音声認識などの実世界のエッジ コンピューティング アプリケーション用に提案されています。 音声認識は、クラウド上で実行されるディープ ニューラル ネットワークにとっては比較的単純なタスクですが、エッジ コンピューターにとっては計算能力が限られているため、困難なタスクになります。 提案されたアーキテクチャは、アナログ発振器をデジタル ニューラル ネットワークに接続することにより、アナログ デバイスとデジタル デバイスの両方の長所を効果的に利用します。 さらに、ホップ発振器は、市販の既製の電気部品から容易に製造することができる。

この文書で説明する Hopf 物理リザーバー コンピューター アーキテクチャには、他の同様の物理リザーバー コンピューターとはいくつかの明確な違いがあります。 最も顕著なのは、このホップ発振器が単純なリッジ回帰を使用するのではなく、ニューラル ネットワークと組み合わせられていることです。 ニューラル ネットワークの複雑性を高めることにより、Hopf 物理リザーバー コンピューターはより困難なタスクを実行できるようになります。 ニューラル ネットワークは単純なので、簡単に実装できます。 この論文で採用されているアーキテクチャでは、元の音声データの前処理を一切使用していないため、認識タスクの計算コストが大幅に削減されます。 代わりに、アクティベーション信号に従い、行列の再形成と逆正接によって特徴マップを構築します。 通常、この種のタスクにはメル スペクトルが使用され、計算負荷の半分以上を占める可能性があります 33。 ほとんどの非線形発振器ベースの物理リザーバー コンピューターは時間遅延フィードバックを使用する必要がありますが、これはデジタル - アナログおよびアナログ - デジタル コンバーターを必要とするため面倒です。 ただし、ホップ発振器は、これを回避するために十分な情報を動的状態に保存することができます24,25。 さらに、提示されたアーキテクチャは、ホップ発振器の非線形性によりノイズに対して堅牢であり、これは実際のオーディオ処理アプリケーションにとって重要です。

提案されたアーキテクチャには、いくつかの重要な利点があります。 まず、提案されたアプローチの計算負荷が大幅に軽減されます。 特徴マップの構築に関係する計算は、行列の再形成、正規化、および逆正接です。 これらの操作は、サンプリング レート 4,000 Hz のメル スペクトログラムと比較して、計算能力の約 10% しか消費しません。 計算負荷を見積もると、Cortex-M4 (Arm、カリフォルニア州サンノゼ) エッジ デバイスで同様の操作を行った場合、このアルゴリズムを実行する際の待ち時間はわずか約 5 ミリ秒であるという結論が得られます。 第二に、提案された方法はさまざまな機械学習モデルと組み合わせることができます。 この論文では機械学習の読み出しとして CNN を使用していますが、提案された方法から得られる特徴マップは、トランスフォーマー (34)、構造類似性インデックス (35)、フィードフォワード ニューラル ネットワーク (これらに限定されない) を含む一般的な画像処理方法で置き換えることができます。第三に、メル スペクトログラムと比較して、物理的に実装されたリミット サイクルは、ノイズと低音質の両方に対して堅牢な特徴を生成できます。 実験に使用された音声はダウンサンプリングされたバージョンであり、Mel + CNN アプローチで使用されるサンプリング レートの約半分でありながら、約 10% 高い音声認識精度を達成していることは注目に値します。 この堅牢性の一例として、追加のノイズを含むオーディオから生成された特徴マップ (図 5) は、信号対雑音比が非常に低い (< 20) 場合でも、その特有の特徴を保持しています。

この論文では、ホップ発振器からなるリザーバーコンピューティング技術を用いた音声信号認識の結果を紹介します24,25。 他の研究で一般的に使用されている計算コストのかかる前処理 (メルスペクトルなど) を使用する代わりに、Hopf 回路からの出力を直接取得して、機械学習認識用に正規化された音声信号を処理します。 私たちは、このホップ リザーバー コンピューティングをマイクに直接実装して、将来のセンサー上での処理を実現できると期待しています。

「結果」セクションでは、ホップ リザーバー コンピューティング アプローチが、エッジ デバイス 30 を使用した最先端の結果と比較して、多様な 10 クラスの都市音認識で 10% の精度向上をもたらすことを体系的に実証します。元の信号を正規化するだけの簡単な前処理。 ウェイク ワード認識では、MLP を再トレーニングするだけで正確な読み出し機械学習アルゴリズムを使用し、99% 以上の精度が得られます。 これは、ホップ リザーバー コンピューターにより、音声認識システムのエッジでの推論と再構成が可能になることを意味します。 さらに、他のリザーバー コンピューティング システム (15、16、17、22 など) と比較して、音声数字データセットは、複雑な前処理、複数の物理デバイス、またはマスク関数を使用する必要がなく、優れたパフォーマンスをもたらします。 さらに、より現実的なデータセット (つまり、10 クラスの都市音認識データセットと 4 クラスのウェイクワード データセット) に対してベンチマーク実験も実施しました。 ホップ発振器の起動信号強度を変更することでオーディオ信号処理のパフォーマンスが向上することを実証します。これは、他のリザーバー実装と比較して、物理リザーバー コンピューターの再構成の自由度が高いことを意味します。

最後に、FLOPS 演算とアナログ サンプリング レートに基づいて、デジタル読み出しを含む全体のエネルギー消費を 1 mW 未満に抑えるために、音声認識タスクのアルゴリズムとデータの前処理を慎重に作成しました。 機械学習モデルのトレーニングに 10 クラスのデータセットの 700 未満のサウンド クリップを使用する計算負荷は、家庭用電子機器が所有する計算リソースの範囲をはるかに下回っています。 そのため、ホップ リザーバー コンピューターを使用した音声認識デバイスは、追跡不可能な計算負荷の増加を伴うデバイスと簡単に統合できる可能性があります。

音声信号の認識では 3 つの要素が重要な役割を果たします。 リミット サイクル システムは、時間領域で正弦波形式の発振信号を作成し、入力オーディオ信号と継続的に畳み込みます。 この畳み込みはフーリエ変換を彷彿とさせ、ホップ発振器は音声認識用の固有のパターンを生成します (図 2 など)。 興味深いことに、このプロセスは、ニューロンが知覚できる音声信号の特徴を抽出する蝸牛のプロセスをほぼ再現しています。 ホップ振動子の時間方向の非線形振動は、DNN のニューロン接続に対応するリザーバー コンピューターのノード接続を作成します。 さらに、ホップ発振器の非線形性により、ブロードバンド方式でオーディオのさまざまな特徴を持つ信号に対して異なる応答が生じ、その結果、特徴がきれいに分離されます (図 2 および 7a)。 39人は、蝸牛とその直接接続されたニューロンが、以前の音声信号を活性化として使用してリミットサイクルシステムを作成し、音声信号特徴抽出を実行する際の蝸牛のパフォーマンスを動的に強化することを実証しました。 内耳の物理モデルは、リミット サイクル発振をアクティブにするために、前の時点からの信号を使用する時間遅延フィードバック ループを備えたホップ発振器としてモデル化できます。 音声信号の認識は実際には脳ではなく内耳で行われます。 この研究の将来の興味深い拡張は、膜上の音声認識が可能な人工耳を作成するために、さまざまな活性化信号を探索することです。 一方、ホップ発振器の 2 つの状態は時間遅延を伴って相互に影響し、時系列信号処理に不可欠なメモリ効果が強化されます。

この論文で実証されたホップ リザーバ コンピューターの独自の利点は、センサー ネットワークの未使用の計算能力を活用する次世代のスマート IoT デバイスへの道を開きます。 具体的には、リザーバーコンピューティングを支える物理メカニズムは、慎重に作成された起動信号によってマイク膜でも発生します38。 将来のマイクロフォンは、専用の処理装置ではなくセンサー機構を使用して音声信号認識を直接操作することが想像できます。 さらに、図2に示すように、音声信号の特徴マップは、視覚信号処理に一般的に使用される畳み込みニューラルネットワークによって認識される固有のパターンで構成されています。 現在の研究の拡張として、オーディオ信号の特徴マップ、視覚信号の特徴マップ、および他のタイプの時系列データの特徴の相関関係を調査します。 そのため、リザーバー コンピューティングは、センサー フュージョン、オーディオ ビデオ信号の組み合わせ、分散型機械学習など、スマート IoT パラダイムにおけるマルチモーダル機械学習のバックボーンとして使用できる可能性があります。 「結果」セクションで説明した機械学習操作と明確な特徴分離に必要な非常に少量のトレーニング データは、驚くほど満足のいく結果を提供する可能性があります。これは、無制限のサイズのデータ​​セット (ソフト ユーザー識別など) を持たない多くのユース ケースにとって不可欠です。 )またはノイズの多い環境(異なる信号の混合など)。 一例を図 10 に示します。混合信号処理におけるホップ リザーバ コンピュータの概念実証を実証するために、複数の異なる音声信号 (車のクラクション、ドリル音、サイレンなど) で構成される 8 秒の長さの音声信号が使用されています。 オーディオ クリップの最初の 4 秒には、車のクラクションとドリルの音だけが含まれています。 最後の 4 秒間は、より大きな振幅でサイレン音が追加されます。 図に示すように、ホップ リザーバー コンピューターから生成された音声特徴は、データの後半で明らかに支配的なクラスを持ち、同じホップ リザーバー コンピューター (ユークリッド距離が 8 未満)。 私たちは、コンピューター ビジョン アプリケーションに由来するパターン マッチング アルゴリズムが、この種のオーディオ イベントの分離と処理に採用される可能性があると予想しています。

都市音認識タスクから生成された音声特徴を使用した耐ノイズ性テスト。 この 8 秒のクリップの最初の 4 秒間では、ドリルの音と車のクラクション音が混合され、最後の 4 秒には高振幅 (他の 2 つのオーディオ クラスと比較して 2 倍の大きさ) のサイレン音が混合データに追加されます。 。 図に示すように、後半 4 秒間の音声特徴は、基準サイレン音と比較して高い類似性を示しています。

この畳み込みニューラル ネットワークの実装には、30 によって提案されたものと同じ機械学習アプローチが採用されています。 同じ都市音認識タスクを使用することで、物理的貯水池コンピューターおよび通常適用されるスペクトログラム技術から抽出された特徴を直接比較することができます。 この論文で採用されている物理リザーバー コンピューティング アーキテクチャは、同じ機械学習の読み出しを使用しますが、計算コストのかかる音声の前処理を行わずに、30 と比較して 10% の精度向上を達成しました。 モノのインターネットの現実的なアプリケーションでは、この機械学習手法は、Syntiant ND101 などの専用ニューラル プロセッサを使用して適用できます。 この特定のチップは約 60,000 個のニューラル コアを展開でき、論文で使用されている機械学習モデルの要件 (\(\sim\)40,000 個のニューラル コア) をはるかに上回っています。 別のアプローチとして、リザーバー コンピューターから生成された特徴をさらに設計して、音声認識用のデータ量を圧縮し、モデルを低レベルのエッジ プロセッサーに展開できるようにすることもできます。

現在の形式のホップ発振器を使用するリザーバー計算方法にはまだ限界があります。 まず、高精度のサウンド イベント認識には、機械認識のためのさまざまな特徴を生成するために多くの仮想ノードが必要です。 ただし、仮想ノードを増やすと、高品質のオーディオ データを読み取るためのサンプリング レートが指数関数的に増加します。 私たちは、認識および録音のために元の信号からオーディオ特徴を分離するソリューションを積極的に模索しています。これにより、必要なサンプリング レートが低下する可能性があります。 第 2 に、現在の回路ベースの物理リザーバは、信号のミキシングと回路のアクティブ化のプロセスを分離します。 将来のシステム導入に備えて信号の読み取りを簡素化するには、回路を再設計する必要があります。 ただし、MEMS を使用したホップ リザーバーの最終バージョンでは、コンピューティングが音声感知メカニズムで行われるため、この問題は解決されます。 最後に、信号処理は依然としてデジタル読み出しに依存しています。 アルゴリズムは非常に単純ですが、マイクロコントローラー ユニットが必要です。 短期的なソリューションは、最適化された機械学習モデルをファームウェアとしてデプロイすることになると予想しています (最適化なしで消費する静的メモリのサイズは 1 MB 未満、アップグレードされた機械学習モデルのトレーニングには 256 KB 未満の動的メモリを消費します)。 将来の目標は、音声認識用のスパイク信号 (ニューロンと同様) を検出できるアナログ回路を使用して、エッジ デバイス上で完全なアナログ コンピューターを実現することです40。

Hopf物理リザーバコンピュータは、24によって提案された独自の回路設計によって実現されています。 図 11 の回路図に従って、回路は TL082 オペアンプと AD633 乗算器を使用して実装されます。 入力オーディオ信号はまず \(-1\) から \(+1\) の範囲に正規化され、MATLAB で正弦波強制信号と混合され、その後 National Instrument (NI) cDAQ によって回路に送信されます。 9174 データ I/O モジュール。 ホップ発振器の x および y 状態と呼ばれる回路からの出力は、後の機械学習処理のために同じ NI cDAQ-9174 によって \(10^5\) サンプル/秒のサンプリング レートで収集されます。

ホップリザーバーコンピューターの簡略化された回路図。

音声認識実験では 3 つのデータセットが使用されます。 これらは都市音認識、クアルコム音声コマンド、音声数字で構成されます。 都市音認識データセットは、ニューヨーク市で録音された高品質の都市音クリップである 10 クラスの 873 個のオーディオ クリップで構成されています41。 各オーディオ クリップの長さは 4 秒で、サンプリング レートは少なくとも 44.1 kHz です。 一般に入手可能なデータセットと比較すると、サンプル数が非常に少ないです。

オーディオ処理のためのホップ リザーバー コンピューターの再構成可能性を実証するために、Qualcomm 音声コマンド データセットも使用されます。 このデータセットは、各クリップが 1 秒続く 4,270 個のオーディオ クリップで構成されています。これらは、さまざまな話速とアクセントを持つ話者から収集された 4 つのウェイク ワードです42。 データセットから、実験には 1000 個のクリップを使用します。 前の都市音認識のケースと比較すると、処理アルゴリズムの唯一の違いは、機械学習の読み出しの出力部分 (つまり、畳み込み層の後) の再トレーニングです (詳細については、方法論セクションと結果セクションの後半で説明します)紙の)。 提案されているホップ貯留層を他の貯留層と比較するために、貯留層コンピューティングの標準ベンチマーク テストとして機能する音声数字認識の実験も実施します。 音声数字データセットは、5 人の異なる話者によって話される 3,000 個のオーディオ クリップで構成されます43。 Qualcomm 音声コマンド データセットと同様に、実験用のオーディオ クリップの総数は 1000 のみに設定されています。

処理速度を高めるため、各オーディオ クリップを 4000 Hz のサンプリング レートでリサンプリングし、データを \(-1\) から \(+1\) の範囲に正規化してからアナログ回路に送信します。 回路からの出力の 80% は機械学習モデルのトレーニングに使用され、残りの 20% はテストに使用されます。

図 1 には、Hopf 物理リザーバー コンピューターのノード接続が示されています。 Hopf 回路からは 1D データ ストリームのみを収集しますが、データ ストリームは入力信号と、信号のサンプリング速度によって定義される仮想ノードからの応答の両方で構成されます44。 私たちは、仮想ノードによって信号を配置および操作するというこの原則に従います。 回路リザーバからの出力は、まず逆双曲線正接関数 24,45 を使用してアクティブ化されます。

続いて、活性化された出力は、機械知覚のための特徴マップとして仮想ノードの順序によって再配置される。 都市音の 10 の異なるクラスで構成される特徴マップ レンダリングのサンプルを図 2 に示します。ホップ リザーバー コンピューターは、「ホップ発振器とリザーバー」セクションで説明されているようにこの特徴マップを生成し、ニューラル ネットワークへの入力として使用されます。図 12 に示されています。事実上、ホップ貯留コンピュータは、計算コストのかかるメル スペクトルのコストを軽減しています。 Swish アクティベーション 46 は、まばらなニューロンのアクティベーション (つまり、死んだニューロンの問題) の処理における機械学習モデルのパフォーマンスと、音声データを処理する機械学習モデルの全体的な精度を向上させるために採用されています。 スキップされた接続 (残差ネットワークの生成) を使用する機械学習ソフトウェアの将来のバージョン 47 では、大規模なデータセットに対するソフトウェアの堅牢性がさらに向上する予定であることに注意してください。 出力の 1 秒ごとのクリップは、機械学習処理のために 200 (時間サンプル数) \(\times\) 100 (仮想ノード数) にさらにスキップサンプリングされます (図 12 のラベルを参照)。 機械学習アルゴリズムは、TensorFlow バックエンドを備えた Keras48 を使用して実装されています。 トレーニングは Nvidia RTX 2080Ti GPU で実行され、デフォルトの学習率 0.00149 の Adam オプティマイザーを使用します。 損失関数はクロスエントロピー 50 です。 トレーニング中のバッチ サイズは 5 です。 エポックは都市音認識データセットの場合は 100、Qualcomm 音声コマンド データセットの場合は 20、音声数字の場合は 100 です。

ホップ リザーバー コンピューターを使用したオーディオ イベントの分類のための畳み込みニューラル ネットワーク ベースの機械学習の読み出しを示す概略図。 図中の水色のボックスは、各機械学習操作から生成された特徴マップに対応します。 矢印はさまざまな機械学習操作です。 水色のボックスの上の数字は特徴マップの深さ、下の数字はそれぞれ特徴マップの長さと幅です。 サイズ (2,2) の最大プーリングも、2 つの連続した畳み込み後に操作され、特徴マップの次元が削減されます。 長さと幅については、機械学習操作後に変更される寸法のみにラベルを付けることに注意してください。

現在の研究中に使用および分析されたデータセットは、合理的な要求に応じて責任著者から入手できます。

リー、W.ら。 生体信号センサーと深層学習ベースの音声認識: レビュー。 センサー 21(4)、1399 (2021)。

論文 ADS PubMed PubMed Central Google Scholar

Karmakar, P.、Teng, SW & Lu, G. ご注目いただきありがとうございます: 自動音声認識のための注意ベースの人工ニューラル ネットワークに関する調査。 arXiv プレプリント arXiv:2102.07259 (2021)。

フィリョ、CP et al. エッジ コンピューティングにおける分散機械学習に関する体系的な文献レビュー。 センサー 22(7)、2665 (2022)。

論文 ADS PubMed PubMed Central Google Scholar

Li, C. Openai の gpt-3 言語モデル: 技術概要。 ブログ投稿 (2020)。

パターソン、D.ら。 機械学習トレーニングによる二酸化炭素排出量は頭打ちになり、その後縮小します。 コンピュータ 55(7)、18 ~ 28 (2022)。

記事 Google Scholar

Radford, A.、Kim, JW、Xu, T.、Brockman, G.、McLeavey, C. & Sutskever, I. 大規模な弱い監視による堅牢な音声認識。 https://cdn.openai.com/papers/whisper.pdf (2021)。 2022 年 9 月 28 日にアクセス。

アドベルサ。 安全で信頼できる AI への道。 https://adversa.ai/report-secure-and-trusted-ai/ (2021)。 2022 年 9 月 28 日にアクセス。

IBMのセキュリティ。 2022 年のデータ侵害のコスト。 https://www.ibm.com/reports/data-breach (2022)。 2022 年 9 月 28 日にアクセス。

Garg, R. オープンデータのプライバシーとセキュリティ ポリシーの問題、およびモノのインターネットの採用に対するその影響。 最初の月曜日 (2018 年)。

ディープ、S. et al. モノのインターネットにおけるセキュリティとプライバシーの問題を階層的なコンテキストから調査。 トランス。 出現。 テレコミュニケーション。 テクノロジー。 33(6)、e3935 (2022)。

Google スカラー

Hao, K. 単一の AI モデルをトレーニングすると、その生涯で車 5 台分もの二酸化炭素を排出する可能性があります (2019 年)。 https://www.technologyreview.com/2019/06/06/239031 (2019)。 2022 年 9 月 28 日にアクセス。

Fernando, C. & Sojakka, S. バケツ内のパターン認識。 欧州人工生命会議 588–597 (Springer、2003)。

田中G.ら物理リザーバー コンピューティングの最近の進歩: レビュー。 ニューラルネットワーク。 115、100–123 (2019)。

論文 PubMed Google Scholar

Shougat, MR、Li, X.、Mollik, T.、Perkins, E. ダフィングオシレーターアレイリザーバーコンピューターの情報理論的研究。 J.Comput. 非線形Dyn. 16(8)、081004 (2021)。

記事 Google Scholar

モラン、A.ら。 エッジ インテリジェンス アプリケーション向けのハードウェア最適化リザーバー コンピューティング システム。 認知。 Comput.https://doi.org/10.1007/s12559-020-09798-2 (2021)。

記事 Google Scholar

宇佐美 祐他スルホン化ポリアニリンネットワークにおける物質内リザーバーコンピューティング。 上級メーター。 33(48)、2102688 (2021)。

記事 CAS Google Scholar

ムーン、J. 他メモリスタベースの貯留層コンピューティング システムを使用した時間データの分類と予測。 ナット。 電子。 2(10)、480–487 (2019)。

記事 Google Scholar

ミズラヒ、A.ら。 超常磁性基底関数の集団を使用したニューラルのようなコンピューティング。 ナット。 共通。 9(1)、1–11 (2018)。

記事 ADS CAS Google Scholar

グロリエ、J. et al. ニューロモーフィックスピントロニクス。 ナット。 電子。 3(7)、360–370 (2020)。

記事 Google Scholar

ラージラー、L. et al。 時間遅延ベースのアーキテクチャを使用した高速フォトニック リザーバ コンピューティング: 1 秒あたり 100 万ワードの分類。 物理学。 Rev. X 7(1)、011015 (2017)。

Google スカラー

Barazani, B.、Dion, G.、Morissette, J.-F.、Beaudoin, L. & Sylvestre, J. 微細加工神経加速度計: センシングとリザーバー コンピューティングをメモリに統合。 J.マイクロエレクトロメック. システム。 29(3)、338–347 (2020)。

記事 Google Scholar

Kan, S. 他材料の非線形応答を利用した単純なリザーバー コンピューティング: 理論と物理的実装。 物理学。 Rev.Appl. 15(2)、024030 (2021)。

記事 ADS CAS Google Scholar

控訴人、L.ら。 単一の動的ノードを複雑なシステムとして利用した情報処理。 ナット。 共通。 2(1)、1–6 (2011)。

記事 Google Scholar

Shougat、MREU、Li、XF、Mollik、T. & Perkins、E. Hopf 物理リザーバー コンピューター。 科学。 議員 11(1)、1–13 (2021)。

記事 ADS Google Scholar

Shougat、MREU、Li、XF、Perkins、E. ホップ発振器を使用したリザーバー コンピューティングへの動的効果。 物理学。 Rev. E 105(4)、044212 (2022)。

論文 ADS MathSciNet CAS PubMed Google Scholar

リー、XFら。 ホップ適応周波数発振器に対する確率的影響。 J.Appl. 物理学。 129(22)、224901 (2021)。

記事 ADS CAS Google Scholar

リー、XFら。 4 状態適応ホップ発振器。 PLoS ONE 16(3)、e0249131 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Shougat, MR、Kennedy, S. & Perkins, E. 自己感知型形状記憶合金アクチュエーター物理リザーバー コンピューター。 IEEE Sens. Lett.https://doi.org/10.1109/LSENS.2023.3270704 (2023)。

記事 Google Scholar

Nayfeh、AH および Balachandran、B. 応用非線形力学: 分析、計算、実験方法 (John Wiley & Sons、ホーボーケン、2008)。

数学 Google Scholar

Yun, J.、Srivastava, S.、Roy, ​​D.、Stohs, N.、Mydlarz, C.、Salman, M.、Steers, B.、Bello, JP & Arora, A. インフラストラクチャフリーのディープラーニング都市型都市100mWでのノイズモニタリング。 CoRR (2022)。

Gao, Y.、Liu, Y.、Zhang, H.、Li, Z.、Zhu, Y.、Lin, H. & Yang, M. 深層学習モデルの GPU メモリ消費量の推定。 ヨーロッパ ソフトウェア エンジニアリング会議およびソフトウェア エンジニアリングの基礎に関するシンポジウムに関する第 28 回 ACM 合同会議議事録 (1342 ~ 1352 年) (2020)。

Lin, J.、Zhu, L.、Chen, WM、Wang, WC、Gan, C.、Han, S. 256kb メモリでのオンデバイス トレーニング。 arXiv プレプリント arXiv:2206.15472 (2022)。

Rajaby, E. & Sayedi, SM スパース高速フーリエ変換アルゴリズムの構造化されたレビュー。 桁。 信号プロセス。 123、103403 (2022)。

記事 Google Scholar

Dosovitskiy, A.、Beyer, L.、Kolesnikov, A.、Weissenborn, D.、Zhai, X.、Unterthiner, T.、Dehghani, M.、Minderer, M.、Heigold, G.、Gelly, S. 他アル。 画像は 16x16 ワードの価値があります: 大規模な画像認識のためのトランスフォーマー。 arXiv プレプリント arXiv:2010.11929 (2020)。

Kaur, A.、Kaur, L.、Gupta, S. 制御されていない環境における相関係数と構造類似性指数を使用した画像認識。 内部。 J.Comput. Appl.59(5) (2012)。

サズリ、MH フィードフォワード ニューラル ネットワークの簡単なレビュー。 コミュニケーション科学部アンカラ大学シリーズ A2-A3 物理科学と工学50(01) (2006)。

Wang, L.、Zhang, Y.、Feng, J. 画像のユークリッド距離について。 IEEEトランス。 パターンアナル。 マッハ。 知性。 27(8)、1334–1339 (2005)。

論文 PubMed Google Scholar

Lenk, C.、Ekinci, A.、Rangelow, IW & Gutschmidt, S. アクティブ カンチレバー技術に基づく生体模倣音検出用のアクティブ人工有毛細胞。 2018 年、IEEE Engineering in Medicine and Biology Society (EMBC) 4488–4491 (IEEE、2018) の第 40 回年次国際会議。

Gomez, F.、Lorimer, T. & Stoop, R. 信号結合サブスレッショルド ホップ型システムは、鋭い集団応答を示します。 物理学。 レット牧師。 116、108101 (2016)。

論文 ADS PubMed Google Scholar

Ma、S.、Brooks、D. & Wei、G.-Y. eNVM を使用した、ADC/DAC フリーでノイズに強いメモリ内処理推論のための、バイナリ アクティベーション、マルチレベル重み付け RNN およびトレーニング アルゴリズム。 arXiv プレプリント arXiv:1912.00106 (2019)。

Salamon, J.、Jacoby, C. & Bello, JP 都市音研究のためのデータセットと分類法。 第 22 回 ACM 国際マルチメディア会議議事録 1041 ~ 1044 (2014)。

Kim, B.、Lee, M.、Lee, J.、Kim, Y.、Hwang, K. クエリバイ例によるデバイス上のキーワード スポッティング。 2019 年の IEEE 自動音声認識および理解ワークショップ (ASRU) 532–538 (IEEE、2019)。

ジャクソン、Z. フリー音声数字データセット (FSDD)。 https://github.com/Jakobovski/free-spoken-digit-dataset (2018)。 2022 年 9 月 28 日にアクセス。

Jacobson, P.、Shirao, M.、Kerry, Yu.、Guan-Lin, S. & Ming, CW 画像認識のためのハイブリッド畳み込み光電子リザーバー コンピューティング。 J.ライトウェーブ・テクノロジー。 40(3)、692–699 (2021)。

記事 ADS Google Scholar

Miller, CL & Freedman, R. 繰り返しの聴覚刺激に対する海馬の反応中の海馬介在ニューロンと錐体細胞の活動。 神経科学 69(2)、371–381 (1995)。

論文 CAS PubMed Google Scholar

Ramachandran, P.、Zoph, B. & Le, QV 活性化関数の検索。 arXiv プレプリント arXiv:1710.05941 (2017)。

He, K.、Zhang, X.、Ren, S.、Sun, J. 画像認識のための深層残差学習。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録 770–778 (2016)。

Chollet、F. Keras: 人間のための深層学習。 https://github.com/keras-team/keras (2015)。 2022 年 9 月 28 日にアクセス。

Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 arXiv プレプリント arXiv:1412.6980 (2014)。

De Boer, P.-T.、Kroese, DP、Mannor, S. & Rubinstein, RY クロスエントロピー法に関するチュートリアル。 アン。 オペラ。 解像度 134(1)、19–67 (2005)。

記事 MathSciNet MATH Google Scholar

リファレンスをダウンロードする

著者らはまた、Omar Zahr 博士および Helge Seetzen 博士との実験手順と結果についての実りある議論に深く感謝しています。

Md Raf E. Ul Shougat、XiaoFu Li、Siyao Shao、Kathleen McGarvey、Edmon Perkins の著者も同様に貢献しました。

ノースカロライナ州立大学機械・航空宇宙工学部、1840 Entrepreneur Drive、Raleigh、NC、27695、USA

MD ラフ E. ウル シューガット

LAB2701、アトウッド、オクラホマ、74827、米国

XiaoFu Li & エドモン・パーキンス

タンデムローンチ、780 Av. ブリュースター、モントリオール、H4C2K1、カナダ

シヤオ・シャオ & キャスリーン・マクガーベイ

エコーソニック、780 Av. ブリュースター、モントリオール、H4C2K1、カナダ

シヤオ・シャオ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

MREUS、XL、SS、KWM、および EP は、この記事の概念と視点を共同で考案し、原稿を共同執筆しました。

エドモン・パーキンスへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Shougat、MREU、Li、X、Shao、S. 他。 再構成可能な音声認識用の Hopf 物理リザーバー コンピューター。 Sci Rep 13、8719 (2023)。 https://doi.org/10.1038/s41598-023-35760-x

引用をダウンロード

受信日: 2023 年 2 月 20 日

受理日: 2023 年 5 月 23 日

公開日: 2023 年 5 月 30 日

DOI: https://doi.org/10.1038/s41598-023-35760-x

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有