2023年9月19日火曜日

脳インプラントで毎分78語を変換、アバターで表情も再現

2023年9月12日(火) 脳活動を発話に変換する新たな研究成果が発表された。 発話に使う唇や舌の筋肉を制御する脳内信号を脳インプラントで捕捉し、その信号をAIで言葉に変換する。 「私の人工音声はどうかしら?」と、 コンピューターの画面に映し出された女性が緑色をした目を少し見開いて尋ねる。 映像は明らかにコンピューター処理されており、音声もたどたどしいが、それでも画期的な瞬間だ。 この映像は、18年前に脳卒中で発話能力を喪失した女性のデジタルアバターだ。 脳インプラントと人工知能(AI)アルゴリズムを取り込んだ実験の一環として、 現在この女性は、本人の声を複製した音声で語り、アバターを通じて限られた範囲の表情を伝えることもできる。 8月23日にネイチャー(Nature)誌に掲載された、2つの別々の研究チームによる2本の論文は、 この分野がいかに急速に進歩しているかを示している。 いずれもまだ概念実証に過ぎず、このテクノロジーが広く一般に提供されるようになるまでに、 非常に長い道のりがまだ待ち構えている。 どちらの研究も、明瞭に発話する能力を喪失した女性を対象にしており、 一人は脳幹卒中、もう一人は進行性の神経変性疾患であるALSが原因で話せなくなった。 参加者は、それぞれ別のタイプの記録装置を脳に埋め込んでおり、 2人とも1分間に60語から70語ほどのスピードでなんとか話す。 通常の発話スピードのほぼ半分だが、以前の報告時に比べて4倍以上速い。 カリフォルニア大学サンフランシスコ校の脳外科医エドワード・チャンが率いるチームは、 表情を作り出す微小な動きを制御する脳信号を捉えることで、 被験者の発話行為をほぼリアルタイムで表現するアバターの作成にも成功した。 2本の論文は「非常にエレガントで厳密な脳の科学と工学を象徴するもの」。 カナダ・バンクーバーにあるブリティッシュコロンビア大学の脳神経倫理学者であるジュディ・イレス教授 (同教授はどちらの研究にも関与していない)。 表情を表すことができるアバターが追加された点を、イレス教授は特に評価した。 「コミュニケーションは、人と人の間の単なる言葉のやりとりではありません。 声の調子、表情、強勢、文脈を通じて伝えられる言葉やメッセージ。 こうした人間性の要素を実際に基礎科学、工学、ニューロテクノロジーに持ち込もうとしたのは、 創造的でとても思慮深いことだと思います」。 チャン医師率いる研究チームは、この問題に10年以上取り組んできた。 2021年、同チームは脳幹卒中を患った人の脳活動を捉え、その信号を書き言葉での単語や文に変換できることを示した。 変換スピードはゆっくりしたものだった。 最新の論文で、研究チームはインプラントをクレジットカードほどに大きくして、 電極数を2倍にし、当時とは別の患者であるアンの脳の信号を捉えた。 アンは、20年近く前に脳卒中を発症して発話能力を喪失した。 インプラントは思考を捉えるのではない。 代わりに、発話を可能にするすべての筋肉の動きに当たる、唇、舌、顎、喉頭の筋肉の動きを制御する電気信号を捉える。 「『P』や『B』の音を出すには、上下の唇を寄せ集める必要があります。 その結果、唇の制御に関係する特定の一部の電極が活性化されます」と、 チャン医師の研究室の大学院生で論文の著者に名を連ねるアレクサンダー・シルバ。 頭皮に装着したポートを通じて、これらの信号はコンピューターに伝送され、 AIアルゴリズムが信号を復号し、言語モデルが提供する自動修正機能が正確度を向上させる。 このテクノロジーにより、チームはアンの脳活動を毎分78語のペースで書き言葉に変換した。 語彙は1024語、エラー率は23%だった。 チャン医師の研究チームは、他のどのチームよりも早く、脳の信号を話すという行為にまで復号した。 捉えられた筋肉の信号を利用することで、参加者はアバターを通じて、嬉しい、悲しい、驚いた、という3つの感情を、 それぞれ3段階の強度で表現できた。 「話すという行為は、言葉を伝達するだけではなく、私が誰であるかについても伝達します。 人間の声や表情は、その人のアイデンティティの一部なのです」とチャン医師。 この臨床試験の参加者であるアンは、カウンセラーになることを希望しており、 これは「私にとって、たいへんな挑戦です」と研究チームに語っている。 アンはこの種のアバターを使用すると、カウンセラーを受ける人の気持ちが落ち着くのではないかと考えている。 アンが話す声を再現するために、チームは本人の結婚式の映像に記録されていた音声を使用した。 これにより、アバターは彼女のような感じがいっそう高まった。 スタンフォード大学の研究者が率いる別の研究チームが最初に結果を発表したのは、 1月に査読前論文(プレプリント)としてだった。 パット・ベネットというALS患者の参加者に対して、研究者ははるかに小型のインプラントを4個埋め込んだ。 それぞれのインプラントはアスピリン錠剤ほどの大きさで、一つひとつのニューロンの信号を記録できる。 25回に及ぶセッションを通して、ベネットは音節、単語、文を読んでシステムを訓練した。 次に、研究チームは、学習時に使用されなかった文をベネットに読んでもらい、この技術を試験した。 語彙数を50語に設定し、その範囲内で文を構成した場合、エラー率は約9%だった。 英語の大部分を包摂することになる12万5000語にまで語彙数を拡大すると、エラー率は約24%に上昇した。 これらのインターフェイスを使用した発話は、流暢な語り口ではない。 今でも通常の発話より遅いし、23%や24%というエラー率は以前の結果からははるかに改善しているものの、 まだそれほど優れたものではない。 いくつかの例では、システムは文を完璧に再現した。 「How is your cold?」(風邪の具合はどうですか?)を「Your old.」と表示することもあった。 科学者らはさらに改善できると確信している。 「興味深いのは、インプラントの電極の数を増やせば増やすほど、デコーダーの性能が向上することです」。 スタンフォード論文の著者の1人である神経科学者のフランシス・ウィレット博士。 「電極数を増やし、より多くのニューロンの信号を捉えることができれば、正確度をさらに向上させられるでしょう」。 現在のシステムは、家庭で使用できるほど実用的ではない。 有線接続とかさばるコンピューター・システムを使って処理しており、 実験環境の外部では、被験者らは脳インプラントを使用してコミュニケーションをとることはできない。 「この知識を、ニーズを抱えながらまだ満たされていない人たちにとって有用なシステムに転換するまでに、 まだまだ非常に多くの作業が必要です」。 アムステルダムにあるユトレヒト大学病院脳センターの神経科学者で、 付随論評の著者であるニック・ラムジー教授は言う。 どちらのチームも、一個人についての結果を報告しているのであり、 同じような神経疾患でも他の患者には当てはまらない可能性があると、イレス教授も警告。 「これは概念実証です。 脳損傷は実に厄介で、異質性が非常に高いことがわかっています。 脳卒中やALSの患者の場合でも、一般化できる可能性はありますが、確実には言えません」。 コミュニケーション能力を喪失した人にとって、解決に至る技術的な可能性が開かれたことは確かだ。 「私たちがしてきたのは、解決が可能であり、それに向かう道筋が存在していることを証明することです」と、チャン医師。 話せるというのは、非常に重要なことだ。 チャン医師の研究の被験者であるアンは、以前はコミュニケーションをとるのにレターボードを使っていた。 「夫は私のために立ち上がって、コミュニケーションボードの翻訳に取り組まなければならないことに、 本当に辟易していました」と、アンは研究チームに語っている。 「私たちが言い争うことはありませんでした。 というのも、夫は私に言い返すチャンスを与えなかったからです。 おわかりでしょうが、ものすごく欲求不満が溜まりました」。 https://medicalai.m3.com/news/230912-news-mittr