مهندسان، سیگنال‌های مغز را مستقیماً به گفتار ترجمه می‌کنند

خلاصه:

در یک قدم علمی اولیه، مهندسان سیستم اعصاب یک سیستم ایجاد کرده‌اند که اندیشه را به گفتار قابل فهم و قابل تشخیص تبدیل می‌کند. این پیشرفت که قدرت ترکیب کننده‌های گفتار و هوش مصنوعی را به کار می‌گیرد، می‌تواند راه‌های جدیدی برای رایانه‌ها برای ارتباط مستقیم با مغز بگشاید.

تعداد کلمات: 1000 / تخمین زمان مطالعه: 5 دقیقه

مترجم: علی رضایی میر قائد

گزارش کامل

در یک اقدام علمی اولیه، مهندسان سیستم اعصاب از کلمبیا یک سیستم را ایجاد کرده‌اند که اندیشه را به سخن مفهوم و قابل تشخیص تبدیل می‌کند. با دیده‌بانی فعالیت‌های مغزی فرد، این تکنولوژی می‌تواند کلماتی را که فرد می‌شنود با شفافیت بی سابقه‌ای بازسازی کند. این پیشرفت که قدرت ترکیب کننده‌های گفتار و هوش مصنوعی را به کار می‌گیرد، می‌تواند راه‌های جدیدی برای رایانه‌ها برای ارتباط مستقیم با مغز بگشاید. این تکنولوژی همچنین زمینه را برای کمک به افرادی که نمی‌توانند صحبت کنند، مانند افرادی که با اسکلروز جانبی آمیوتروفی (ALS) زندگی می‌کنند یا دارند از سکته مغزی بهبود می‌یابند، فراهم می‌کند تا توانایی خود را برای برقراری ارتباط با جهان خارج، به دست آورند.

این یافته‌ها امروزه در گزارش‌های علمی منتشر شده است. "مهندسان سیگنال‌های مغز را به طور مستقیم به گفتار ترجمه می‌کنند"

نیما مسگرانی، دکترای علمی، نویسنده ارشد مقاله و محقق اصلی موسسه رفتار ذهنی مغز مورتیمر بوک Zuckerman دانشگاه کلمبیا گفت: "صداهای ما به ارتباط ما با دوستان، خانواده و جهان اطراف ما کمک می‌کند، به همین دلیل از دست دادن قدرت صدای ما به علت آسیب یا بیماری بسیار ویرانگر است." "با مطالعه امروز، ما یک راه بالقوه برای بازگرداندن این قدرت داریم. ما نشان داده‌ایم که با تکنولوژی مناسب، می توان افکار مردم را برای هر شنونده‌ای رمزگشایی و آن را درک کرد."

دهه‌ها تحقیق نشان داده است که وقتی مردم صحبت می‌کنند یا حتی تصور می‌کنند که صحبت می‌کنند، الگوهای فعالیت صحبت در مغزشان ظاهر می‌شود. الگوهای متمایز (اما قابل تشخیص) سیگنالها همچنین هنگامی رخ می‌دهد که ما گوش به صحبت می‌کنیم یا تصور گوش دادن می‌کنیم. کارشناسان تلاش می‌کنند که این الگوها را ضبط و رمزگشایی کنند و با این کار آینده‌ای را می‌ببینند که در آن افکار لازم نیست درون مغز پنهان باقی بمانند، بلکه می‌توانند به صورت سخنرانی شفاهی به اراده شخص ترجمه شوند.

اما انجام این شاهکار چالش برانگیز است. تلاش‌های اولیه برای رمزگشایی سیگنال‌های مغز توسط دکتر مسگرانی و دیگران بر روی مدل‌های کامپیوتری ساده انجام شد که اسپکتروگرافی‌هایی را تجزیه و تحلیل کردند که نمایانگر بصری فرکانس‌های صوتی هستند.

اما به این دلیل که این روی کرد نتوانست چیزی شبیه به سخنرانی قابل فهم را تولید کند، تیم دکتر مسگرانی به جای آن رو آوردند به یک رمز گذار صوتی، که یک الگوریتم رایانه‌ای است که پس از ورزیده شدن روی ضبط‌هایی که از حرف زدن مردم صورت گرفته است می‌تواند صحبت را ترکیب کند.

دکتر مسگرانی، که مدرک مهندسی برق در دانشکده مهندسی و علوم کاربردی کلمبیا را نیز دارد، گفت: "این همان تکنولوژی است که از آن توسط آمازون اکو و اپل سیری برای دادنِ پاسخهای شفاهی به سوالات ما استفاده می‌شود."

دکتر مسگرانی با یاد دادن به رمز گذار صوتی برای تفسیر فعالیت‌های مغز، با دکتر عشش دینش مهتا، یک جراح مغز و اعصاب در موسسه عصب شناسی و همکاران پزشک عمومی Northwell در نوشتن مقاله در این موضوع، همکاری کرد. دکتر مهتا بیماران صرع را درمان می‌کند. بعضی از آنها باید به طور مرتب تحت عمل جراحی قرار گیرند.

دکتر مسگرانی گفت: "با همکاری دکتر مهتا، ما از بیماران مبتلا به صرع که قبلاً متحمل جراحی مغز شده بودند خواستیم به جملات گفته شده توسط افراد مختلف گوش دهند در حالی که ما الگوهای فعالیت مغزیشان را اندازه گیری می‌کردیم." "این الگوهای عصبی، رمز گذار صوتی را آموزش داد."

بعد از آن، محققان از همان بیماران خواسته بودند که گوش بدهند به سخنرانانی که از رقم 0 تا 9 را می‌خواندند، در حالی که محققان سیگنال‌های مغزی آنها را ضبط می‌کردند که سپس می‌توانست به رمز گذار صوتی منتقل شود. صدای تولید شده توسط رمز گذار صوتی در پاسخ به این سیگنال‌ها، توسط شبکه‌های عصبی، که نوعی از هوش مصنوعی است که ساختار نورون در مغز بیولوژیکی را تقلید می‌کند، مورد تجزیه و تحلیل قرار گرفت. پیشرفت‌ها نشان دهنده گام‌هایی حیاتی به سمت رابط‌های مغز و رایانه هستند که نویدهای فراوانی را برای افرادی که دارای محدودیت یا عدم توانایی برای صحبت هستند، در بر دارند.

نتیجه نهایی یک صدای روباتیک بود که یک دنباله از اعداد را می‌خواند. برای آزمایش صحت ضبط، دکتر مسگرانی و تیم او از افراد متعددی برای گوش دادن به ضبط و گزارش دادن آنچه می‌شنیدند استفاده کردند.

دکتر مسگرانی گفت: "ما متوجه شدیم که مردم تا حدود 75 درصد می‌توانند صداها را به درستی درک و تکرار کنند، که بسیار بالاتر از هر تلاش قبلی است". بهبود در قابلیت فهم به ویژه هنگام مقایسه ضبط‌های جدید با تلاش‌های مبتنی بر اسپکترومتر قبلی، مشهود بود. "رمز گذار صوتیِ حساس و شبکه‌های عصبی قدرتمند، صداهایی را نمایان می‌کردند که بیماران ابتدائاً با دقت فوق العاده‌ای به آنها گوش داده بودند."
دکتر مسگرانی و تیم او قصد دارند تا کلمات و جملات پیچیده‌تر را تست کنند و می‌خواهند همان آزمایش‌ها را روی سیگنال‌های مغزی‌ منتشر شده وقتی که فرد صحبت می‌کند یا تصور می‌کند که صحبت می‌کند انجام دهند. در نهایت، آنها امیدوارند که این سیستم خود بتواند بخشی از یک ایمپلنت باشد، شبیه به آنهایی که از سوی برخی از بیماران مبتلا به صرع پوشیده می‌شود، و بتواند افکار آنها را به طور مستقیم به کلمات ترجمه کند.

دکتر مسگرانی گفت: "در این سناریو، اگر پوشنده ایمپلنت فکر کند «من یک لیوان آب نیاز دارم،» سیستم ما می‌تواند سیگنال‌های مغزی تولید شده توسط آن اندیشه را به دست آورد و آنها را به گفتار سنتز کند، و به سخنرانی کلامی تبدیل کند." "این امر می‌تواند یک نقطه تحول باشد؛ و به هر کسی که توانایی خود را برای گفتن، از طریق آسیب یا بیماری، از دست داده است فرصت دو باره‌ای برای ارتباط با جهان اطراف خود بدهد."

برگرفته از سایت ساینس دِیلی