خلاصه:
در یک قدم علمی اولیه، مهندسان سیستم اعصاب یک سیستم ایجاد کردهاند که اندیشه را به گفتار قابل فهم و قابل تشخیص تبدیل میکند. این پیشرفت که قدرت ترکیب کنندههای گفتار و هوش مصنوعی را به کار میگیرد، میتواند راههای جدیدی برای رایانهها برای ارتباط مستقیم با مغز بگشاید.
تعداد کلمات: 1000 / تخمین زمان مطالعه: 5 دقیقه
در یک قدم علمی اولیه، مهندسان سیستم اعصاب یک سیستم ایجاد کردهاند که اندیشه را به گفتار قابل فهم و قابل تشخیص تبدیل میکند. این پیشرفت که قدرت ترکیب کنندههای گفتار و هوش مصنوعی را به کار میگیرد، میتواند راههای جدیدی برای رایانهها برای ارتباط مستقیم با مغز بگشاید.
تعداد کلمات: 1000 / تخمین زمان مطالعه: 5 دقیقه
مترجم: علی رضایی میر قائد
گزارش کامل
در یک اقدام علمی اولیه، مهندسان سیستم اعصاب از کلمبیا یک سیستم را ایجاد کردهاند که اندیشه را به سخن مفهوم و قابل تشخیص تبدیل میکند. با دیدهبانی فعالیتهای مغزی فرد، این تکنولوژی میتواند کلماتی را که فرد میشنود با شفافیت بی سابقهای بازسازی کند. این پیشرفت که قدرت ترکیب کنندههای گفتار و هوش مصنوعی را به کار میگیرد، میتواند راههای جدیدی برای رایانهها برای ارتباط مستقیم با مغز بگشاید. این تکنولوژی همچنین زمینه را برای کمک به افرادی که نمیتوانند صحبت کنند، مانند افرادی که با اسکلروز جانبی آمیوتروفی (ALS) زندگی میکنند یا دارند از سکته مغزی بهبود مییابند، فراهم میکند تا توانایی خود را برای برقراری ارتباط با جهان خارج، به دست آورند.
این یافتهها امروزه در گزارشهای علمی منتشر شده است. "مهندسان سیگنالهای مغز را به طور مستقیم به گفتار ترجمه میکنند"
نیما مسگرانی، دکترای علمی، نویسنده ارشد مقاله و محقق اصلی موسسه رفتار ذهنی مغز مورتیمر بوک Zuckerman دانشگاه کلمبیا گفت: "صداهای ما به ارتباط ما با دوستان، خانواده و جهان اطراف ما کمک میکند، به همین دلیل از دست دادن قدرت صدای ما به علت آسیب یا بیماری بسیار ویرانگر است." "با مطالعه امروز، ما یک راه بالقوه برای بازگرداندن این قدرت داریم. ما نشان دادهایم که با تکنولوژی مناسب، می توان افکار مردم را برای هر شنوندهای رمزگشایی و آن را درک کرد."
دههها تحقیق نشان داده است که وقتی مردم صحبت میکنند یا حتی تصور میکنند که صحبت میکنند، الگوهای فعالیت صحبت در مغزشان ظاهر میشود. الگوهای متمایز (اما قابل تشخیص) سیگنالها همچنین هنگامی رخ میدهد که ما گوش به صحبت میکنیم یا تصور گوش دادن میکنیم. کارشناسان تلاش میکنند که این الگوها را ضبط و رمزگشایی کنند و با این کار آیندهای را میببینند که در آن افکار لازم نیست درون مغز پنهان باقی بمانند، بلکه میتوانند به صورت سخنرانی شفاهی به اراده شخص ترجمه شوند.
اما انجام این شاهکار چالش برانگیز است. تلاشهای اولیه برای رمزگشایی سیگنالهای مغز توسط دکتر مسگرانی و دیگران بر روی مدلهای کامپیوتری ساده انجام شد که اسپکتروگرافیهایی را تجزیه و تحلیل کردند که نمایانگر بصری فرکانسهای صوتی هستند.
اما به این دلیل که این روی کرد نتوانست چیزی شبیه به سخنرانی قابل فهم را تولید کند، تیم دکتر مسگرانی به جای آن رو آوردند به یک رمز گذار صوتی، که یک الگوریتم رایانهای است که پس از ورزیده شدن روی ضبطهایی که از حرف زدن مردم صورت گرفته است میتواند صحبت را ترکیب کند.
دکتر مسگرانی، که مدرک مهندسی برق در دانشکده مهندسی و علوم کاربردی کلمبیا را نیز دارد، گفت: "این همان تکنولوژی است که از آن توسط آمازون اکو و اپل سیری برای دادنِ پاسخهای شفاهی به سوالات ما استفاده میشود."
دکتر مسگرانی با یاد دادن به رمز گذار صوتی برای تفسیر فعالیتهای مغز، با دکتر عشش دینش مهتا، یک جراح مغز و اعصاب در موسسه عصب شناسی و همکاران پزشک عمومی Northwell در نوشتن مقاله در این موضوع، همکاری کرد. دکتر مهتا بیماران صرع را درمان میکند. بعضی از آنها باید به طور مرتب تحت عمل جراحی قرار گیرند.
دکتر مسگرانی گفت: "با همکاری دکتر مهتا، ما از بیماران مبتلا به صرع که قبلاً متحمل جراحی مغز شده بودند خواستیم به جملات گفته شده توسط افراد مختلف گوش دهند در حالی که ما الگوهای فعالیت مغزیشان را اندازه گیری میکردیم." "این الگوهای عصبی، رمز گذار صوتی را آموزش داد."
بعد از آن، محققان از همان بیماران خواسته بودند که گوش بدهند به سخنرانانی که از رقم 0 تا 9 را میخواندند، در حالی که محققان سیگنالهای مغزی آنها را ضبط میکردند که سپس میتوانست به رمز گذار صوتی منتقل شود. صدای تولید شده توسط رمز گذار صوتی در پاسخ به این سیگنالها، توسط شبکههای عصبی، که نوعی از هوش مصنوعی است که ساختار نورون در مغز بیولوژیکی را تقلید میکند، مورد تجزیه و تحلیل قرار گرفت. پیشرفتها نشان دهنده گامهایی حیاتی به سمت رابطهای مغز و رایانه هستند که نویدهای فراوانی را برای افرادی که دارای محدودیت یا عدم توانایی برای صحبت هستند، در بر دارند.
نتیجه نهایی یک صدای روباتیک بود که یک دنباله از اعداد را میخواند. برای آزمایش صحت ضبط، دکتر مسگرانی و تیم او از افراد متعددی برای گوش دادن به ضبط و گزارش دادن آنچه میشنیدند استفاده کردند.
دکتر مسگرانی گفت: "ما متوجه شدیم که مردم تا حدود 75 درصد میتوانند صداها را به درستی درک و تکرار کنند، که بسیار بالاتر از هر تلاش قبلی است". بهبود در قابلیت فهم به ویژه هنگام مقایسه ضبطهای جدید با تلاشهای مبتنی بر اسپکترومتر قبلی، مشهود بود. "رمز گذار صوتیِ حساس و شبکههای عصبی قدرتمند، صداهایی را نمایان میکردند که بیماران ابتدائاً با دقت فوق العادهای به آنها گوش داده بودند."
دکتر مسگرانی و تیم او قصد دارند تا کلمات و جملات پیچیدهتر را تست کنند و میخواهند همان آزمایشها را روی سیگنالهای مغزی منتشر شده وقتی که فرد صحبت میکند یا تصور میکند که صحبت میکند انجام دهند. در نهایت، آنها امیدوارند که این سیستم خود بتواند بخشی از یک ایمپلنت باشد، شبیه به آنهایی که از سوی برخی از بیماران مبتلا به صرع پوشیده میشود، و بتواند افکار آنها را به طور مستقیم به کلمات ترجمه کند.
دکتر مسگرانی گفت: "در این سناریو، اگر پوشنده ایمپلنت فکر کند «من یک لیوان آب نیاز دارم،» سیستم ما میتواند سیگنالهای مغزی تولید شده توسط آن اندیشه را به دست آورد و آنها را به گفتار سنتز کند، و به سخنرانی کلامی تبدیل کند." "این امر میتواند یک نقطه تحول باشد؛ و به هر کسی که توانایی خود را برای گفتن، از طریق آسیب یا بیماری، از دست داده است فرصت دو بارهای برای ارتباط با جهان اطراف خود بدهد."
برگرفته از سایت ساینس دِیلی
این یافتهها امروزه در گزارشهای علمی منتشر شده است. "مهندسان سیگنالهای مغز را به طور مستقیم به گفتار ترجمه میکنند"
نیما مسگرانی، دکترای علمی، نویسنده ارشد مقاله و محقق اصلی موسسه رفتار ذهنی مغز مورتیمر بوک Zuckerman دانشگاه کلمبیا گفت: "صداهای ما به ارتباط ما با دوستان، خانواده و جهان اطراف ما کمک میکند، به همین دلیل از دست دادن قدرت صدای ما به علت آسیب یا بیماری بسیار ویرانگر است." "با مطالعه امروز، ما یک راه بالقوه برای بازگرداندن این قدرت داریم. ما نشان دادهایم که با تکنولوژی مناسب، می توان افکار مردم را برای هر شنوندهای رمزگشایی و آن را درک کرد."
دههها تحقیق نشان داده است که وقتی مردم صحبت میکنند یا حتی تصور میکنند که صحبت میکنند، الگوهای فعالیت صحبت در مغزشان ظاهر میشود. الگوهای متمایز (اما قابل تشخیص) سیگنالها همچنین هنگامی رخ میدهد که ما گوش به صحبت میکنیم یا تصور گوش دادن میکنیم. کارشناسان تلاش میکنند که این الگوها را ضبط و رمزگشایی کنند و با این کار آیندهای را میببینند که در آن افکار لازم نیست درون مغز پنهان باقی بمانند، بلکه میتوانند به صورت سخنرانی شفاهی به اراده شخص ترجمه شوند.
اما انجام این شاهکار چالش برانگیز است. تلاشهای اولیه برای رمزگشایی سیگنالهای مغز توسط دکتر مسگرانی و دیگران بر روی مدلهای کامپیوتری ساده انجام شد که اسپکتروگرافیهایی را تجزیه و تحلیل کردند که نمایانگر بصری فرکانسهای صوتی هستند.
اما به این دلیل که این روی کرد نتوانست چیزی شبیه به سخنرانی قابل فهم را تولید کند، تیم دکتر مسگرانی به جای آن رو آوردند به یک رمز گذار صوتی، که یک الگوریتم رایانهای است که پس از ورزیده شدن روی ضبطهایی که از حرف زدن مردم صورت گرفته است میتواند صحبت را ترکیب کند.
دکتر مسگرانی، که مدرک مهندسی برق در دانشکده مهندسی و علوم کاربردی کلمبیا را نیز دارد، گفت: "این همان تکنولوژی است که از آن توسط آمازون اکو و اپل سیری برای دادنِ پاسخهای شفاهی به سوالات ما استفاده میشود."
دکتر مسگرانی با یاد دادن به رمز گذار صوتی برای تفسیر فعالیتهای مغز، با دکتر عشش دینش مهتا، یک جراح مغز و اعصاب در موسسه عصب شناسی و همکاران پزشک عمومی Northwell در نوشتن مقاله در این موضوع، همکاری کرد. دکتر مهتا بیماران صرع را درمان میکند. بعضی از آنها باید به طور مرتب تحت عمل جراحی قرار گیرند.
دکتر مسگرانی گفت: "با همکاری دکتر مهتا، ما از بیماران مبتلا به صرع که قبلاً متحمل جراحی مغز شده بودند خواستیم به جملات گفته شده توسط افراد مختلف گوش دهند در حالی که ما الگوهای فعالیت مغزیشان را اندازه گیری میکردیم." "این الگوهای عصبی، رمز گذار صوتی را آموزش داد."
بعد از آن، محققان از همان بیماران خواسته بودند که گوش بدهند به سخنرانانی که از رقم 0 تا 9 را میخواندند، در حالی که محققان سیگنالهای مغزی آنها را ضبط میکردند که سپس میتوانست به رمز گذار صوتی منتقل شود. صدای تولید شده توسط رمز گذار صوتی در پاسخ به این سیگنالها، توسط شبکههای عصبی، که نوعی از هوش مصنوعی است که ساختار نورون در مغز بیولوژیکی را تقلید میکند، مورد تجزیه و تحلیل قرار گرفت. پیشرفتها نشان دهنده گامهایی حیاتی به سمت رابطهای مغز و رایانه هستند که نویدهای فراوانی را برای افرادی که دارای محدودیت یا عدم توانایی برای صحبت هستند، در بر دارند.
نتیجه نهایی یک صدای روباتیک بود که یک دنباله از اعداد را میخواند. برای آزمایش صحت ضبط، دکتر مسگرانی و تیم او از افراد متعددی برای گوش دادن به ضبط و گزارش دادن آنچه میشنیدند استفاده کردند.
دکتر مسگرانی گفت: "ما متوجه شدیم که مردم تا حدود 75 درصد میتوانند صداها را به درستی درک و تکرار کنند، که بسیار بالاتر از هر تلاش قبلی است". بهبود در قابلیت فهم به ویژه هنگام مقایسه ضبطهای جدید با تلاشهای مبتنی بر اسپکترومتر قبلی، مشهود بود. "رمز گذار صوتیِ حساس و شبکههای عصبی قدرتمند، صداهایی را نمایان میکردند که بیماران ابتدائاً با دقت فوق العادهای به آنها گوش داده بودند."
دکتر مسگرانی و تیم او قصد دارند تا کلمات و جملات پیچیدهتر را تست کنند و میخواهند همان آزمایشها را روی سیگنالهای مغزی منتشر شده وقتی که فرد صحبت میکند یا تصور میکند که صحبت میکند انجام دهند. در نهایت، آنها امیدوارند که این سیستم خود بتواند بخشی از یک ایمپلنت باشد، شبیه به آنهایی که از سوی برخی از بیماران مبتلا به صرع پوشیده میشود، و بتواند افکار آنها را به طور مستقیم به کلمات ترجمه کند.
دکتر مسگرانی گفت: "در این سناریو، اگر پوشنده ایمپلنت فکر کند «من یک لیوان آب نیاز دارم،» سیستم ما میتواند سیگنالهای مغزی تولید شده توسط آن اندیشه را به دست آورد و آنها را به گفتار سنتز کند، و به سخنرانی کلامی تبدیل کند." "این امر میتواند یک نقطه تحول باشد؛ و به هر کسی که توانایی خود را برای گفتن، از طریق آسیب یا بیماری، از دست داده است فرصت دو بارهای برای ارتباط با جهان اطراف خود بدهد."
برگرفته از سایت ساینس دِیلی