ایمپلنت مغزی جدید، افکار را در لحظه به گفتار تبدیل می‌کند

ایمپلنت مغزی نوآورانه به زنی که توانایی صحبت کردن را پس از سکته مغزی از دست داده بود، امکان می‌دهد که افکارش را به‌طور آنی به گفتار تبدیل کند.

ایمپلنت مغزی

ایمپلنت مغزی

به نقل از خبر سنتر زنی در ایالات متحده تقریباً دو دهه پس از آنکه در ۳۰ سالگی دچار سکته در ساقه‌ی مغز شد و توانایی گفتار خود را از دست داد، به‌واسطه‌ی فرایندی نوآورانه در واسط مغز و رایانه (BCI) توانسته بار دیگر افکارش را به‌صورت آنی به کلمات تبدیل کند.

روش ابتکاری محققان آمریکایی با تحلیل فعالیت مغزی او در بازه‌های زمانی ۸۰ میلی‌ثانیه‌ای و تبدیل آن به نسخه‌ای مصنوعی از صدای خودش، موفق شد تأخیر آزاردهنده‌ای را که در نسخه‌های پیشین این فناوری وجود داشت، از میان بردارد.

بخش‌های حیاتی دستگاه عصبی

توانایی بدن ما برای انتقال صداها به همان شکلی که به آن‌ها فکر می‌کنیم، عملکردی است که اغلب بدیهی می‌دانیم. تنها در لحظاتی نادر مانند زمانی که نیاز به مترجم داریم یا صدای خود را با تأخیر از بلندگو می‌شنویم، به سرعت شگفت‌انگیز گفتار طبیعی خود پی می‌بریم.

برای افرادی که به دلیل بیماری‌هایی مانند اسکلروز جانبی آمیوتروفیک (ALS) یا ضایعات در بخش‌های حیاتی دستگاه عصبی، ارتباط بین مغز و مرکز گفتارشان از بین رفته است، ایمپلنت‌های مغزی همراه با نرم‌افزارهای ویژه، نویدبخش بازگشت دوباره به توانایی برقراری ارتباط بوده‌اند.

تبدیل گفتار از افکار

تعدادی از پروژه‌های ترجمه‌ی گفتار BCI اخیراً پیشرفت‌های چشمگیری داشته‌اند که هدف هرکدام کاهش زمان صرف شده برای تبدیل گفتار از افکار است. بیشتر روش‌های موجود نیاز دارند تا ابتدا یک بخش کامل از متن را دریافت کنند تا نرم‌افزار بتواند معنای آن را تحلیل کند؛ این امر به تأخیرهای قابل‌توجهی میان آغاز فکر و تولید گفتار منجر می‌شود. تاخیر زیاد نه تنها غیرطبیعی است، بلکه می‌تواند برای کسانی که از چنین سیستم‌هایی استفاده می‌کنند خسته‌کننده و ناراحت‌کننده باشد.

محققان دانشگاه کالیفرنیا در برکلی و سانفرانسیسکو در گزارش خود می‌نویسند: «بهبود زمان تأخیر در ساخت گفتار و افزایش سرعت رمزگشایی برای داشتن مکالمه‌ای پویا و ارتباطی روان، امری ضروری است.» تیم پژوهشی به رهبری کیلو لیتل‌جان، مهندس علوم رایانه از دانشگاه کالیفرنیا، برکلی، توضیح می‌دهد این مسئله زمانی پیچیده‌تر می‌شود که در نظر بگیریم پخش صدای ساخته‌شده و درک آن از سوی کاربر و شنونده، به زمان بیشتری نیاز دارد.

روش‌های فعلی در حوزه‌ی BCI

بیشتر روش‌های فعلی در حوزه‌ی BCI مبتنی بر این هستند که کاربر به‌طور آشکار باید حرکات گفتاری را شبیه‌سازی کند تا سیستم، آموزش ببیند، حتی اگر صدایی تولید نشود. این فرایند برای افرادی که مدت‌هاست از مهارت گفتاری بی‌بهره یا از ابتدا با مشکلات گفتاری مواجه بوده‌اند، چالش‌برانگیز است؛ چرا که تأمین داده‌های کافی برای آموزش نرم‌افزارِ رمزگشای افکار به گفتار در این شرایط، دشوار و گاه غیرممکن است.

محققان برای غلبه بر چالش‌ها، نوعی شبکه‌ی عصبی عمیق و انعطاف‌پذیر را بر اساس فعالیت قشر حسی‌حرکتی مغز شرکت‌کننده ۴۷ ساله آموزش دادند. در این فرآیند، شرکت‌کننده به‌طور بی‌صدا ۱۰۰ جمله‌ی منحصر‌به‌فرد شامل هزار کلمه را در ذهن خود تولید کرد. هدف از این کار این بود که شبکه‌ی عصبی بدون نیاز به تولید صدای واقعی یا تلاش فیزیکی برای بیان کلمات، قادر باشد فعالیت‌های مغزی فرد را تحلیل و آن‌ها را به گفتار قابل‌فهم تبدیل کند.

نوعی روش ارتباطی کمکی

همچنین لیتل‌جان و همکارانش از نوعی روش ارتباطی کمکی نیز استفاده کردند که بر پایه‌ی ۵۰ عبارت طراحی شده بود و کلمات کمتری داشت. برخلاف روش‌های قبلی، این فرآیند شامل تلاش برای ادای کلمات به‌صورت فیزیکی نبود و فقط برای بیان‌کردن بی‌صدا توسط شرکت‌کننده بود. سیستم توانست هر دو نوع روش ارتباطی ۱۰۰ جمله‌ای و ۵۰ عبارت ساده‌تر را با موفقیت رمزگشایی کند و میانگین تعداد کلمات تبدیل‌شده در دقیقه نزدیک به دو برابر روش‌های قبلی بود.

نکته‌ی مهم‌تر اینکه، استفاده از نوعی روش پیش‌بینی‌کننده که توانایی تفسیر مداوم در لحظه را دارد، سبب شد که گفتار شرکت‌کننده با سرعتی ۸ برابر سریع‌تر از دیگر روش‌ها، روان‌تر و طبیعی‌تر باشد. حتی صدای تولید شده نیز شبیه به صدای واقعی خود فرد بود، زیرا از برنامه‌ی سنتز صدایی استفاده شده بود که بر اساس ضبط‌های قبلی صدای او ساخته شده بود.

سیگنال‌های عصبی کلمات جدید

تیم تحقیقاتی فرآیند خود را به‌طور آفلاین و بدون محدودیت زمانی اجرا کرد و نشان داد که استراتژی آن‌ها قادر است سیگنال‌های عصبی مربوط به کلماتی را که به‌طور خاص و عمدی برای آن‌ها آموزش ندیده بودند، تفسیر کند. به عبارت دیگر، سیستم توانسته به‌طور خودکار و بدون نیاز به آموزش قبلی، سیگنال‌های عصبی کلمات جدید را تحلیل و تفسیر کند. این نشان‌دهنده‌ی قدرت انعطاف‌پذیری و دقت بالای سیستم است.

نویسندگان مطالعه خاطرنشان می‌کنند که هنوز راه زیادی برای رسیدن به کاربرد بالینی روش جدیدشان در پیش است. اگرچه گفتار تولیدشده قابل درک بود، از نظر دقت همچنان با روش‌های دیگر BCI که متن را رمزگشایی می‌کنند، فاصله دارد.