آژانس امنیت ملی آمریکا چگونه گفتار را به نوشتار قابل جستجو تبدیل می‌کند؟

 

آژانس امنیت ملی آمریکا بسیاری از مکالمات تلفنی را شنود می‌کند. این آژانس چگونه می‌تواند گفتار را به نوشتار قابل جستجو تبدیل کند؟

 

 

بسیاری از افراد دریافته‌اند که ایمیل و دیگر ارتباطات دیجیتال که زمانی خصوصی محسوب می‌شدند، اکنون بخشی از رکورد آن‌ها خواهد بود. اما با اینکه افراد روز به روز از اپلیکیشن‌هایی استفاده می‌کنند که قابلیت درک سخن آن‌ها را دارند، بیشتر آن‌ها درک نمی‌کنند که کلمات بیان شده نیز دیگر خصوصی نیستند.

اسنادی که ادوارد اسنودن از آژانس امنیت ملی آمریکا (NSA) منتشر کرد، نشان می‌دهند که این آژانس می‌تواند با تبدیل تماس‌های تلفنی به متن و نمادهای آواشناختی، از محتوای این تماس‌ها آگاه شود. این اسناد نشان می‌دهند که تحلیلگران NSA حدود یک دهه پیش ساخت «Google for Voice» را جشن گرفته‌اند.

گرچه دست یافتن به تبدیل کامل گفتار به نوشتار هنوز هم آرزوی جامعه امنیتی است؛ اما اسناد اسنودن نشان از استفاده گسترده از جستجوی کلمات کلیدی و برنامه‌های کامپیوتری دارند که برای تحلیل و استخراج محتوا از مکالمات صوتی طراحی شده‌اند و حتی از الگوریتم‌های پیشرفته برای نشان‌گذاری محتوای مورد علاقه استفاده می‌کنند.

این اسناد شامل نمونه‌هایی واضح استفاده از فناوری تشخیص صدا در مناطق جنگی مانند عراق و افغانستان و مناطقی همچون آمریکای جنوبی هستند. اما این اسناد نشان نمی‌دهند که سازمان‌های جاسوسی تا چه اندازه از این فناوری استفاده کرده‌اند، به‌خصوص در برنامه‌هایی که گفتگوی زیادی وجود داشته و افراد ساکن ایالات متحده بوده‌اند.

جاسوسی از تماس‌های بین‌المللی همیشه بخش عمده‌ای از وظایف آژانس امنیت ملی آمریکا بوده است؛ اما اینکه یک نفر باید به این مکالمات گوش بدهد، بدان معنا است که تنها درصد کمی از این مکالمات شنود می‌شود. NSA توانسته است با استفاده از پیشرفت‌های تشخیص صدای اتوماتیک وارد عصر شنود حجمی شود.

همه این‌ها بدون هیچ نظارت عمومی، رسیدگی رسمی یا اقدام قانونی انجام شد. کنگره حتی هیچ سرنخی از اینکه چه اتفاقی در حال افتادن است، ندارد. لایحه USA Freedom Act که در حال حاضر در کنگره در حال بررسی است، اصلا به این موضوع نمی‌پردازد. این لایحه برنامه‌ای از NSA را پایان می‌دهد که هیچ ارتباطی با جمع‌آوری کردن محتوای مکالمه ندارد. این لایحه، برنامه دولت برای جمع‌آوری اطلاعات تماس، چه کسی چه زمانی با چه کسی تماس گرفت و طول تماس، را پایان می‌دهد. حتی اگر این لایحه به قانون تبدیل شود، مکانیسم‌های زیادی برای جمع‌آوری اطلاعات ارتباطات متنی و صوتی افراد بیگناه در ایالات متحده و سراسر دنیا در آن وجود دارد.

کارشناسان آزادی‌های مدنی معتقدند که توانایی‌های تبدیل گفتار به نوشتار NSA نشان از حمله به حریم خصوصی در دنیایی است که از آنالوگ به سمت دیجیتال حرکت می‌کند. جنیفر گرانیک از دانشگاه استنفورد می‌گوید:

من فکر می‌کنم مردم درک نمی‌کنند که اقتصاد جاسوسی تغییر کرده است. زمانی که شما این توانایی را داشته باشید، پرسش این است: چگونه از آن استفاده شود؟ آیا آن‌ها می‌توانند تمام تماس‌های صوتی آمریکایی‌ها را ثبت کنند، سپس تمام این تماس‌ها را به متن تبدیل کنند و در این متن‌ها، جستجو انجام دهند؟ این ممکن است آن کاری نباشد که آن‌ها در حال حاضر انجام می‌دهند، اما در آینده خواهند توانست این کار را انجام دهند. شما چگونه می‌توانید بدانید که آن‌ها سیاست خود را تغییر داده‌اند؟

در حقیقت، مقامات NSA در مورد توانایی‌هایشان در تبدیل گفتار به نوشتار و گستره استفاده از آن، مخفی‌کاری کرده‌اند که این، راه را برای چند امکان باز می‌کند. به گفته گرانیک، پنهان‌کاری در اینجا کلید است. او می‌گوید:‌

ما نمی‌دانیم چه تعداد افراد بیگناه تحت تأثیر این برنامه بوده‌اند، یا چه تعداد از این افراد آمریکایی بوده‌اند.

من می‌توانم آن را جستجو کنم

توماس دریک، افشاگر NSA که در این آژانس کار کرده و به عنوان یک متخصص پردازش تعلیم دیده است، می‌گوید پس از ۱۱ سپتامبر ۲۰۰۱ تکاپوی عظیمی برای تبدیل حجم زیادی از ارتباط صوتی به متن و اطلاعات مفید وجود داشت. گوش‌ انسان راه‌حل مسئله نبود. او می‌گوید: «به تعداد کافی گوش وجود نداشت.»

متن‌هایی که از سیستم جدید به دست آمد، کامل نبود. او می‌گوید:

حتی اگر این متن‌ها ۱۰۰ درصد کامل نباشند، می‌توانم اطلاعات زیادی به‌دست آورم. این به مراتب قابل ‌دسترسی‌تر است. من می‌توانم آن را جستجو کنم.

تبدیل گفتار به نوشتار باعث می‌شود که NSA راحت‌تر دریابد چه چیز را جمع‌آوری و ذخیره کرده است. دریک می‌گوید:

انقلاب این بود که می‌شد این کار را در مقیاس زیاد انجام داد.

ان اس ای

داده بیشتر، قدرت بیشتر، عملکرد بهتر

بخش تحقیقات پیشرفته (دارپا) وزارت دفاع آمریکا از دهه ۱۹۷۰ به پشتیبانی مالی از تحقیقات آکادمیک و تجاری در زمینه تبدیل گفتار به نوشتار پرداخت. از میان این تحقیقات، چندین سیستم ساخته شد که همگی توانایی تبدیل گفتار به نوشتار داشتند، ولی همه آن‌ها کند بودند؛ اما به تدریج همه آن‌ها بهبود یافتند و توانستند با داده‌های بیشتر و با سرعت بیشتر کار کنند. 

دن کافمن، مدیر بخش نوآوری اطلاعاتی دارپا می‌گوید توانایی دولت در تبدیل نوشتار به گفتار هنوز محدود است. او می‌گوید تبدیل تماس‌های صوتی به متن بسیار دشوار است چون نویز زیادی وجود دارد و غیررسمی نیز هست. کافمن می‌گوید: «می‌توانم به شما بگویم که ما در انجام این کار خوب نیستیم.»

او می‌گوید دولت در محیط‌های ایده‌آل مانند پخش اخبار می‌تواند به راحتی گفتار را به نوشتار تبدیل کند. 

یکی از اسنادی که متعلق به سال ۲۰۰۸ است و اسنودن آن را منتشر کرده، نشان از آن دارد که هفت سال پیش از تاریخ سند، تبدیل نوشتار به گفتار در برنامه‌های اخبار با استفاده از برنامه‌ای با نام Enhanced Video Text and Audio Processing به خوبی انجام شده است:

EViTAP یک برنامه کاملا اتوماتیک برای کنترل اخبار است. مهمترین ویژگی این برنامه این است که می‌تواند اخبار را در شش زبان از جمله عربی، ماندارین، روسی، اسپانیایی، انگلیسی و فارسی تحلیل کند. ممکن است بپرسید این برنامه چگونه کار می‌کند. این برنامه از تشخیص گفتار اتوماتیک (Automatic Speech Recognition) استفاده می‌کند. سپس ترجمه ماشینی، متن‌های به‌دست آمده را به انگلیسی برمی‌گرداند. بفرمایید! تکنولوژی شگفت‌انگیز است.

حتی یک نسخه از این برنامه به صورت تجاری به فروش می‌رسد.

متخصصان تشخیص گفتار می‌گویند سرعت پیشرفت در این زمینه به صورت انفجاری بوده است. با ارزان‌ و بهینه‌ شدن امکان ذخیره داده، شرکت‌های تکنولوژی قادر بودند داده‌های صوتی عظیمی روی سرورهای خود نگهداری کنند و این به آن‌ها اجازه می‌داد که دائما مدل‌های خود را بهبود دهند. شبکه‌های عصبی عمیق با توانایی تشخیص طرح‌ِ مشابه مغز انسان، باعث شدند که تهیه متن از گفتار آسان‌تر شود.

اسناد اسنودن نشان می‌دهند که همان پیشرفت‌هایی که در بخش تجاری دیده شده است، در NSA نیز با استفاده از توان پردازشی بالا و داده‌های زیاد به‌ دست آمده است. در حقیقت، NSA برای یک دهه سیستم‌های تبدیل گفتار به نوشتار جدید و بهبود‌یافته عرضه کرده است.

اولین نسل این سیستم‌ها که قابلیت جستجو برای کلمات کلیدی نیز داشت با نام RHINEHART و در سال ۲۰۰۴ عرضه شد. در یکی از اسناد NSA در این زمینه آمده است:

تکنولوژی جستجوی کلمات صوتی به کارشناسان اجازه می‌دهد که اطلاعات را بر اساس محتوای آن‌ها پیدا و اولویت‌بندی کنند.

بر اساس این سند، تحلیلگران امنیتی که در بخش ضدتروریسم فعال هستند، قادرند کلمات مرتبط با ساخت بمب همچون «منفجر کننده» و «پیروکسید هیدروژن» و همچنین نام مکان‌ها و افرادی همچون «بغداد» و «مشرف» را تشخیص دهند.

RHINEHART هم برای جستجوی همزمان و هم برای جستجو در اطلاعات گذشته طراحی شده بود. در سال ۲۰۰۶، RHINEHART در طیف گسترده‌ای از مأموریت‌ها و زبان‌ها استفاده می‌شد.

حتی در همان زمان محصول پیشرفته‌تری از بخش تکنولوژی زبان انسانی ان‌اس‌ای (HLT) منتشر شد. این سیستم VoiceRT نامیده می‌شد و اولین بار در بغداد رونمایی شد و توانایی تحلیل یک میلیون قطعه اطلاعات در روز داشت.

بر اساس سند دیگری، هدف این بود که با استفاده از سیستم تشخیص گفتار تمام اطلاعات به‌دست آمده، ایندکس، تگ و گراف شوند. در بخشی از این سند آمده است: «یک تحلیلگر تنها می‌توانست با استفاده از سیستم HLT، میلیون‌ها قطعه اطلاعات را در روز آنالیز کند و تنها بر بخش کوچکی از آن متمرکز شود.»

سند دیگری مرتبط به سال ۲۰۰۹ که از سازمان اطلاعاتی بریتانیا (GCHQ) به‌دست آمده است، نشان می‌دهد که NSA سیستمی برای تشخیص گفتار به نوشتار دارد که از ۱۰ سال قبل از این تاریخ به کار گرفته می‌شود. GCHQ در این دوره روی برنامه خود برای تشخیص گفتار زبان انگلیسی آمریکایی و دیگر زبان‌ها به شدت سرمایه‌گذاری کرده است.

VoiceRT نیز چند سال پس از عرضه، پشت سر گذاشته شد. بر اساس اسناد به‌دست آمده، VoiceRT در سال‌های ۲۰۱۱ و ۲۰۱۲ از دور خارج شد و جای خود را به سیستم جدید داد. سیستم جدید که SPIRITFIRE نامیده می‌شد، توانایی مدیریت داده‌های بیشتری دارد.

ان اس ای

استفاده گسترده در خارج

NSA توانایی دارد که ارتباطات صوتی را چه از طریق تلفن معمولی، چه از طریق موبایل و چه روی اینترنت شنود کند. برخی از اسنادی که منتشر کرده است، نشان می‌دهند که NSA در طول دهه گذشته تلاش عظیمی برای دستیابی به محتوای صوتی روی اینترنت مانند اسکایپ داشته است. این اسناد نشان می‌دهند NSA توانسته است با این حقیقت سازگار شود که بسیاری از تماس‌های تلفنی، حتی آن‌هایی که با تلفن معمولی و موبایل گرفته می‌شوند، در نهایت به صورت پکت‌های دیجیتال رهسپار فیبرهای نوری می‌شوند که NSA به طور مؤثر برای یافتن اطلاعات تماس و دیگر اطلاعات شنود می‌کند.

آرشیوی که اسنودن منتشر کرده است، نشان از استفاده گسترده NSA از تکنولوژی تبدیل گفتار به نوشتار برای جستجوی تماس‌های بین‌المللی در کشورهایی همچون عراق،‌ افغانستان، مکزیک و آمریکای جنوبی دارد. به عنوان مثال، تبدیل گفتار به نوشتار بخشی از برنامه Real Time Regional Gateway بود که رئیس وقت NSA، کیث بی. الکساندر، اجرا کرده بود. هدف این برنامه تقریبا همه چیز بود؛ هر اس‌ام‌اس، تماس تلفنی و ایمیل عراقی که بتوان با استفاده از کامپیوترهای قدرتمند این آژانس آن را تحلیل کرد.

Real Time Regional Gateway نقش اساسی در نابودی شبکه‌های شورشی عراقی و کاهش مرگ و میر ناشی از بمب‌های کنار جاده‌ای داشت. ایندکس و جستجوی قطعات صوتی از سال ۲۰۰۶ در عراق فعال بود. RTRG از سال ۲۰۰۸ در افغانستان نیز استفاده شد.

یک اسلاید از یک ارائه پاورپوینت آژانس امنیت ملی آمریکا در سال ۲۰۰۶ به نقش VoiceRT می‌پردازد (تصویر زیر):

ان اس ای

جستجوی کلمات کلیدی به شنود ایرانیان نیز گسترش یافت. یک سند سال ۲۰۰۶ نشان می‌دهد که RHINEHART به طور موفقیت‌آمیز برای پیدا کردن کلماتی همچون «مذاکرات» و «آمریکا» استفاده شد و توانست یک مکالمه مهم درباره دولت جدید عراق را کشف کند.

بر اساس سندی دیگر متعلق به سال ۲۰۱۱، NSA در سال ۲۰۱۱ آزمایشگاه‌های تکنولوژی زبانی را در افغانستان، تأسیساتی در جورجیا و تگزاس و پست‌هایی برای شنود در آمریکای لاتین دایر کرد. بر اساس این سند، تحلیل گفتار به نوشتار در زبان اسپانیایی کامل‌ترین بوده و موفقیت زیادی در مورد جستجوی کلمات کلیدی اسپانیایی به‌دست آمده است.

این سند همچنین یک مثال از تگزاس نشان می‌دهد. در این ایالت، یک تحلیلگر تازه‌کار توانست با استفاده از جستجوی کلمات کلیدی اطلاعاتی از یک شخص که در قاچاق مواد مخدر دست داشت، پیدا کند. در یک مثال دیگر، یک مأمور در آمریکای جنوبی توانست در مدت زمان کمی اطلاعاتی مرتبط با یک مسئول کوبایی پیدا کند.

تحلیلگران تگزاسی دریافتند که تکنولوژی جدید نعمتی برای جاسوسی خواهد بود. مدیر NSA تگزاس در این باره می‌گوید:

از پیدا کردن تکنولوژی تا یافتن تهدیدات انفجاری در خیابان‌های مکزیک یا پیدا کردن اطلاعات در مورد قتل مأمور ایالات متحده در خیابان‌های مکزیک، این تکنولوژی همان کاری را انجام داده که برایش تبلیغ شده بود؛ این تکنولوژی زمانی که فرصت بسیار کم بود، پروسه یافتن اطلاعات مرتبط را شتاب بخشید.

نویسنده این سند در معرفی تکنولوژی جدید به رهبران نظامی در افغانستان نیز دست داشته است. در بخشی از این سند آمده است:

ما از قندهار گرفته تا کابل، مسافرت کردیم تا چشم‌انداز رهبران NSA را توضیح دهیم و تیم‌های SIGINT را با تکنولوژی تحلیلی زبان انسانی و اینکه چه کاری امروز می‌توانند انجام دهند و اینکه به چه چیزهایی نیاز دارد تا به تغییردهنده بازی تبدیل شود، آشنا کردیم.

ان اس ای

گستره استفاده داخلی مشخص نیست

چیزی که در این اسناد به خوبی مشخص نیست، این است که NSA تا چه حد از این تکنولوژی برای جستجو و ایندکس کردن مکالمات صوتی ساکنان ایالات متحده استفاده کرده است. NSA به سؤالات در این مورد پاسخ نداد.

ان اس ای

بر اساس اطلاعات طبقه‌بندی نشده، سیستم NSA می‌تواند فایل‌های صوتی مرتبط با مکالمات انسانی را مرتب و اولویت‌بندی کند و برای این کار از مدل‌های آماری استفاده می‌شود که با استفاده از شنودهای واقعی آپدیت می‌شوند و بهبود می‌یابند. بر خلاف این موارد، پارامترهای مخصوص این سیستم به‌شدت طبقه‌بندی شده هستند. سخنگوی این سازمان، ونی واینز، در ایمیلی در این مورد می‌گوید:

آژانس امنیت ملی آمریکا از تکنولوژی‌های مختلفی در مأموریت‌های خارجی خود استفاده می‌کند. این قابلیت‌ها که توسط متخصصان متعهد این آژانس انجام و توسط مقامات داخلی و خارجی نظارت می‌شود، کمک می‌کند که تهدید تروریست‌های بین‌المللی، قاچاق انسان، مجرمان سایبری و آن‌هایی را که می‌خواهند به شهروندان و متحدان ما ضربه بزنند، دفع کنیم.

واینز به سؤالات در مورد حریم خصوصی در تماس‌های داخلی و تماس‌های داخلی به خارجی پاسخی نداد؛ اما نوشت:

آژانس امنیت ملی آمریکا همانطور که رئیس جمهور در سال ۲۰۱۴ دستور داد، روش‌های قدرتمندی برای حفاظت از حریم خصوصی نه تنها شهروندان ایالات متحده بلکه افراد خارجی، اعمال می‌کند.

منحنی یادگیری جدید

بیکشا راج، متخصص تشخیص گفتار، زمان حال را به روزهای اولیه اینترنت تشبیه می‌کند که مردم نمی‌دانستند چیزهایی که می‌نویسند، همیشه حفظ خواهد شد. راج که در حال حاضر در دانشگاه کارنگی ملون تدریس می‌کند، می‌گوید:

زمانی که در دهه ۹۰ میلادی شروع به استفاده از اینترنت کردم، فقط پست‌ منتشر می‌کردم. هیچ وقت متوجه نبودم که ۲۰ سال بعد می‌توانم با استفاده از گوگل همه اینها را پیدا کنم. فرض کنید که من محتوای نامناسبی در اینترنت پست می‌کردم، این پست همیشه مرا خجالت‌زده می‌کرد.

او می‌گوید این موضوع در مورد ارتباطات صوتی نیز صادق است. وی معتقد است که چیزهای بیشتری در مخاطره هستند؛ چون بیشتر ارتباطات دنیا، صوتی است و ارتباطات صوتی همیشه به نوعی ارتباط خصوصی در نظر گرفته می‌شود. او می‌گوید:

مردم هنوز بزرگی مشکلی را که ممکن است با آن مواجه شوند، درک نمی‌کنند. این تنها برای جاسوسی نیست. مردم همیشه در حال استفاده از سرویس‌های صوتی هستند. اما این صدا کجا می‌رود؟ اینها در جایی قرار می‌گیرند. این بالاخره به جایی می‌رود. شما با اعتماد زندگی می‌کنید. در حال حاضر من فکر نمی‌کنم شما بتوانید به کسی اعتماد کنید.

نیاز به قوانین جدید

کیم تای‌پیل، یکی از چند فردی است که از یک دهه پیش در حال شناساندن این موضوع به سیاست‌گذاران است که قوانین جاسوسی فعلی نمی‌توانند پاسخگوی ارتباطات شبکه‌ای جهانی و تکنولوژی‌های پیشرفته همچون تشخیص گفتار باشند. تای‌پیل می‌گوید:

ما در دنیایی زندگی می‌کنیم که چیزهایی که در دنیای آنالوگ گذرا بودند، به صورت رکورد دائمی در آمده‌اند. سؤال این است: پیامدهای این موضوع چیست و چه قوانینی باید با این پیامدها سرو کله بزنند؟ توانایی دولت برای جستجوی صوتی در حجم زیاد، چیزی است که ما باید با آن زندگی کنیم. اما حداقل باید قوانین عمومی و نظارت مؤثر وجود داشته باشد که مطمئن شویم این اطلاعات فقط برای اعمال قانون و مسائل امنیت ملی و مطابق با قانون اساسی استفاده می‌شوند.

تای‌پیل معتقد است سیستمی که کامپیوترها صداهای مشکوک را مشخص می‌کنند، کمتر به حریم خصوصی حمله می‌کند تا سیستمی که انسان شنود می‌کند. اما جی استنلی از ACLU معتقد است که تمایز بین انسان و ماشین در حریم خصوصی، پیامدهای حاصله و اثرات مخرب برای بیان، نامربوط است. او می‌گوید:

چیزی که افراد اهمیت می‌دهند و چیزی که اثرات مخربی دارد، نتیجه است. من فکر می‌کنم مردم در طول زمان یاد خواهند گرفت که به دلیل نتایجی که به بار می‌آورد، از شنود کامپیوتری به همان اندازه شنود انسانی بترسند.

در حقیقت، گوش‌دادن کامپیوترها می‌تواند نگرانی‌های جدیدی پدید آورد. یکی از اسناد NSA نشان می‌دهد این سازمان در حال توسعه تکنولوژی بوده است که با استفاده از رفتار گذشته تحلیلگر، درمی‌یابد که اطلاعات شنودشده می‌تواند مورد نیاز کدام تحلیلگر باشد. این سند با استناد به توانایی آمازون در رهگیری و پیش‌بینی کردن تمایلات خریدار، به سیستمی اشاره می‌کند که شنودهای جالب را مشخص می‌کرد.

به گفته فیلیپ راگاوی، پرفسور علوم کامپیوتر دانشگاه دیویس کالیفرنیا ، جستجوی کلمات کلیدی کمترین مشکل ما خواهد بود. او هشدار می‌دهد:

زمانی که آژانس امنیت ملی آمریکا با استفاده از پردازش زبان طبیعی، یک نفر را به عنوان «مهم» برچسب می‌زند، ممکن است هیچ دلیل قابل فهم انسانی وجود نداشته باشد؛ به جز اینکه این مجموعه گفتار به آنچه ما فکر می‌کنیم مهم است، شباهت دارد یا اینکه این مجموعه گفتار با بقیه متفاوت است،.

او در ادامه می‌افزاید:

اگر الگوریتم‌هایی که NSA برای تشخیص تهدیدها استفاده می‌کند، بسیار پیچیده باشند؛ غیر ممکن خواهد بود که معیارهای جامعه امنیتی برای قضاوت کردن در مورد یک فرد را بدانیم. تنها کاری که افراد می‌توانند انجام دهند، این است که شبیه دیگر افراد رفتار کنند.

 
منبع theintercept