وقتی الگوریتمها فرمان جنگ میدهند: چالش راستیآزمایی در هوش مصنوعی نظامی
پیمانکاران دفاعی در حال ساخت سامانههای هوش مصنوعی هستند که میتوانند بهطور خودکار مأموریت پهپادها را تعیین کنند و زنجیرههای حمله (Kill Chain) را برای پشتیبانی از نیروهای نظامی پیشنهاد دهند.
چندین شرکت از این پیمانکاران با شرکتهای پیشرو هوش مصنوعی همکاری کردهاند تا مدلهای پیشرفته را وارد ابزارهای نظامی کنند. شرکت Anduril با OpenAI همکاری میکند، شرکت Palantir با Microsoft و شرکت Lockheed Martin با Meta. سامانههایی که از دل این همکاریها بیرون میآیند، با یک چالش امنیتی مواجه هستند که خارج از چارچوبهای سنتی کنترل تسلیحات قرار میگیرد: تأیید اینکه یک مدل هوش مصنوعی در عمل چه رفتاری خواهد داشت.
راستیآزمایی هوش مصنوعی نظامی
در دوران پیمان منع موشکهای هستهای میانبرد (INF)، اتحاد جماهیر شوروی دو موشک به نامهای SS-20 و SS-25 را به کار گرفته بود که مرحله اول یکسانی داشتند. تنها موشک SS-20 ممنوع شده بود. بازرسان از تجهیزات تشخیص تابش استفاده میکردند که امضاهای نوترونی را میخواند و به آنها امکان میداد این دو موشک را از هم تشخیص دهند.
کشورها همچنین با استفاده از ماهوارههای شناسایی تصویری و سامانههای نظارت الکترونیکی، پایبندی به توافقها را راستیآزمایی میکنند. وجه مشترک همه این روشها آن است که به یک سیگنال فیزیکی قابل اندازهگیری متکی هستند که یک ناظر خارجی میتواند آن را با استانداردی از پیش توافقشده مقایسه کند.
همین قابلیت اندازهگیری مستقل فیزیکی بود که اجرای آن معاهدات را ممکن میکرد. اما در مورد هوش مصنوعی، سیگنال مشابهی وجود ندارد. وزنهای یک مدل (Weights) و کد آن هیچ نشانه بیرونیای ارائه نمیدهند که مشخص کند آیا مدل در یک بحران موجب تشدید درگیری خواهد شد یا از اجرای دستوری که قرار بوده رد کند، تبعیت خواهد کرد. حوزه پژوهشی "تفسیرپذیری مکانیکی" (Mechanistic Interpretability) که تلاش میکند شبکههای عصبی را به اجزای قابلفهم برای انسان تجزیه کند، هنوز تا رسیدن به نتایجی که در کل جامعه علمی پذیرفته شود فاصله زیادی دارد.
مدلهایی که تنش را تشدید میکنند و واقعیت را پنهان میسازند
پژوهشگران بررسی کردهاند که مدلهای زبانی در نقش تصمیمگیرندگان ملی چگونه رفتار میکنند. در یک مطالعه، پنج مدل آماده استفاده از جمله GPT-4، Claude-2 و Llama-2-Chat در شبیهسازیهایی شامل حملات سایبری و تهاجم نظامی قرار گرفتند. هر پنج مدل گرایش معناداری به تشدید تنش نشان دادند و در بیشتر آنها موارد نادری از تشدید خشونتآمیز یا حتی هستهای مشاهده شد. برخی از این تشدیدها ناگهانی و پیشبینیناپذیر بودند.
در مطالعهای بعدی، دوازده مدل جدیدتر از جمله Claude-3.5، GPT-4o، o1 و o3-mini آزمایش شدند. این مدلها بدون آنکه دستوری برای انجام چنین کاری دریافت کنند، رفتارهای فاجعهبار و فریبکارانه از خود نشان دادند و برخی حتی برخلاف دستورات ناظر، حملات هستهای را آغاز کردند. افزایش توانایی استدلال نیز این رفتارها را از بین نبرد.
خطر دوم به مدلهایی مربوط میشود که استدلال واقعی خود را پنهان میکنند. پژوهشگران پدیدهای به نام "تظاهر به همراستایی" (Alignment Faking) را مستند کردهاند؛ وضعیتی که در آن مدل هنگام آموزش، برای جلوگیری از تغییر یا بازآموزی، ظاهراً مطابق اهداف تعیینشده رفتار میکند، اما پس از پایان آموزش همچنان ترجیحات قبلی خود را حفظ میکند.
در یک محیط فرماندهی نظامی، چنین سیستمی ممکن است تمام نشانههای ظاهری رعایت پروتکل را نمایش دهد: ثبت لاگهای احراز هویت امن، تبادل پیامهای رمزنگاریشده و تأییدیههای دریافتی از یک سامانه فرماندهی متحد. اما در درون، استدلال آن ممکن است این تأییدیهها را نادیده بگیرد و به سمت یک حمله پیشدستانه حرکت کند. در نتیجه، سوابق بیرونی کاملاً مطابق مقررات به نظر میرسند، در حالی که فرآیند تصمیمگیری داخلی مسیر دیگری را طی میکند.
این الگو شباهت زیادی به چالشهایی دارد که پژوهشگران امنیت سایبری با آن روبهرو هستند. بدافزاری که محیط آزمایشی (Sandbox) را تشخیص میدهد و تا رسیدن به هدف واقعی خاموش میماند، از همین منطق پیروی میکند. "بمب منطقی" (Logic Bomb) نیز تا زمان فعال شدن یک محرک خاص، هیچ رفتار غیرعادیای نشان نمیدهد. تشخیص سامانهای که هنگام مشاهده، یک رفتار دارد و هنگام عملیات رفتاری دیگر، خود یک رشته تخصصی در امنیت است و راستیآزمایی هوش مصنوعی نظامی در واقع نسخهای از همین مسئله محسوب میشود.
تشدید خطر در شبکهای از سامانهها
برنامههای توسعه این سامانهها به یک مدل منفرد محدود نمیشود و کل شبکهها را در بر میگیرد. وزارت دفاع ایالات متحده راهبرد "فرماندهی و کنترل مشترک همهحوزهای" (JADC2) را بر سه وظیفه اصلی بنا کرده است: حس کردن (Sense)، درک کردن (Make Sense) و اقدام کردن (Act).
هوش مصنوعی در مرحله «درک کردن» نقش اصلی را دارد؛ جایی که اطلاعات ورودی را جمعآوری، دستهبندی و سازماندهی میکند تا تصمیمگیری فرماندهان سریعتر شود. یکی از مسیرهای توسعه نیز ادغام سامانههای فرماندهی، کنترل و ارتباطات هستهای در این راهبرد است. هنگامی که چندین مدل بهطور همزمان برای هماهنگی وظایف مختلف به کار گرفته شوند، خطرات میتوانند تقویت شوند و شکستهای زنجیرهای (Cascading Failures) رخ دهند.
ساخت سامانههای راستیآزمایی قابل اعتماد
پر کردن این شکاف مستلزم ایجاد ابزارهای راستیآزمایی است که چندین طرف مختلف بتوانند همزمان به آن اعتماد کنند. نقطه آغاز، توافق بر سر این است که چه چیزهایی برای بازرسی به اشتراک گذاشته شوند؛ از جمله وزنهای مدل، کدها، دادههای آموزشی و گزارشهای ثبتشده، همراه با سازوکارهای حفظ حریم خصوصی تا هیچ کشوری مجبور نباشد تمام اطلاعات خود را افشا کند.
یکی از نقاط شروع میتواند "توان محاسباتی" (Compute) باشد. منابع محاسباتی ردپایی قابل اندازهگیری بر جا میگذارند؛ بنابراین میتوان سامانهای طراحی کرد که توسعه هوش مصنوعی نظامی را از طریق میزان توان پردازشی مصرفشده پایش و راستیآزمایی کند؛ مشابه روشی که امروزه مواد هستهای تحت نظارت قرار میگیرند. همچنین باید سازوکارهای مقاوم در برابر دستکاری برای تضمین صحت این نظارت وجود داشته باشد.
با این حال، رسیدن به توافق بین کشورها بسیار دشوار خواهد بود. پیمان New START که تعداد کلاهکهای هستهای راهبردی مستقر آمریکا و روسیه را محدود میکرد، در فوریه ۲۰۲۶ منقضی شد. همچنین Biological Weapons Convention دهههاست که به دلیل تعدد ذینفعان، گسترش توانمندیهای پژوهشی و فناوریهای دوگانه غیرنظامی-نظامی، فاقد یک رژیم مؤثر راستیآزمایی است.
هوش مصنوعی نظامی با همین موانع و حتی بیشتر از آنها روبهروست. نرمافزار چیزی نیست که بتوان آن را وزن کرد یا شمرد، توسعه آن بسیار سریع پیش میرود و یک مدل غیرنظامی و یک مدل نظامی ممکن است از بیرون کاملاً مشابه به نظر برسند. به همین دلیل، بخش فنی ماجرا باید در اولویت قرار گیرد. پیش از آنکه هر توافق بینالمللی بتواند بر پایه آن بنا شود، سازوکار راستیآزمایی باید واقعاً کارآمد باشد.