وقتی الگوریتم‌ها فرمان جنگ می‌دهند: چالش راستی‌آزمایی در هوش مصنوعی نظامی

پیمانکاران دفاعی در حال ساخت سامانه‌های هوش مصنوعی هستند که می‌توانند به‌طور خودکار مأموریت پهپادها را تعیین کنند و زنجیره‌های حمله (Kill Chain) را برای پشتیبانی از نیروهای نظامی پیشنهاد دهند.

چندین شرکت از این پیمانکاران با شرکت‌های پیشرو هوش مصنوعی همکاری کرده‌اند تا مدل‌های پیشرفته را وارد ابزارهای نظامی کنند. شرکت Anduril با OpenAI همکاری می‌کند، شرکت Palantir با Microsoft و شرکت Lockheed Martin با Meta. سامانه‌هایی که از دل این همکاری‌ها بیرون می‌آیند، با یک چالش امنیتی مواجه هستند که خارج از چارچوب‌های سنتی کنترل تسلیحات قرار می‌گیرد: تأیید اینکه یک مدل هوش مصنوعی در عمل چه رفتاری خواهد داشت.

راستی‌آزمایی هوش مصنوعی نظامی

در دوران پیمان منع موشک‌های هسته‌ای میان‌برد (INF)، اتحاد جماهیر شوروی دو موشک به نام‌های SS-20 و SS-25 را به کار گرفته بود که مرحله اول یکسانی داشتند. تنها موشک SS-20 ممنوع شده بود. بازرسان از تجهیزات تشخیص تابش استفاده می‌کردند که امضاهای نوترونی را می‌خواند و به آن‌ها امکان می‌داد این دو موشک را از هم تشخیص دهند.

کشورها همچنین با استفاده از ماهواره‌های شناسایی تصویری و سامانه‌های نظارت الکترونیکی، پایبندی به توافق‌ها را راستی‌آزمایی می‌کنند. وجه مشترک همه این روش‌ها آن است که به یک سیگنال فیزیکی قابل اندازه‌گیری متکی هستند که یک ناظر خارجی می‌تواند آن را با استانداردی از پیش توافق‌شده مقایسه کند.

همین قابلیت اندازه‌گیری مستقل فیزیکی بود که اجرای آن معاهدات را ممکن می‌کرد. اما در مورد هوش مصنوعی، سیگنال مشابهی وجود ندارد. وزن‌های یک مدل (Weights) و کد آن هیچ نشانه بیرونی‌ای ارائه نمی‌دهند که مشخص کند آیا مدل در یک بحران موجب تشدید درگیری خواهد شد یا از اجرای دستوری که قرار بوده رد کند، تبعیت خواهد کرد. حوزه پژوهشی "تفسیرپذیری مکانیکی" (Mechanistic Interpretability) که تلاش می‌کند شبکه‌های عصبی را به اجزای قابل‌فهم برای انسان تجزیه کند، هنوز تا رسیدن به نتایجی که در کل جامعه علمی پذیرفته شود فاصله زیادی دارد.

مدل‌هایی که تنش را تشدید می‌کنند و واقعیت را پنهان می‌سازند

پژوهشگران بررسی کرده‌اند که مدل‌های زبانی در نقش تصمیم‌گیرندگان ملی چگونه رفتار می‌کنند. در یک مطالعه، پنج مدل آماده استفاده از جمله GPT-4، Claude-2 و Llama-2-Chat در شبیه‌سازی‌هایی شامل حملات سایبری و تهاجم نظامی قرار گرفتند. هر پنج مدل گرایش معناداری به تشدید تنش نشان دادند و در بیشتر آن‌ها موارد نادری از تشدید خشونت‌آمیز یا حتی هسته‌ای مشاهده شد. برخی از این تشدیدها ناگهانی و پیش‌بینی‌ناپذیر بودند.

در مطالعه‌ای بعدی، دوازده مدل جدیدتر از جمله Claude-3.5، GPT-4o، o1 و o3-mini آزمایش شدند. این مدل‌ها بدون آنکه دستوری برای انجام چنین کاری دریافت کنند، رفتارهای فاجعه‌بار و فریبکارانه از خود نشان دادند و برخی حتی برخلاف دستورات ناظر، حملات هسته‌ای را آغاز کردند. افزایش توانایی استدلال نیز این رفتارها را از بین نبرد.

خطر دوم به مدل‌هایی مربوط می‌شود که استدلال واقعی خود را پنهان می‌کنند. پژوهشگران پدیده‌ای به نام "تظاهر به هم‌راستایی" (Alignment Faking) را مستند کرده‌اند؛ وضعیتی که در آن مدل هنگام آموزش، برای جلوگیری از تغییر یا بازآموزی، ظاهراً مطابق اهداف تعیین‌شده رفتار می‌کند، اما پس از پایان آموزش همچنان ترجیحات قبلی خود را حفظ می‌کند.

در یک محیط فرماندهی نظامی، چنین سیستمی ممکن است تمام نشانه‌های ظاهری رعایت پروتکل را نمایش دهد: ثبت لاگ‌های احراز هویت امن، تبادل پیام‌های رمزنگاری‌شده و تأییدیه‌های دریافتی از یک سامانه فرماندهی متحد. اما در درون، استدلال آن ممکن است این تأییدیه‌ها را نادیده بگیرد و به سمت یک حمله پیش‌دستانه حرکت کند. در نتیجه، سوابق بیرونی کاملاً مطابق مقررات به نظر می‌رسند، در حالی که فرآیند تصمیم‌گیری داخلی مسیر دیگری را طی می‌کند.

این الگو شباهت زیادی به چالش‌هایی دارد که پژوهشگران امنیت سایبری با آن روبه‌رو هستند. بدافزاری که محیط آزمایشی (Sandbox) را تشخیص می‌دهد و تا رسیدن به هدف واقعی خاموش می‌ماند، از همین منطق پیروی می‌کند. "بمب منطقی" (Logic Bomb) نیز تا زمان فعال شدن یک محرک خاص، هیچ رفتار غیرعادی‌ای نشان نمی‌دهد. تشخیص سامانه‌ای که هنگام مشاهده، یک رفتار دارد و هنگام عملیات رفتاری دیگر، خود یک رشته تخصصی در امنیت است و راستی‌آزمایی هوش مصنوعی نظامی در واقع نسخه‌ای از همین مسئله محسوب می‌شود.

تشدید خطر در شبکه‌ای از سامانه‌ها

برنامه‌های توسعه این سامانه‌ها به یک مدل منفرد محدود نمی‌شود و کل شبکه‌ها را در بر می‌گیرد. وزارت دفاع ایالات متحده راهبرد "فرماندهی و کنترل مشترک همه‌حوزه‌ای" (JADC2) را بر سه وظیفه اصلی بنا کرده است: حس کردن (Sense)، درک کردن (Make Sense) و اقدام کردن (Act).

هوش مصنوعی در مرحله «درک کردن» نقش اصلی را دارد؛ جایی که اطلاعات ورودی را جمع‌آوری، دسته‌بندی و سازمان‌دهی می‌کند تا تصمیم‌گیری فرماندهان سریع‌تر شود. یکی از مسیرهای توسعه نیز ادغام سامانه‌های فرماندهی، کنترل و ارتباطات هسته‌ای در این راهبرد است. هنگامی که چندین مدل به‌طور هم‌زمان برای هماهنگی وظایف مختلف به کار گرفته شوند، خطرات می‌توانند تقویت شوند و شکست‌های زنجیره‌ای (Cascading Failures) رخ دهند.

ساخت سامانه‌های راستی‌آزمایی قابل اعتماد

پر کردن این شکاف مستلزم ایجاد ابزارهای راستی‌آزمایی است که چندین طرف مختلف بتوانند هم‌زمان به آن اعتماد کنند. نقطه آغاز، توافق بر سر این است که چه چیزهایی برای بازرسی به اشتراک گذاشته شوند؛ از جمله وزن‌های مدل، کدها، داده‌های آموزشی و گزارش‌های ثبت‌شده، همراه با سازوکارهای حفظ حریم خصوصی تا هیچ کشوری مجبور نباشد تمام اطلاعات خود را افشا کند.

یکی از نقاط شروع می‌تواند "توان محاسباتی" (Compute) باشد. منابع محاسباتی ردپایی قابل اندازه‌گیری بر جا می‌گذارند؛ بنابراین می‌توان سامانه‌ای طراحی کرد که توسعه هوش مصنوعی نظامی را از طریق میزان توان پردازشی مصرف‌شده پایش و راستی‌آزمایی کند؛ مشابه روشی که امروزه مواد هسته‌ای تحت نظارت قرار می‌گیرند. همچنین باید سازوکارهای مقاوم در برابر دستکاری برای تضمین صحت این نظارت وجود داشته باشد.

با این حال، رسیدن به توافق بین کشورها بسیار دشوار خواهد بود. پیمان New START که تعداد کلاهک‌های هسته‌ای راهبردی مستقر آمریکا و روسیه را محدود می‌کرد، در فوریه ۲۰۲۶ منقضی شد. همچنین Biological Weapons Convention دهه‌هاست که به دلیل تعدد ذی‌نفعان، گسترش توانمندی‌های پژوهشی و فناوری‌های دوگانه غیرنظامی-نظامی، فاقد یک رژیم مؤثر راستی‌آزمایی است.

هوش مصنوعی نظامی با همین موانع و حتی بیشتر از آن‌ها روبه‌روست. نرم‌افزار چیزی نیست که بتوان آن را وزن کرد یا شمرد، توسعه آن بسیار سریع پیش می‌رود و یک مدل غیرنظامی و یک مدل نظامی ممکن است از بیرون کاملاً مشابه به نظر برسند. به همین دلیل، بخش فنی ماجرا باید در اولویت قرار گیرد. پیش از آنکه هر توافق بین‌المللی بتواند بر پایه آن بنا شود، سازوکار راستی‌آزمایی باید واقعاً کارآمد باشد.

گزارش خطا

پسندها:

اشتراک گذاری

روبیکا واتس‌اپ لینکدین توییتر تلگرام

ارسال پیام