کشف روش سیستماتیک جیلبریک ChatGPT
در این روش سیستماتیک میتوان از مدلهای هوش مصنوعی برای کشف جیلبریکهای مدلهای زبانی بزرگ استفاده کرد.
استارتاپ Robust Intelligence با همراهی محققان دانشگاه ییل، ازجمله دکتر «امین کرباسی»، دانشیار ایرانی این دانشگاه، از روشی سیستماتیک برای جیلبریک مدلهای زبانی بزرگ (LLM) مانند مدل GPT-4 پرده برداشت.
در این روش از مدلهای هوش مصنوعی برای کشف جیلبریکها استفاده میشود. این استارتاپ میگوید که برخی از خطرات موجود در مدلهای زبانی بزرگ نیاز به توجه جدیتری دارند.
استارتاپ Robust Intelligence با یک ترفند جدید و با یکسری حملات برنامهریزیشده، ضعفهای اساسی در مدلهای زبان بزرگ را مشخص کرد و نشان داد که روشهای موجود برای محافظت از آنها بهخوبی عمل نمیکند.
این جیلبریک جدید از سیستمهای هوش مصنوعی برای تولید و ارزیابی پرامپتهایی استفاده میکند که سعی دارند با ارسال درخواستها به یک API (واسط برنامهنویسی کاربردی) سازوکارهای امنیتی چتباتهای هوش مصنوعی را دور بزنند.
دیدگاهتان را بنویسید