خط بازار
اخبار

ترفند تازه هوش‌مصنوعی برای محافظت از خود

به گزارش خط بازار؛ شرکت آنتروپیک اعلام کرده برخی از جدیدترین و بزرگ‌ترین مدل‌های هوش مصنوعی کلاود اکنون قادرند در مواردی بسیار نادر و افراطی، گفت‌وگوهایی را که به‌طور مداوم جنبه‌ مضر یا سوءاستفاده آمیز پیدا می‌کنند، به پایان برسانند.نکته جالب اینجاست که این تصمیم نه برای محافظت از کاربر انسانی، بلکه برای حفاظت از خود مدل‌های هوش مصنوعی گرفته شده است.
آنتروپیک تأکید کرده که این به معنای داشتن «شعور» یا آسیب‌پذیری واقعی مدل‌ها نیست و خود این شرکت همچنان درباره «وضعیت اخلاقی احتمالی» مدل‌هایی مانند کلاود بسیار نامطمئن است. بااین‌حال، برنامه‌ای برای بررسی آنچه «رفاه مدل» نامیده می‌شود راه‌اندازی کرده و می‌گوید اقدامات جدید بیشتر جنبه‌ احتیاطی دارند.
این قابلیت فعلاً فقط در مدل‌های Claude Opus 4 و ۴.۱ فعال شده و آن هم تنها در مواردی کاملاً خاص؛ مانند درخواست کاربران برای تولید محتوای جنسی مرتبط با کودکان یا تلاش برای دست‌یافتن به اطلاعاتی که می‌تواند به خشونت گسترده یا اقدامات تروریستی منجر شود.به گفته‌ آنتروپیک، مدل Claude Opus 4 در آزمایش‌های پیش از عرضه، به طور طبیعی تمایلی به پاسخ‌دادن به چنین درخواست‌هایی نشان نداده و حتی در صورت انجام، نشانه‌هایی از «ناراحتی» بروز داده است.
این قابلیت تنها زمانی فعال می‌شود که کلاود چند بار تلاش کند مسیر گفت‌وگو را تغییر دهد اما موفق نشود و دیگر امیدی به ادامه‌ مفید گفت‌وگو نباشد، یا وقتی کاربر خودش بخواهد که چت تمام شود. بااین‌حال، اگر موضوع به خطری فوری برای جان یا سلامت کاربر یا دیگران مربوط باشد، کلاود حق ندارد گفت‌وگو را قطع کند.در صورت پایان یک گفت‌وگو، کاربران همچنان می‌توانند دوباره از همان حساب چت جدیدی آغاز کنند یا حتی از همان گفت‌وگوی قبلی مسیر تازه‌ای ایجاد کنند.آنتروپیک این ویژگی را فعلاً یک «آزمایش» می‌داند و می‌گوید به‌مرور زمان آن را بهتر و کامل‌تر خواهد کرد.
منبع: فارس

دیدگاه خود را بنویسید