Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Съпругата към мъжа си: - Ако продължаваш да играеш карти всяка вечер, ще си намеря любовник! - Гледай, само да не е от нашето каре,…
Прочети целия
Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
,

Спрете да поставяте мокрия си телефон в ориз, това може да влоши нещата

Любопитно Преди 8 минути

Ако смартфонът ви падне във вода, почти сигурно някой ще ви каже да го сложите в ориз

„Бий се или бягай“: Реакцията, която задейства тялото ви при шум в ушите

„Бий се или бягай“: Реакцията, която задейства тялото ви при шум в ушите

Любопитно Преди 14 минути

Хроничният тинитус е състояние, при което постоянно бръмчене, щракане или високочестотен звън може да се чуе в едното или и двете уши

.

Проучване: Луната тайно се храни със земната атмосфера от милиарди години

Любопитно Преди 40 минути

Този изненадващ случай на космически канибализъм се дължи на свръхзаредени слънчеви ветрове

<p>България получи оценка Ниво 1 от САЩ</p>

САЩ признаха България за безопасна за туристите

Свят Преди 8 часа

Това я поставя редом с други държави с нисък риск

Кевин Кийгън е диагностициран с рак

Кевин Кийгън е диагностициран с рак

Свят Преди 8 часа

74-годишният Кийгън наскоро бил хоспитализиран със "стомашни симптоми"

Спасиха баща и син след часове във водите на Арда

Спасиха баща и син след часове във водите на Арда

България Преди 9 часа

В региона са паднали над 120 литра дъжд на квадратен метър

Венецуела призна, че преговаря със САЩ за петрол

Венецуела призна, че преговаря със САЩ за петрол

Свят Преди 9 часа

Процесът се осъществява по модел, сходен с този, прилаган при отношенията с международни компании

Ердоган отрече САЩ да са му пращали Мадуро

Ердоган отрече САЩ да са му пращали Мадуро

Свят Преди 9 часа

Ердоган каза, че е изразил опасения за стабилността на Венецуела

<p>Агент уби жена в Минеаполис и това може да взриви САЩ</p>

Имиграционен агент стреля в Минеаполис, загина жена

Свят Преди 10 часа

Около 2000 федерални агенти са били разположени в Минеаполис

Мицкоски отново атакува България

Мицкоски отново атакува България

Свят Преди 11 часа

Мицкоски: Съжалявам, че предишното правителство влезе в тази авантюра

САЩ обявиха тристепенен план за Венецуела

САЩ обявиха тристепенен план за Венецуела

Свят Преди 11 часа

Рубио: Не искаме да се стигне до хаос

Обявиха бедствено положение в община Крумовград

Обявиха бедствено положение в община Крумовград

България Преди 11 часа

Язовир Тихомир прелива, като водите се вливат в река Крумовица

Обрат, Тръмп: САЩ винаги ще подкрепят НАТО

Обрат, Тръмп: САЩ винаги ще подкрепят НАТО

Свят Преди 12 часа

Тръмп: Единствената нация, от която Китай и Русия се страхуват и уважават, е САЩ

Съд спря новия формат на матурата по математика след 7 клас

Съд спря новия формат на матурата по математика след 7 клас

България Преди 12 часа

Промяната беше оспорена от родители

Столична община договори сметопочистването в още шест района

Столична община договори сметопочистването в още шест района

България Преди 12 часа

Терзиев: Битката да спестим на софиянци няколкостотин милиона лева не е никак лека

<p>САЩ ще продават венецуелски петрол за &quot;неопределено време&quot;</p>

Райт: САЩ ще продават венецуелски петрол за неопределено време

Свят Преди 13 часа

Изявлението му идва, след като Съединените щати конфискуваха допълнителни количества санкциониран петрол, включително чрез задържането на руски танкер