Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
13-годишно момче с опасност за живота след инцидент с тротинетка в Бургас

13-годишно момче с опасност за живота след инцидент с тротинетка в Бургас

България Преди 26 минути

В резултат на инцидента момчето е със сътресение на мозъка

<p>Нови жертви след руски атаки в Украйна</p>

Руски атаки в Украйна - жертви в Харков и щети по пристанището в Измаил

Свят Преди 2 часа

Дронове удариха жилищни райони и енергийна инфраструктура, има ранени и разрушения

Историческа присъда срещу Google и Meta за вредите върху психичното здраве на младежите

Историческа присъда срещу Google и Meta за вредите върху психичното здраве на младежите

Свят Преди 2 часа

Делото може да промени начина, по който технологичните компании носят отговорност за своите продукти

<p>Четирима убити при атака срещу наркотерористи в Карибско море</p>

САЩ убиха четирима при удар срещу наркокораб в Карибско море

Свят Преди 2 часа

Южното командване твърди, че плавателният съд е бил част от мрежа за трафик на наркотици

<p>Великобритания с нови мерки срещу &quot;сенчестия флот&quot; на Путин&nbsp;</p>

Киър Стармър разреши задържане на руски кораби от "сенчестия флот"

Свят Преди 2 часа

Лондон цели да ограничи финансирането на войната в Украйна чрез износа на петрол

<p>НАТО с тренировка &quot;Neptune Strike&quot; 26-1 във въздушното пространство на България</p>

НАТО започва съвместна тренировка Neptune Strike 26-1 във въздушното пространство на България

България Преди 2 часа

"Neptune Strike" демонстрира способностите на НАТО да използва и интегрира многонационални морски и ударни сили в кратки срокове и на големи разстояния

Показват как ще изглежда бюлетината за вота на 19 април

Показват как ще изглежда бюлетината за вота на 19 април

В изборите ще участват 24 формации - 14 партии и 10 коалиции

Как навикът да скролваме в телефона издава доходите ни

Как навикът да скролваме в телефона издава доходите ни

Любопитно Преди 2 часа

Обърнете внимание на хората около вас, които говорят по телефоните си

Храните, които най-много вредят на мозъка ви

Храните, които най-много вредят на мозъка ви

Любопитно Преди 2 часа

Кои са те и защо вредят на мозъка ви четете в следващите редове

Сладък сън в чиния: 5 храни, които помагат при безсъние

Сладък сън в чиния: 5 храни, които помагат при безсъние

Любопитно Преди 3 часа

Ако някога сте имали проблеми със заспиването, режимът ви на хранене може да играе много по-голяма роля, отколкото предполагате

11 умения, които родителите ни владееха, но поколението Z губи напълно

11 умения, които родителите ни владееха, но поколението Z губи напълно

Любопитно Преди 3 часа

Много хора днес нямат уменията, които техните родители са притежавали. Какви важни житейски умения са нужни на Gen Z, но те често не ги разбират? И кой носи отговорността за тази пропаст?

<p>Учени откриха неподозирана сила на ботокса</p>

Забравете за бръчките: Учени откриха неподозирана сила на ботокса

Любопитно Преди 3 часа

Оказва се, че популярното средство за разкрасяване постига впечатляващ успех при лечение на гангрена и тежка исхемия, като спасява тъканите там, където стандартната медицина се проваля

<p>От слънце до сняг за 48 часа - гответе се за бърза промяна на времето</p>

От слънце до сняг за 48 часа - гответе се за бърза промяна на времето

България Преди 3 часа

Максималните температури ще бъдат между 13° и 18°

САЩ: Тръмп не блъфира, ще ударим Иран по-силно

САЩ: Тръмп не блъфира, ще ударим Иран по-силно

Свят Преди 11 часа

Левит заяви, че цените на горивата ще паднат веднага щом приключи американската военна операция в Иран

Иран обяви, ако САЩ нахлуе, ще удари Червено море

Иран обяви, ако САЩ нахлуе, ще удари Червено море

Свят Преди 13 часа

Проливът Баб ел-Мандеб е сред най-стратегическите в света