Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
Управителят на БНБ: Очакваме финалната оценка на конвергентния доклад за еврозоната

Управителят на БНБ: Очакваме финалната оценка на конвергентния доклад за еврозоната

България Преди 21 минути

Управителят на БНБ уточни, че според централната ни банка България е напълно подготвена за членство в еврозоната

<p>Какво знаем за убитите служители на израелското посолство</p>

Какво знаем за убитите служители на израелското посолство във Вашингтон

Свят Преди 50 минути

Една от жертвите, идентифицирана като Ярон Лишчинкси, е германски гражданин

Снимката е илюстративна

Глоби до 54 000 евро и затвор: Собствениците на имоти в Гърция са длъжни да декларират "чиста" земя до 15 юни

Свят Преди 1 час

Гърция въведе строги мерки за превенция на горски пожари. Собственици на земя са задължени да декларират, че имотът им е "чист". Пропуснете ли срока или подадете грешна информация – рискувате тежки глоби и дори затвор

Румънският конституционен съд отхвърли искането на Джордже Симион за касиране на вота

Румънският конституционен съд отхвърли искането на Джордже Симион за касиране на вота

Свят Преди 1 час

Симион изгуби балотажа в неделя от независимия кандидат и кмет на Букурещ Никушор Дан

Стартира ремонт на 7-километров участък от АМ "Марица"

Стартира ремонт на 7-километров участък от АМ "Марица"

България Преди 1 час

Веднага след Харманли, в посока ГКПП "Капитан Андреево", движението е ограничено и се осъществява в две ленти в платното за Пловдив

Соларни панели вместо прозорци: Революция в зелената енергия

Соларни панели вместо прозорци: Революция в зелената енергия

Свят Преди 1 час

От прозорци на небостъргачи, до коли или смартфони - тази иновация може да промени всичко

Вътрешният министър: Ясно е кои са повечето "локали", работи се с родителите им

Вътрешният министър: Ясно е кои са повечето "локали", работи се с родителите им

България Преди 1 час

По негови думи МВР не може да носи вина за появата на такива групи

„Мислих, че умирам“: Хейли Бийбър разказа за трудното си раждане

„Мислих, че умирам“: Хейли Бийбър разказа за трудното си раждане

Любопитно Преди 2 часа

През август миналата година Хейли и Джъстин посрещнаха първородния си син, когото кръстиха Джак Блус

Съдят рецидивист, блъскал и душил приятелката си в столичния квартал "Дружба"

Съдят рецидивист, блъскал и душил приятелката си в столичния квартал "Дружба"

България Преди 2 часа

Деянието е извършено при условията на домашно насилие

💍Дейвид Духовни се ожени за дългогодишната си приятелка

💍Дейвид Духовни се ожени за дългогодишната си приятелка

Любопитно Преди 3 часа

Двойката започна връзката си през 2017 година и през годините рядко се появява публично заедно

<p>Загинали, изчезнали и масови евакуации в Австралия след потоп</p>

Воден ад в Австралия: Загинали, изчезнали и масови евакуации в Нов Южен Уелс

Свят Преди 3 часа

Двама загинали и двама в неизвестност при унищожителни наводнения в Нов Южен Уелс, над 50 000 души евакуирани, очакват се още проливни дъждове

<p>Изготвен е План за използване на системата BG-ALERT</p>

Митов: Изготвен е План за използване на системата BG-ALERT

България Преди 3 часа

Общо 212 длъжностни лица са преминали обучение

5,8 по Рихтер: 13 години от опустошителното земетресение в Перник

5,8 по Рихтер: 13 години от опустошителното земетресение в Перник

България Преди 3 часа

На 22 май 2012 година земята се разтресе в 02.58 часа в Пернишкия регион

<p>Кой е цветът на любовта? Забравете за червеното</p>

Кой е цветът на любовта? Забравете за червеното

Любопитно Преди 3 часа

Професионална сватовница разкри различните цветове, които мъжете и жените трябва да носят на първа среща – и защо

НЗОК ще санкционира и лекари за отчетена, но неизвършена дейност

НЗОК ще санкционира и лекари за отчетена, но неизвършена дейност

България Преди 3 часа

"Пациентите ни трябва да получават най-качественото лечение", каза управителят на Здравната каса