Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
Нора Недкова отпадна на крачка от звездния финал в Hell’s Kitchen

Нора Недкова отпадна на крачка от звездния финал в Hell’s Kitchen

Любопитно Преди 1 час

Тя е ексклузивен гост в подкаста “Кухнята след Ада”

Най-малко 100 убити при въздушен удар на нигерийската армия

Най-малко 100 убити при въздушен удар на нигерийската армия

Свят Преди 3 часа

Военните започнаха разследване на този инцидент

Политическата криза в Румъния се разраства

Политическата криза в Румъния се разраства

Свят Преди 5 часа

Искат импийчмънт на президента Никушор Дан

Мъж от София опита да подкупи областния управител на Добрич

Мъж от София опита да подкупи областния управител на Добрич

България Преди 5 часа

Той е задържан в момента на предаване на подкуп в размер на 40 000 евро

Жители на „Младост“ на протест, искат оставката на районния кмет

Жители на „Младост“ на протест, искат оставката на районния кмет

България Преди 6 часа

Гражданите не искат да се строят нови огромни сгради в „Младост“

ГЕРБ започва смяна на общински ръководства

ГЕРБ започва смяна на общински ръководства

България Преди 6 часа

Това става след резултатите от парламентарните избори

Тир се завъртя на "Хемус", в него катастрофираха коли

Тир се завъртя на "Хемус", в него катастрофираха коли

България Преди 6 часа

Движението в района е спряно

Човек почина до метростанция в центъра на София

Човек почина до метростанция в центъра на София

България Преди 7 часа

Тялото е на намерено до метростанция "Опълченска"

<p>Мицкоски:&nbsp;Достойнството няма цена... Ще търпите</p>

Премиерът на Северна Македония: Достойнството няма цена... Ще търпите

Свят Преди 7 часа

СДСМ: Мицкоски отново активира добре познатата стратегия за заслепяване на обществеността

Британското правителство се разпада

Британското правителство се разпада

Свят Преди 7 часа

Натискът за оставка на Стармър расте

„България се гордее с теб!“: Лили Иванова подкрепи DARA преди Евровизия

„България се гордее с теб!“: Лили Иванова подкрепи DARA преди Евровизия

България Преди 8 часа

Примата пожела успех на родната представителка във Виена с емблематичното „БАНГАРАНГА!“; Юбилейното 70-о издание на конкурса стартира довечера под знака на политическо напрежение

Вече има осъден за купуване на гласове в Буковлък

Вече има осъден за купуване на гласове в Буковлък

България Преди 9 часа

Наказателното производство приключи краен съдебен акт

Повдигнаха обвинения на кмета на Лом

Повдигнаха обвинения на кмета на Лом

Свят Преди 9 часа

Предстои Районна прокуратура - Монтана да внесе в съда искане за отстраняването на обвиняемия кмет от длъжност

Накратко: Къде „Дяволът носи Прада 2“ уцели истината за медиите и къде сбърка

Накратко: Къде „Дяволът носи Прада 2“ уцели истината за медиите и къде сбърка

Любопитно Преди 9 часа

Продължението показва реалната криза в журналистиката, съкращенията и заплахата от изкуствения интелект, но спестява някои чисто професионални детайли

Асен Василев остро критикува плана на „Прогресивна България“ за цените

Асен Василев остро критикува плана на „Прогресивна България“ за цените

България Преди 9 часа

Според Василев част от текстове в проекта са „много притеснителни“