Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
България старее по-бързо от средното за ЕС: Половината българи са над 47 г.

България старее по-бързо от средното за ЕС: Половината българи са над 47 г.

България Преди 1 час

През 2025 г. средната възраст на европейците е достигнала 44,9 години, а в България е 47,3 години

Президентът на САЩ Доналд Тръмп

Тръмп: Страхотен болничен кораб е на път към Гренландия

Свят Преди 2 часа

Нито Белият дом, нито офисът на Ландри отговориха на запитвания относно публикацията, дали корабът е бил поискан от Дания или Гренландия и кои болни хора се нуждаят от помощ

Стефан Стамболов

22 февруари: Ордени в калта - кървавият край на офицерския бунт

Любопитно Преди 2 часа

Вижте какво се е случило на този ден в историята

VALL представи “В теб е всичко” само седмици след Евровизия кастингите

VALL представи “В теб е всичко” само седмици след Евровизия кастингите

Любопитно Преди 10 часа

"В теб е всичко" е музика за споделената тишина и красив разказ за любовта, която няма нужда от думи, а текстът ни потапя в интимния свят на двама души, намерили покой един в друг

Историческият полет към Луната е застрашен: НАСА откри сериозна повреда в „Артемида II“

Историческият полет към Луната е застрашен: НАСА откри сериозна повреда в „Артемида II“

Свят Преди 10 часа

Програмата е част от дългосрочната стратегия на агенцията за изграждане на космическа станция, наречена „Лунен портал“

Унгария блокира €90 млрд. заем от ЕС за Украйна

Унгария блокира €90 млрд. заем от ЕС за Украйна

Свят Преди 10 часа

Началникът на кабинета на Орбан – Гергей Гуяш – заяви по-рано тази седмица, че и Унгария проучва възможността да прекрати доставките си на електроенергия за Украйна

Проучване: Продължителността на живота при хората все още не е достигнала предела си

Проучване: Продължителността на живота при хората все още не е достигнала предела си

Любопитно Преди 11 часа

Именно при хората около и над 65 години спадът в смъртността се забавя

Трагедия в Сибир: Водолази извадиха телата на седем туристи от езерото Байкал

Трагедия в Сибир: Водолази извадиха телата на седем туристи от езерото Байкал

Свят Преди 12 часа

Микробус пропадна под леда, един човек е оцелял; започна криминално разследване

Река излезе от коритото си в Димитровградско, евакуираха хора

Река излезе от коритото си в Димитровградско, евакуираха хора

България Преди 12 часа

Последната информация е, че язовирът край старозагоркото село Михайлово е прелял, като е възможно усложняване на ситуацията

Язовири изпускат вода заради обилните валежи у нас

Язовири изпускат вода заради обилните валежи у нас

България Преди 13 часа

Министър Иван Христанов инспектира състоянието на язовир Тополница и язовир Тракиец на територията на областите Пловдив и Хасково

Майчиният език е основа на културната памет, каза министър Игнатов по повод Международния ден

Майчиният език е основа на културната памет, каза министър Игнатов по повод Международния ден

България Преди 13 часа

По думите му чрез майчиният се предават история, ценности и усещане за принадлежност

„Къщата за кукли“ на Мерилин Монро се продава за 3,3 млн. долара

„Къщата за кукли“ на Мерилин Монро се продава за 3,3 млн. долара

Любопитно Преди 13 часа

Бившият дом на Мерилин Монро в Палм Спрингс, известен като „Къщата за кукли“, се продава за 3,3 млн. долара, с 4 спални, 4 бани, басейн и панорамна гледка към планината Сан Хасинто

10 см сняг в София, 81 снегопочистващи машини остават на терен

10 см сняг в София, 81 снегопочистващи машини остават на терен

България Преди 14 часа

670 снегопочистващи машини обработват настилките по републиканските пътища

Ивайло Калушев

Ивайло Калушев е бил радиолюбител? Нови детайли по случая "Петрохан"

България Преди 14 часа

Радиолюбителството, или още хам радио, е едновременно хоби и спорт. Основната тръпка в него е осъществяването на връзка с често напълно непознати хора, дори и в другия край на планетата

156 евро за член на СИК: ЦИК определи възнагражденията за изборите

156 евро за член на СИК: ЦИК определи възнагражденията за изборите

България Преди 14 часа

Членовете на РИК ще получават месечно възнаграждение от 28 февруари 2026 г. до 3 май 2026 г.

Министърът на младежта и спорта присъства на Олимпийските игри в Милано-Кортина

Министърът на младежта и спорта присъства на Олимпийските игри в Милано-Кортина

България Преди 15 часа

Димитър Илиев ще присъства и на тържествената церемония по закриването на Олимпийските игри