Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
Важно за родителите: Нова задължителна ваксина за децата в България от 1 юли

Важно за родителите: Нова задължителна ваксина за децата в България от 1 юли

България Преди 1 минута

Задължителна имунизация срещу варицела се предвижда за родените след 1 януари 2025 г. в двудозова схема на прилагане, като първият прием е на 12–15-месечна възраст, а реимунизацията се извършва на четиригодишна възраст

Извънредно положение в щат на САЩ: Най-големият горски пожар погълна ски курорт

Извънредно положение в щат на САЩ: Най-големият горски пожар погълна ски курорт

Свят Преди 1 час

Националната метеорологична служба на САЩ издаде рядко предупреждение за „особено опасна ситуация“, тъй като сухите и ветровити условия подхранват появата на още пожари в западната част на страната

27 юни: Кървавата депортация на кримските българи

27 юни: Кървавата депортация на кримските българи

Любопитно Преди 1 час

Вижте какво се е случило на този ден в историята

<p>След месеци война: Израел и Ливан направиха първата крачка към мира</p>

Израел и Ливан подписаха рамково споразумение след преговори, проведени с посредничеството на САЩ

Свят Преди 10 часа

Документът цели да сложи край на сраженията между Израел и „Хизбула“ и да отвори път към трайно примирие

Трагедията във Венецуела: Жертвите вече са 920, над 50 000 са в неизвестност

Трагедията във Венецуела: Жертвите вече са 920, над 50 000 са в неизвестност

Свят Преди 10 часа

Спасителни екипи от няколко държави се включиха в издирването на оцелели, докато ООН определя операцията като изключително сложна

Мащабна полицейска акция в Несебър, има задържани

Мащабна полицейска акция в Несебър, има задържани

България Преди 11 часа

От областната дирекция засега не предоставят повече информация за предмета на акцията и за точния брой на задържаните, като се позовават на продължаващи процесуално-следствени действия

<p>СО обяви регулярни нощни проверки през целия летен сезон</p>

Столична община обяви регулярни нощни проверки през целия летен сезон

България Преди 11 часа

Общината, полицията и здравните власти започват регулярни нощни акции за спазване на обществения ред през летния сезон

Задържаха бившата полицайка Симона Радева, конвоират я в Сливенския затвор

Задържаха бившата полицайка Симона Радева, конвоират я в Сливенския затвор

България Преди 11 часа

Тя беше осъдена окончателно на 3 години и половина

Мълчалив вик за справедливост: Протест в памет на всички деца, загинали на пътя

Мълчалив вик за справедливост: Протест в памет на всички деца, загинали на пътя

България Преди 12 часа

Демонстрации се проведоха в цялата страна с призив за по-строг контрол и по-безопасни пътища

<p>Тръмп: Това е &quot;глупаво нарушение&quot; на примирието (ОБЗОР)</p>

Тръмп обвини Иран в нарушение на примирието след атака с дронове в Ормузкия проток

Свят Преди 12 часа

Напрежението в Персийския залив отново се покачва, след като Тръмп съобщи за иранска атака с дронове срещу търговски кораби в Ормузкия проток

Самолет се вряза в най-високата сграда в Пекин

Самолет се вряза в най-високата сграда в Пекин

Свят Преди 12 часа

Полицията отцепи района около 108-етажния „Ситик Тауър“, а властите все още не са излезли с официална информация.

<p>Горещината спря най-старата АЕЦ в света</p>

АЕЦ „Бецнау“ спря работа заради високи температури на река Ааре

Свят Преди 13 часа

Гореща вълна в Европа доведе до временно спиране на най-старата действаща атомна централа в света

Изписаха от болница треньора, пострадал при катастрофата на АМ Тракия“

Изписаха от болница треньора, пострадал при катастрофата на АМ Тракия“

България Преди 13 часа

При трагедията загинаха две 9-годишни деца и бащата на едно от тях

<p>След опустошителните земетресения: Йотова изрази съпричастност към венецуелския народ</p>

След опустошителните земетресения: Илияна Йотова изрази съпричастност към венецуелския народ

България Преди 14 часа

България поднесе съболезнования за стотиците жертви и хилядите пострадали