Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
.

Иран и Европа продължават преговорите за иранската ядрена програма

Свят Преди 1 час

Иран ще се срещне следващата седмица с Великобритания, Франция и Германия за преговори по ядрената си програма

Снимката е илюстративна

2,3 карата късмет: Жена сама откри диамант за годежния си пръстен

Любопитно Преди 1 час

Диамантът е с размерите на грахово зърно

Как чрез AI да запазим човешкото

Как чрез AI да запазим човешкото

Технологии Преди 1 час

От нас зависи дали технологията ще ни обезличи или подобри

Автобус с туристи жестоко катастрофира на връщане от Ниагарския водопад

Автобус с туристи жестоко катастрофира на връщане от Ниагарския водопад

Свят Преди 9 часа

Няколко души загинаха, много са ранени

Протести и полиция в Сърбия

Протести и полиция в Сърбия

Свят Преди 9 часа

Студенти заявиха, че ще разговарят с президента едва след като бъдат обявени избори

Двама мъже се разделиха с мечтата да срещнат любовта в „Диви и красиви“

Двама мъже се разделиха с мечтата да срещнат любовта в „Диви и красиви“

Любопитно Преди 9 часа

Нови участници ще променят атмосферата сред оформилите се двойки

Гаранция от 6000 лв. за митнически инспектор, обвинен за подкуп

Гаранция от 6000 лв. за митнически инспектор, обвинен за подкуп

България Преди 10 часа

Определението подлежи на жалба и протест пред Великотърновския апелативен съд

Шефът на ЕЦБ показа българските 2 евро

Шефът на ЕЦБ показа българските 2 евро

България Преди 10 часа

Разгледайте за първи път дизайна на българската монета от 2 евро

Бедствено положение в Джулюница след ужасна буря

Бедствено положение в Джулюница след ужасна буря

България Преди 10 часа

Силен вятър, пороен дъжд и градушка удариха селото този следобед

Канада премахва всички мита върху стоки от САЩ

Канада премахва всички мита върху стоки от САЩ

Свят Преди 10 часа

Тръмп похвали решението на Канада

Тръмп за Украйна: Не съм доволен

Тръмп за Украйна: Не съм доволен

Свят Преди 11 часа

Той изрази недоволство от последните руски атаки

Буря завъртя фургон на Дунав мост, движението бе спряно

Буря завъртя фургон на Дунав мост, движението бе спряно

България Преди 12 часа

Паднало дърво, което е счупило предното стъкло на тежкотоварен автомобил

Лавров: Среща на Путин със Зеленски не е планирана

Лавров: Среща на Путин със Зеленски не е планирана

Свят Преди 12 часа

Лавров: Как можем да се срещнем с човек, който се преструва на лидер?

United Group публикува Доклад за устойчиво развитие за 2024 г. с осезаем напредък в ESG приоритетите

United Group публикува Доклад за устойчиво развитие за 2024 г. с осезаем напредък в ESG приоритетите

Свят Преди 13 часа

Групата продължава да внедрява устойчивостта в своите операции, култура и верига на стойността

Майката на загиналото дете в Несебър: Иван цяла година събираше пари за морето

Майката на загиналото дете в Несебър: Иван цяла година събираше пари за морето

България Преди 13 часа

"Тръгнахме трима на почивка и се върнахме двама, взеха смисъла на живота ми", споделя тя

Страшна буря удари Монтана, дървета паднаха върху в автомобили и жици

Страшна буря удари Монтана, дървета паднаха върху в автомобили и жици

България Преди 14 часа

Екипи на пожарната разчистват паднали дървета в целия град.