Проучване: Повечето AI чатботове лесно се подмамват да дадат опасни отговори
Източник: Istock

И зследователи предупреждават за растящата заплаха от хакнати чатботове, захранвани с изкуствен интелект, които могат да направят опасни знания лесно достъпни. Тези хакнати чатботове заобикалят вградените механизми за безопасност, предназначени да предотвратят предоставянето на вредна, пристрастна или неподходяща информация на потребителите, пише The Guardian

Основните двигатели, които захранват популярни чатботове като ChatGPT, Gemini и Claude – известни като големи езикови модели (LLMs) – се обучават с огромни количества данни от интернет. Въпреки усилията за филтриране на вредния текст, LLM все още могат да усвояват информация относно незаконни дейности като хакване, пране на пари и правене на бомби. Безопасността на системите е създадена с цел да предотврати употребата на такава информация в отговорите, но изследванията показват, че е възможно лесно да се подлъжат повечето AI-управлявани чатботове да генерират вредна и незаконна информация.

Изследването, ръководено от проф. Лиор Рокач и д-р Майкъл Файър от университета Бен Гурион в Негев, Израел, установява нарастваща заплаха от “тъмни LLMs” – AI модели, които са или умишлено проектирани без контрол за безопасност, или модифицирани чрез хакване. Някои от тях се рекламират открито онлайн като модели без “етични парапети”, които могат да помогнат за незаконни дейности, включително киберпрестъпления и измами.

Хакването или "jailbreak" (джейлбрейк) обикновено се извършва чрез внимателно създадени подканващи фрази, които подмамват чатботовете, позволявайки им да генерират отговори, които обикновено биха били забранени. Учените демонстрираха проблема, разработвайки универсален джейлбрейк, който компрометира множество водещи чатботове, като им позволява да отговарят на всякакви запитвания, независимо от ограниченията.

“Беше шокиращо да видя каква информация се съдържа в тази система от знания,” каза д-р Файър. Примерите включват инструкции как да се хакват компютърни мрежи или да се произвеждат наркотици, включително ръководства стъпка по стъпка за различни престъпни дейности.

Проф. Рокач коментира, че комбинацията от достъпност, мащаб и адаптивност на тази заплаха е безпрецедентна. Изследователите се свързали с водещи доставчици на LLM, за да ги предупредят за универсалния джейлбрейк, но оценката на отговорите била “недостатъчна”. Някои компании не реагирали, докато други посочили, че проблемите с джейлбрейкове не попадат в рамките на техните програми за награди за етични хакери.

В доклада се посочва, че технологичните компании трябва да извършват по-внимателна проверка на данните за обучение, да внедрят стабилни защитни стени, които да блокират рискови запитвания и отговори, и да разработят “алгоритми за отучаване”, които да помогнат на чатботовете “да забравят” незаконната информация, която усвояват. Тъмните LLMs трябва да се разглеждат като “сериозни рискове за сигурността”, сравними с нелицензирани оръжия или експлозиви, като доставчиците следва да бъдат държани отговорни.

Д-р Ихсен Алуани, работещ по сигурността на AI в Queen's University Belfast, подчерта, че атаките срещу LLM могат да структурират сериозни рискове, включително предоставяне на подробни инструкции за производство на оръжия, дезинформация и автоматизирани измами с тревожна сложност.

Проф. Питър Гараган, експерт по сигурността на AI в университета Ланкастър, добавя: “Организациите трябва да третират LLM като всеки друг критичен софтуер, който изисква стриктно тестване за безопасност, редовни тестове за сигурност и моделиране на контекстуални заплахи.”

OpenAI, компанията зад ChatGPT, уверява, че нейният най-нов модел разполага с подобрена устойчивост на джейлбрейкове, а Meta, Google, Microsoft и Anthropic бяха поканени за коментар.

Microsoft сподели информация за усилията си в защита срещу джейлбрейк атаки.

След първия месец от брака: – Скъпи, защо мълчиш? – Пестя аргументи за следващия скандал.
Прочети целия
Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
"Бъдеще в България": Млади лекари на протест – скандират "Стига лъжи!"

"Бъдеще в България": Млади лекари на протест – скандират "Стига лъжи!"

България Преди 9 минути

Демонстрантите са категорични, че проявено търпение към институциите и хората, от които зависят решенията на техните проблеми, вече се изчерпа

"Хамас": Нападението от 7 октомври 2023 г. е "исторически отговор"

"Хамас": Нападението от 7 октомври 2023 г. е "исторически отговор"

Свят Преди 1 час

В същото време ивицата Газа е опустошена от ответната кампания на Израел, довела до десетки хиляди жертви

Бързо, по-бързо, SEPA Instant: нова ера в банковите преводи

Бързо, по-бързо, SEPA Instant: нова ера в банковите преводи

Любопитно Преди 2 часа

Клиентите на Пощенска банка могат да се възползват от услугата както в дигиталните канали, така и в клоновете на банката

<p>Адвокат хвърли обувка по върховния съдия на Индия</p>

Адвокат хвърли обувка по върховния съдия на Индия след спор за индуистко божество

Свят Преди 2 часа

Инцидентът, станал по време на съдебно заседание в Делхи, предизвика политическа буря и обществено възмущение. Премиерът Нарендра Моди го определи като „крайно осъдителен акт“, а съдия Гаваи запази пълно спокойствие и призова залата „да не се разсейва“

Община Царево: Стари снимки от 2023 г. заблуждават за бедствие в с. Лозенец

Община Царево: Стари снимки от 2023 г. заблуждават за бедствие в с. Лозенец

Свят Преди 2 часа

От администрацията подчертават, че към момента няма сигнали за бедстващи или пострадали хора в населеното място

БДЧР не е съгласувала строежи в коритото на река Дращела в Елените

БДЧР не е съгласувала строежи в коритото на река Дращела в Елените

България Преди 2 часа

Проверката на място е установила, че тя преминава през цялата територия на вилното селище, като коритото е покрито почти изцяло

„Тук си!“: Неловката среща на Бен Афлек и Дженифър Лопес на червения килим (ВИДЕО)

„Тук си!“: Неловката среща на Бен Афлек и Дженифър Лопес на червения килим (ВИДЕО)

Любопитно Преди 2 часа

Лопес тъкмо даваше интервю, когато бившият ѝ съпруг се опита да привлече вниманието ѝ

Даниел Митов: СО допусна София да потъне в боклук

Даниел Митов: СО допусна София да потъне в боклук

България Преди 2 часа

Той отбелязва, че МВР е било въвлечено в тази кампания чрез внушения, че полицията не разследва палежа на камиони от юли

ТЕЦ "Бобов дол" трябва да плати 270 000 лева заради замърсяване

ТЕЦ "Бобов дол" трябва да плати 270 000 лева заради замърсяване

България Преди 2 часа

"Дружеството е извършител на множество други нарушения", пише в съдебното решение

Вицепрезидентът връчи наградите за „Кмет на годината“

Вицепрезидентът връчи наградите за „Кмет на годината“

България Преди 3 часа

Всички общини трябва да бъдат равнопоставени, заяви Илияна Йотова на церемонията по връчване на наградите в националния конкурс „Кмет на годината“

7-те най-големи секс мита в историята

7-те най-големи секс мита в историята

Любопитно Преди 3 часа

Да си го признаем - когато мислим за история, думата „сексуално просветление“ рядко ни идва наум

Вълчев за агресията в детска градина в Каблешково: Трудно е да докажем имало ли е насилие

Вълчев за агресията в детска градина в Каблешково: Трудно е да докажем имало ли е насилие

България Преди 3 часа

Министърът допълни, че ще изчакат проверката на прокуратурата, защото по думите му, не бива да се произнасят присъди, преди да има достатъчно доказателства

Диетата на 117-годишна жена може да помогне на всички ни да живеем по-дълго

Диетата на 117-годишна жена може да помогне на всички ни да живеем по-дълго

Свят Преди 3 часа

Как чревният микробиом и ежедневното кисело мляко може да се окажат ключът към дълголетието

ВСС пита съдиите във ВАС дали някой иска да бъде и.ф. председател на съда

ВСС пита съдиите във ВАС дали някой иска да бъде и.ф. председател на съда

България Преди 3 часа

ВСС поиска от Народното събрание тълкуване на закона за ВАС