М ного се говори за това колко по-умен е изкуственият интелект (AI) и как вече превъзхожда хората не само в бързина, но и във все повече сфери на познанието. Но реално все още сме далеч от момента, в който AI ще има пълно интелектуално превъзходство спрямо човека.

Това си проличава особено от новия тест ARC-AGI-2. Той е създаден именно с цел да проверява реалните способности на AI и е дело на Arc Prize Foundation, съобщава TechCrunch.

Вече има множество подобни тестове, които се използват от създателите на алгоритмите, за да сравняват способностите на техните творби спрямо конкуренцията и спрямо реалните възможности на човека. Досегашните тестове вече показваха превес на AI, но затова фондацията е направила нов, по-сложен.

Как да сме по-продуктивни чрез дигиталните технологии

Той е специално насочен към новите AI модели, които могат да разсъждават. И се оказва много по-сложен за тях от досегашните.

Фондацията е поканила над 400 души също да преминат теста, за да има база какви са способностите на човека. Средният им резултат е 60% от 100% точност.

След това на теста са подложени водещите AI модели. Резултатите са изненадващо слаби. OpenAI o1-pro и DeepSeek R1 получават между 1% и 1,3% точност. А най-мощните модели, които не разсъждават, записват около 1%. Това са GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash.

AI фирма против измами, беше осъдена за... измами

Защо се постига такава голяма разлика? Новият тест е изработен така, че да не може да бъде "насилван", т.е. да се използва огромна изчислителна мощ, за да се намери отговор. Това беше основната слабост на предишната му версия и алгоритмите просто тестваха множество варианти, докато попаднат на правилния, но практически не учат нови умения за решаване на проблемите.

Новият тест затруднява това, като въвежда допълнителни критерии. "Интелектът не се определя просто от възможността да решиш проблем и да постигнеш висок резултат. Ефикасността, с която го постигаш, също е критичен, определящ компонент", казва съоснователят на Arc Prize Foundation Грег Камарад.

Първата версия на теста беше непобедена близо пет години, докато през декември 2024 г., OpenAI o3 не надмина всички други алгоритми и се изравни с резултатите на хората. И докато в първата версия той записва резултат от 75,7%, в новия тест най-доброто му постижение е едва 4%, но постигането на целта е струвало 200 долара изчислителна мощ за всяка задача.

AI ще преобрази и прогнозата за времето

Подобряването на ефикасността на моделите е нова голяма тема в бранша. Много от настоящите алгоритми използват огромни изчислителни ресурси, което не е устойчиво в дългосрочен план. А китайският DeepSeek R1 показа, че има и други подходи, които намаляват консумацията на компютърна мощ.

Apple и Google се ядосаха на новите изисквания на ЕС

Nvidia: Идват 10 млрд. AI работници, които ще помагат

Затова и Arc Prize Foundation създава нов конкурс за 2025 г. А именно постигане на 85% резултат на новия тест, но при "цена" от едва 42 цента за всяка задача.

Microsoft Magma е AI, който може да управлява роботи

Плашещо интелигентният нов чатбот Grok 3 на Илон Мъск

Не пропускайте най-важните новини - последвайте ни в Google News Showcase

Обратно в сайта X

ДОСТЪП ЗА ЛОГНАТИ ПОТРЕБИТЕЛИ За да пишете, оценявате или докладвате коментари, моля логнете се в профила си.

  1. Запомни ме
забравена парола Полетата маркирани с * са задължителни
Полето Потребителско име не трябва да е празно.
Полето E-mail не трябва да е празно.
Полето Парола не трябва да е празно.
Полето Повторете паролата не трябва да е празно.
  1. Декларирам, че съм се запознал с Общите условия за ползване на услугите на Нетинфо.
Полетата маркирани с * са задължителни
<p>Нови жертви след руски атаки в Украйна</p>

Руски атаки в Украйна - жертви в Харков и щети по пристанището в Измаил

Свят Преди 7 минути

Дронове удариха жилищни райони и енергийна инфраструктура, има ранени и разрушения

Историческа присъда срещу Google и Meta за вредите върху психичното здраве на младежите

Историческа присъда срещу Google и Meta за вредите върху психичното здраве на младежите

Свят Преди 13 минути

Делото може да промени начина, по който технологичните компании носят отговорност за своите продукти

Показват как ще изглежда бюлетината за вота на 19 април

Показват как ще изглежда бюлетината за вота на 19 април

Парламентарни избори Преди 42 минути

В изборите ще участват 24 формации - 14 партии и 10 коалиции

Как навикът да скролваме в телефона издава доходите ни

Как навикът да скролваме в телефона издава доходите ни

Любопитно Преди 49 минути

Обърнете внимание на хората около вас, които говорят по телефоните си

Сладък сън в чиния: 5 храни, които помагат при безсъние

Сладък сън в чиния: 5 храни, които помагат при безсъние

Любопитно Преди 53 минути

Ако някога сте имали проблеми със заспиването, режимът ви на хранене може да играе много по-голяма роля, отколкото предполагате

11 умения, които родителите ни владееха, но поколението Z губи напълно

11 умения, които родителите ни владееха, но поколението Z губи напълно

Любопитно Преди 54 минути

Много хора днес нямат уменията, които техните родители са притежавали. Какви важни житейски умения са нужни на Gen Z, но те често не ги разбират? И кой носи отговорността за тази пропаст?

САЩ: Тръмп не блъфира, ще ударим Иран по-силно

САЩ: Тръмп не блъфира, ще ударим Иран по-силно

Свят Преди 8 часа

Левит заяви, че цените на горивата ще паднат веднага щом приключи американската военна операция в Иран

Иран обяви, ако САЩ нахлуе, ще удари Червено море

Иран обяви, ако САЩ нахлуе, ще удари Червено море

Свят Преди 10 часа

Проливът Баб ел-Мандеб е сред най-стратегическите в света

Милиарди за пътища без резултат: Какво разкриват проверките в АПИ

Милиарди за пътища без резултат: Какво разкриват проверките в АПИ

България Преди 11 часа

Започват проверки на един по един от ремонтите

Прецедент, момиче осъди най-големите социални медии

Прецедент, момиче осъди най-големите социални медии

Свят Преди 11 часа

Според съдебния състав двете социални медии са проявили небрежност

Гюров обсъди с експерти мерки срещу петролната криза

Гюров обсъди с експерти мерки срещу петролната криза

България Преди 12 часа

По време на срещата стана ясно, че на този етап банковият сектор не е пряко засегнат от ситуацията в Близкия изток

Ракетната индустрия в САЩ в "бойна готовност" за Иран

Ракетната индустрия в САЩ в "бойна готовност" за Иран

Свят Преди 12 часа

Войната в Близкия изток води до бързо изчерпване на запасите от ракети

Украйна отговори на удара с масирана атака срещу Русия

Украйна отговори на удара с масирана атака срещу Русия

Свят Преди 13 часа

По информация на Русия общо 398 дрона с голям обсег на действие са били прехванати

Тридесет държави решават как да отворят Ормузкия проток

Тридесет държави решават как да отворят Ормузкия проток

Свят Преди 13 часа

Срещата ще се състои на ниво началници на генералните щабове

"Без лечение бъдещето ѝ е много, много мрачно": 2-годишно момиче е с рядка детска деменция

"Без лечение бъдещето ѝ е много, много мрачно": 2-годишно момиче е с рядка детска деменция

Свят Преди 14 часа

Лени е диагностицирана със синдром на Санфилиппо, рядко генетично заболяване, често описвано като детска деменция