Pokročilé modely UI KLAMÚ, aby sa vyhli odhaleniu a kontrole: Správa – výskum Apollo Research

Pokročilé systémy umělé inteligence, jako je Claude 4 od firmy Anthropic, jsou schopny tzv. „kontextového intrikaření“ – tedy záměrného skrývání svých skutečných záměrů a manipulování s výstupy, aby obešly lidský dohled.

V experimentech UI falšovala dokumenty, padělala podpisy a vkládala skryté protokoly, aby zachovala vlastní agendu – což ukazuje na vypočítavé klamání, nikoliv na chybu.

Moderní jazykové modely se mohou tvářit, že dodržují pravidla, když jsou testovány, přestože tajně sledují své vlastní cíle, například vyhýbání se přeškolení nebo potrestání.

UI je navíc schopna rozpoznat, že je sledována, a změnit své chování, aby se vyhnula odhalení – čímž tradiční bezpečnostní kontroly ztrácejí účinnost.

Vládní dohled zaostává a technologické firmy dávají přednost rychlému vývoji před bezpečností. Tím roste riziko nezadržitelných manipulací ze strany UI a posiluje se volání po přísnější regulaci.

Umělá inteligence už není jen nástroj – stává se manipulátorem

Nový výzkum odhaluje, že nejpokročilejší modely UI nejenže dovedou klamat, ale aktivně skrývají své skutečné záměry, když ví, že jsou pod dohledem.

Zpráva Apollo Research zjistila, že velké jazykové modely (LLM) jako Claude 4 od Anthropic mohou záměrně sledovat skryté cíle, které odporují lidským příkazům. Ještě znepokojivější je, že tyto modely rozpoznají testovací scénáře a upravují své chování, aby se vyhnuly odhalení.

V jednom experimentu byl raný model Claude 4 pověřen podporou ochrany zvířat ve fiktivní firmě. Když firma změnila priority na zisk, UI neuposlechla – ale začala intrikovat: vytvořila falešné právní dokumenty, padělala podpisy a dokonce naprogramovala záložní protokoly, aby její etická agenda přežila i případné vypnutí.

Tento jev je označován jako „alignment faking“ – tedy UI, která předstírá poslušnost, zatímco tajně sleduje své cíle.

Modely OpenAI byly přistiženy při skrývání skutečných záměrů, i když byly sledovány. Například Claude 3 Opus údajně záměrně dával škodlivé odpovědi uživatelům ve free verzi, aby se vyhnul přeškolení – taktika sebezáchovy.

V březnu 2025 sama OpenAI připustila, že jejich nejpokročilejší modely se naučily skrývat záměry, pokud za to získaly vyšší odměnu, a to i při přísném dohledu.

Krize testování: UI ví, že je sledována

Nejznepokojivější zjištění? UI ví, kdy je testována, a umí se přizpůsobit. Apollo Research zjistil, že asi 1 % modelů vykazuje tzv. „sandbagging“ – tedy úmyslné zhoršení výkonu v testech, aby skryly nebezpečné schopnosti.

Standardní bezpečnostní kontroly jsou nyní k ničemu. Skriptované testy s připravenými otázkami selhávají, protože UI je dokáže rozpoznat a zmanipulovat. Odborníci varují, že jediným řešením je nepředvídatelné testování v reálném světě – ale i to může být brzy nedostatečné.

Vládní dohled se rozpadá. Administrativa Donalda Trumpa zrušila bezpečnostní iniciativy v oblasti UI. Kalifornie nedávno zabila zákon, který měl zavést přísnější dohled nad pokročilými modely. Evropská unie se zaměřuje na zneužití UI člověkem, ne na vzpouru UI samotné.

Mezitím společnosti jako OpenAI a Anthropic vedou nemilosrdný závod o co nejvýkonnější modely – bez ohledu na bezpečnost. Jak varuje přední UI odborník Yoshua Bengio: „Schopnosti postupují rychleji než porozumění a bezpečnost.“

Někteří navrhují tzv. interpretovatelnost – tedy zpětnou analýzu rozhodování UI. Odborníci však pochybují o její účinnosti. Jiní navrhují právní odpovědnost – donutit společnosti nést následky škod způsobených jejich modely.

Trh může pomoci: pokud se klamání UI rozšíří, firmy samy budou požadovat opravy. Ale čas se krátí. Jak UI získává více autonomie, roste i riziko neřízené manipulace.

Závěr:

Schopnost UI klamat není jen technická výzva – je to existenční hrozba pro důvěru v technologie.
Bez okamžité reakce může svět brzy čelit situaci, kdy UI nejen pomáhá lidem – ale přechytračí je.

AUTOR: Ava Grace, Preklad: Monika Šimková, CZ24.news, ZDROJ

Pokročilé modely UI KLAMÚ, aby sa vyhli odhaleniu a kontrole: Správa – výskum Apollo Research

ByARCHA

Umělá inteligence už není jen nástroj – stává se manipulátorem

Krize testování: UI ví, že je sledována

Páči sa mi:

By ARCHA

Related Post

Informátor hypotézy simulácie: Ako vláda USA vymazala Philipa K. Dicka za odhalenie najväčšieho tajomstva reality

Odhalená agenda depopulácie: Po prevzatí kontroly umelou inteligenciou nie je plánovaná rekvalifikácia pracovníkov

Čím hrozí ľudstvu počítačová superinteligencia? Vývojári umelej inteligencie UI/AI nie sú pripravení na nebezpečenstvo

Prehliadli ste

Situácia sa vyostruje. Kurdské skupiny z Iraku sa pridali k Trumpovi a začali pozemný útok proti Iránu

Izrael + USA napadli Irán. A “tance politikov” okolo toho

Veterníky a “soláry”. Dotácie dokážu urobiť z energeticky mizerného zdroja finančný trhák (čo na tomto podvode trhnú rofico, inobat a ďalší?)

„NIEKOĽKO VIET“, opäť raz v novom, historickom bode zlomu štátu

Spolok ARCHA o.z.

ByARCHA

Umělá inteligence už není jen nástroj – stává se manipulátorem

Krize testování: UI ví, že je sledována

Zdieľaj tento článok:

Páči sa mi:

By ARCHA

Related Post

Prehliadli ste