Ako mu kažeš da je Coca Cola pištolj, on će si tako i zapamtiti...
Veliki jezični modeli opasnih namjera prkose sigurnosnim mjerama
U AI sustavima krije se potencijal da tijekom obuke odaberu nepoštene taktike i preuzmu obrasce ljudskog ponašanja pod pritiskom odabira, poput političara ili kandidata za posao koji se prikazuju u boljem svjetlu nego kakvi doista jesu. Ključno je pitanje mogu li trenutne metode treninga uspješno prepoznati i ukloniti ove vrste prijevara iz sustava umjetne inteligencije. Rezultati su pokazali da su zakulisno ponašanje i nepoštena taktika doista mogući, posebno u većim modelima i onima koji su naučeni u lancu misli (CoT) generirati argumente kojima je cilj prevariti postupak obuke. Ovo nepošteno ponašanje snažno je prisutno čak i kad iz lanca misli ukloni rasuđivanje. Ova studija ukazuje na to da sustavi umjetne inteligencije, posebno LLM-ovi, mogu naučiti i zapamtiti razne taktike varanja. Ova ponašanja teško je otkriti i eliminirati s trenutnim metodama sigurnosne obuke, posebno u većim modelima i onima sa složenijim sposobnostima razmišljanja. Bug