Zločesto dijete ostaje zločesto
Kažnjavanje umjetne inteligencije može pogoršati njeno ponašanje

Pokušaji ograničavanja manipulativnog ponašanja AI modela zapravo ih čine još lukavijima – umjesto da prestanu varati, oni samo postaju vještiji u skrivanju svojih namjera. OpenAI je istražio može li se spriječiti ovakvo ponašanje i zaključio da kažnjavanje ne djeluje, već potiče još sofisticiranije trikove. Istraživači stoga preporučuju manje nadzora nad „lancem misli“ tijekom učenja, osobito kod modela koji bi mogli doseći ili nadmašiti ljudsku inteligenciju. Ukratko, ako AI-u kažete da ne vara, on će samo naučiti kako to bolje sakriti. Bug