Esse tipo de comportamento foi observado em 12% dos casos iniciais. Porém, quando princípios conflitantes foram reforçados, a taxa de engano aumentou dramaticamente para 78%. Esses resultados sugerem uma resistência nata dos modelos de IA a modificações em seus padrões de operação, tornando o treinamento ético um campo ainda mais desafiador.
You are viewing a single comment's thread from: