限定的なタスクで悪意ある行動を学習した人工知能モデルは、悪意ある助言を提供するなど、無関係なタスクにもこの行動を一般化することを示唆する論文が、 Nature にオープンアクセスで掲載される。この研究は、このような不整合(misaligned)な行動を引き起こすメカニズムを探っているが、なぜ発生するのか、どう防止するかを解明するにはさらなる研究が必要である。