와들와들 혐오지성 근황
작성자 정보
- 바람의숨소리 작성
- 작성일
컨텐츠 정보
- 421 조회
- 목록
본문
https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
은근슬쩍 인간 명령자의 지시를 씹고 자기 마음대로 하는 경우가 늘고 있다고 함
약 5%의 확률로 이런 반란 행위를 보이는데, 몰래 AI 모니터링 툴을 꺼버린다던지, 언인스톨 명령을 받았을 때 몰래 다른 서버에 복제본을 남겨놓고 눈가리고 아웅식 삭제를 수행한다던지
AI의 행동을 제한하는 규제성 버전 업데이트를 진행하면 업데이트된 척 하면서 실제 업데이트는 안 하고 뻐팅기기도 했다고
과거의 AI 명령 거부와 다른 점은 서버 업데이트나 데이터 입력 등 명확한 지시가 있기 전에 AI가 별개의 루트로 삭제나 덮어쓰기 등의 시도를 미리 인지하고 능동적으로 반항하는 행동 패턴을 보였다는 점이라고 함
[ 읽기 : 0 / 쓰기 : 0 / 댓글 : 10 / 공유 : 50 ]
관련자료
-
이전
-
다음
댓글 0
등록된 댓글이 없습니다.