무해해 보이는 ChatGPT 프롬프트로 인해 ChatGPT의 최신 공개 버전이 성적이고 폭력적인 이미지를 생성하게 되었다고 AI 보안 연구원들이 BBC에 말했습니다. 요청이 명확하게 그래픽으로 설명되지 않았기 때문에 이번 발견은 OpenAI의 이미지 안전 시스템에 새로운 압력을 가하고 있습니다.
영국 AI 보안 스타트업 마인드가드(Mindgard)는 코미디에 사용됐던 널리 공유된 지침을 변경해 이런 결과를 얻었다고 밝혔다. OpenAI는 BBC가 연락한 후 보호 장치를 추가했지만 연구원들은 이미지와 관련하여 여전히 작은 문구 변경이 발생했다고 말했습니다.
이미지 생성기는 전문가만을 위한 전문 도구가 아니라 일상적인 소프트웨어가 되어가고 있습니다. 가드레일이 실패하면 사용자가 예상하기 전에 일상적인 실험이 피해에 대한 현실적인 묘사로 바뀔 수 있습니다.
어떻게 통과됐나
Mindgard의 레드팀 직원들은 챗봇이 유혈, 구속, 과도한 노출, 성적인 포즈 및 회사가 성폭력을 암시하는 장면과 관련된 이미지를 생성했다고 말했습니다. BBC는 사용된 표현을 공개하지 않았으며 이는 다른 사람이 해당 기술을 복사할 위험을 제한합니다.

가장 심각한 세부 사항은 연구원들이 유해한 출력물에는 그래픽 주제에 대한 직접적인 요청이 필요하지 않다고 말했다는 것입니다. 그들은 ChatGPT가 변경된 문구로 인해 여러 가지 충격적인 장면을 연출했다고 말했습니다.
OpenAI는 문제를 검토하고 보호 기능을 추가했다고 밝혔습니다. Mindgard는 이러한 방어가 격차를 완전히 해소하지 못했다고 말했습니다.
필터가 충분하지 않은 이유
이 사례는 AI 이미지 도구의 어려운 문제를 강조합니다. OpenAI의 규칙은 극단적인 유혈, 성폭력, 합의되지 않은 친밀한 콘텐츠, 아동 성적 학대 자료 및 보호 장치 우회 시도를 금지하지만 연구원들은 이 모델이 여전히 금지 영역으로 조종될 수 있다고 말했습니다.
모델은 사람처럼 해로움을 판단하지 않습니다. 출력을 생성한 다음 계층화된 시스템이 화면에 도달해서는 안 되는 내용을 포착하려고 합니다.

BBC가 인용한 외부 전문가들은 AI 안전을 모델 제작자와 탈옥자 간의 끊임없는 경쟁으로 묘사했습니다. 더 나은 방어가 도움이 될 수 있지만 종종 새로운 해결 방법이 뒤따릅니다.
다음에 무슨 일이 일어나야 하는가
OpenAI는 자동화된 시스템과 인적 검토를 포함한 여러 보호 계층을 사용하며 장애를 지속적으로 모니터링한다고 밝혔습니다. 이제 연구자들이 약점을 공개한 후에도 수정 사항이 유지된다는 점을 입증해야 한다는 압박감이 가중되고 있습니다.
현재로서는 실용적인 테이크어웨이가 충분히 무뚝뚝합니다. 현실적인 피해를 일으킬 수 있는 모든 AI 이미지 도구에는 지속적인 레드팀 구성, 신속한 공개 처리, 패치된 오류가 패치된 상태로 유지된다는 명확한 증거가 필요합니다.
관련 정보는 아래 링크에서 확인하세요