10라운드 정직성 테스트에서 Claude Opus 4.8과 4.7을 비교했는데 법적 프롬프트에서 이를 깨뜨렸습니다.
데이비드 게워츠/ZDNET ZDNET을 팔로우하세요: 우리를 선호 소스로 추가하세요 Google에서. ZDNET의 주요 시사점 Claude Opus 4.8은 4.7보다 불확실성을 더 잘 처리했습니다. 여러 AI가 테스트 결과를 교차 확인하는 데 도움이 되었습니다. 정직한 AI조차도 여전히 나쁜 가정을 합리화할 수 있습니다. 지난주 Anthropic은 최신 개척자 대형 언어 모델인 Claude Opus 4.8을 출시했습니다. 이번 새 릴리스의 특징 중 하나는 이전 … 더 읽기