Fable 5는 새로운 AI 프리랜서 업무 성과 기록을 세웠지만 아직 인간을 대체할 수는 없습니다.

클로드 우화

게티 이미지를 통한 Samuel Boivin/NurPhoto

ZDNET을 팔로우하세요: 우리를 선호 소스로 추가하세요 Google에서.


ZDNET의 주요 시사점

  • Fable 5는 원격 작업에서 AI의 성공률을 16%까지 가속화합니다.
  • AI 기능은 지도 전체에 남아 있습니다.
  • CAIS는 그럼에도 불구하고 상담원의 기술이 “8개월 이내에 4배나 향상되었습니다”라고 말했습니다.

잠시 중단된 후 Anthropic의 호평을 받은 Fable 5 모델이 돌아왔고 작업 자동화의 기준을 재설정하고 있습니다.

미국 정부는 이 모델(Anthropic이 아직 일부 조직에서만 사용할 수 있는 Mythos 5와 기능 유사성을 공유한다고 밝혔음)을 6월 30일에 재승인했습니다. 그러나 AI 안전 센터(CAIS)는 2025년 10월에 출시된 원격 노동 지수(RLI)에서 Fable 5를 테스트했습니다. 이 모델은 상대적으로 새롭고 인상적인 것으로 간주되는 Anthropic의 Opus 4.8과 OpenAI의 GPT-5.5를 날려버렸습니다. 물의.

또한: AI 알고리즘을 이기고 꿈의 직업을 얻는 방법

RLI는 “AI 에이전트가 유료 클라이언트가 실제로 수용할 수 있는 품질로 실제적이고 경제적으로 가치 있는 프리랜스 프로젝트(…)를 완료할 수 있는 빈도”를 측정한다고 CAIS는 연구에서 설명했습니다. 여기에는 컴퓨터 지원 및 그래픽 디자인, 데이터 분석, 비디오 작업 등이 포함될 수 있습니다. 다른 유사한 인간 능력 테스트와 마찬가지로 모델이 생성하는 각 결과물은 전문적인 표준 결과물과 비교하여 인간에 의해 평가됩니다. 결과적인 자동화 비율은 평가자가 AI가 생산한 결과물이 인간의 전문 작업만큼 좋거나 더 낫다고 판단한 프로젝트의 분포를 반영합니다.

CAIS는 Fable 5, GPT-5.5 및 Opus 4.8에 약혼 반지의 3D 모형 디자인, 비디오 광고 제작, 평면도 매핑 등의 테스트를 요청했습니다. 연구원들은 인간 프리랜서에게 직업 관련 문서와 정보를 준비하는 방법과 유사하게 각 모델에 인간이 생성한 입력 파일을 제공하여 시작했습니다.

또한: Anthropic의 Mythos가 예상보다 빠르게 진화하고 있다고 AI 안전 기관이 보고했습니다.

Fable 5는 벤치마크 기록인 16.1%의 자동화율을 기록했고 Opus 4.8은 8.3%를 기록했습니다. GPT‑5.5는 6.3%로 3위를 차지했지만 CAIS는 세 가지 모델 모두 지금까지 평가한 모든 모델보다 높은 점수를 받았다고 지적했습니다.

CAIS는 “맥락상 이전에 발표된 리더는 4.17%(Claude Cowork 스캐폴드가 포함된 Opus 4.6)에 머물렀고 RLI가 출시되었을 때 해당 분야는 2.5%를 기록했습니다”라고 CAIS는 말했습니다. “개척 지역은 8개월도 안 되어 4배 이상 증가했는데, 이는 경제적 능력을 갖춘 AI 에이전트가 얼마나 빠르게 발전하고 있는지를 보여주는 구체적인 신호입니다.”

스크린샷-2026-07-02-at-2-28-40pm.png

CAIS가 RLI 벤치마크와 비교하여 측정한 자동화 속도입니다.

카이스

CAIS는 정부가 6월 중순에 Fable 5를 종료함으로써 테스트가 중단되었지만 이러한 부분적인 결과조차도 모델을 차별화했다고 지적했습니다.

연구원들은 “Fable 5가 모든 누락된 프로젝트에 실패했다는 최악의 가정 하에서도 Fable 5의 자동화율은 여전히 ​​14.6%로 다른 모델보다 높습니다”라고 말했습니다.

프리랜서에게 이것이 의미하는 바

AI 모델 가속화 속도는 불과 몇 달 만에 상당하지만, 이것이 자동으로 프리랜서 일자리 교체나 전반적인 손실로 이어지지는 않습니다. 16%는 아직 100%에 가깝지 않습니다. 그 외에도, 입증 가능한 이점에도 불구하고 AI가 모든 조직에 완벽하게 매력적인 해결책은 아닙니다. 보안 문제 및 기타 채택 장애물로 인해 대부분의 기업에서 AI 도구 통합이 적어도 시작하는 데에는 지연되고 다단계 프로세스가 되는 경우가 많습니다. 인간 프리랜서를 완전히 대체하려면 조직에서는 작업 품질, 예산, 타임라인과 같은 요소를 확인하기 위한 에이전트 네트워크가 필요할 것입니다. 절충안은 일대일이 아닙니다.

또한: Gemini와 Claude에게 이메일 답장을 쓰라고 했는데 딱 한 명만 나와 비슷한 것 같아요.

CAIS는 인간 평가자를 “LLM 판사”로 교체하여 표면적으로는 이 실험이 인간 참여 루프에서 얼마나 멀리 떨어져 있는지 확인하려고 시도했지만 모델은 실패했습니다.

CAIS는 “RLI 결과물을 평가하는 것 자체가 까다롭고 중요한 작업입니다.”라고 설명했습니다. “올바르게 수행한다는 것은 올바른 전문 응용 프로그램에서 프로젝트 파일을 열고 해당 응용 프로그램을 유능하게 작동하며 클라이언트가 판단하는 방식으로 판단을 내리는 것을 의미합니다. 오늘날 에이전트가 여전히 가장 취약한 컴퓨터 사용 기술입니다.”

또한: 에이전트 과잉 지출 및 기타 AI 청구 악몽을 막기 위해 OpenAI API 사용 제한을 설정하는 방법

즉, 능력을 향상시키면 이미 AI를 성공적으로 통합한 특정 회사의 일부 프리랜서 기회가 줄어들 수 있습니다. 또한, 컴퓨터 사용 기술이 현재의 한계이고 점점 더 에이전트화되는 모델에 대한 업계의 투자를 기반으로 개선될 준비가 되어 있다면 이러한 장애물은 결국 사라질 수 있습니다. 현재 속도 모델은 에이전트 기술을 측정하는 다른 벤치마크에서 개선되어 왔으며, 이는 우리가 상상하는 것보다 빨리 도착할 수 있습니다.

시간에 관해 말하자면, CAIS는 또한 인간이 작업을 수행하는 데 시간이 더 오래 걸린다고 해서 반드시 AI가 완료하기가 더 어렵다는 의미는 아니라는 사실을 발견했습니다. 예를 들어 이러한 시간 범위 분석은 코딩에는 적용되지만 RLI가 측정하는 광범위한 원격 작업에는 적용되지 않습니다. 현재로서는 미래에 대한 결론을 도출하기가 어렵습니다.

CAIS는 “음악을 복사하거나 실시간 게임 플레이 테스트와 같이 숙련된 전문가에게 빠른 일부 작업은 (AI의 경우) 손이 닿지 않는 반면, 디지털 아트나 코딩과 같이 사람이 몇 시간씩 걸리는 다른 작업은 현재 모델로 몇 분 안에 완료됩니다.”라고 CAIS는 썼습니다.

자세한 정보 확인

공식 정보 바로가기

관련 기사

댓글 남기기