작은 AI 모델은 아주 오래된 게임에서 놀라운 향상을 얻었습니다.
MIT 연구원들은 AI 에이전트가 이동하기 전에 정보를 수집하는 방법을 개선할 수 있는지 테스트하기 위해 Battleship 스타일 설정을 사용했습니다. 그 결과, 연구원들이 보드 검색 방식을 변경한 후 인간을 거의 이기지 못하는 것에서 대부분의 게임에서 승리하는 것으로 변한 한 모델을 포함하여 소규모 시스템의 성능이 급격히 향상되었습니다.
이러한 변화는 오늘날 AI 에이전트의 가장 큰 약점 중 하나에 바로 적용됩니다. 아직 가지고 있지 않은 세부 사항에 따라 답변이 달라지는 작업을 처리하라는 요청을 받는 경우가 많습니다. MIT의 연구는 더 나은 질문 계획이 더 저렴한 모델의 행동을 훨씬 더 유능하게 만들 수 있음을 시사합니다.
얼마나 똑똑해졌나
MIT의 테스트에서는 자연어 질문을 중심으로 구축된 Battleship 버전을 사용했습니다. 한 AI 에이전트는 숨겨진 선박을 찾으려는 팀원 역할을 수행했고, 다른 AI 에이전트는 보드에 액세스하여 응답했습니다.

가장 큰 점프는 Llama 4 Scout에서 나왔습니다. MIT는 작은 모델이 처음에는 게임의 8%에서만 인간 플레이어를 이겼다고 말했습니다. 연구자들이 보다 신중한 추론 전략을 추가한 후, 이 전략은 약 1%의 비용으로 운영하면서 인간을 82% 더 앞섰고 더 큰 프론티어 모델을 능가했습니다.
AI 비용에 관심이 있다면 주목해야 할 수치입니다. 모델이 커져서 승리한 것이 아니라 더 날카로운 질문을 선택하고 각 답변을 더 잘 활용함으로써 승리했습니다.
Battleship이 AI 학습을 돕는 이유
Battleship은 AI 에이전트가 제한된 정보를 가지고 행동하도록 강제하기 때문에 테스트로 작동합니다. 전체 보드를 볼 수 없으므로 모든 질문은 검색 범위를 좁히고 다음 동작을 설정해야 합니다.
이는 실용적인 AI 도구에 깔끔하게 매핑됩니다. 지원 봇, 연구 보조자 또는 기획 담당자는 도움을 주기 전에 후속 조치를 요청해야 하는 경우가 많습니다. 해당 프로세스가 중단되면 모델이 주요 세부 사항을 놓치거나 반복하거나 너무 일찍 권장 사항을 제시할 수 있습니다.

MIT 접근 방식은 이러한 약점에 압력을 가합니다. 상담원이 답변을 생성하기 전에 올바른 정보를 수집할 수 있는지 여부를 측정합니다.
다음은 어디로 갈 수 있을까?
더 어려운 테스트는 동일한 접근 방식이 게임 밖에서도 작동하는지 여부입니다. Battleship이 제어되므로 검색, 고객 지원 또는 직장 소프트웨어에서 개방형 에이전트 워크플로보다 점수를 매기기가 더 쉽습니다.
그래도 방향은 지켜볼 만하다. 소규모 모델이 행동하기 전에 더 예리한 질문을 하는 방법을 배우면 기업은 일상적으로 사용하기에 더 적합하다고 느끼는 저렴한 AI 도구를 구축할 수 있습니다.
다음 단계는 게임 보드에서 실제 작업으로의 전환입니다. 불분명한 지침, 누락된 파일, 서두르는 사용자가 있는 작업은 해결하기가 훨씬 더 어렵습니다.
관련 정보는 아래 링크에서 확인하세요