과학자들은 역대 가장 어려운 AI 테스트를 구축했으며 그 결과는 놀랍습니다.

인공 지능 시스템이 오랫동안 사용된 학술 벤치마크에서 매우 높은 점수를 받기 시작하면서 연구자들은 점점 더 커지는 문제를 발견했습니다. 한때 기계에 도전했던 테스트는 더 이상 충분히 어렵지 않았습니다. 이전에는 까다롭다고 여겨졌던 MMLU(Massive Multitask Language Understanding) 시험과 같이 잘 알려진 평가는 이제 오늘날의 고급 AI 모델의 기능을 제대로 측정하지 못합니다.

이 문제를 해결하기 위해 텍사스 A&M 대학의 교수를 포함하여 약 1,000명의 연구자로 구성된 전 세계 그룹이 새로운 유형의 테스트를 개발했습니다. 그들의 목표는 현재 AI 시스템이 여전히 처리하기 어려운 방식으로 광범위하고 까다로우며 전문적인 인간 지식에 기초한 시험을 구축하는 것이었습니다.

그 결과가 수학, 인문학, 자연과학, 고대 언어 및 고도로 전문화된 광범위한 학문 분야를 포괄하는 2,500개의 문제 평가인 “인류 마지막 시험”(HLE)입니다. 프로젝트의 세부 사항은 다음에 출판된 논문에 나와 있습니다. 자연시험에 대한 추가 정보는 다음에서 확인할 수 있습니다. lastexam.ai.

많은 기여자 중에는 Texas A&M의 컴퓨터 과학 및 공학과 교육 부교수인 Dr. Tung Nguyen이 있습니다. Nguyen은 많은 시험 문제를 작성하고 개선하는 데 도움을 주었습니다.

Nguyen은 “AI 시스템이 인간 벤치마크에서 매우 좋은 성능을 발휘하기 시작하면 인간 수준의 이해에 접근하고 있다고 생각하기 쉽습니다.”라고 말했습니다. “그러나 HLE는 지능이 단지 패턴 인식에 관한 것이 아니라 깊이, 맥락 및 전문 지식에 관한 것임을 상기시켜 줍니다.”

시험의 목적은 인간 응시자를 속이거나 패배시키는 것이 아니었습니다. 대신 목표는 AI 시스템이 여전히 부족한 영역을 신중하게 식별하는 것이었습니다.

AI의 한계를 측정하기 위한 세계적인 노력

전 세계의 전문가들이 인류의 마지막 시험에 포함된 문제를 작성하고 검토했습니다. 각 문제는 하나의 명확하고 검증 가능한 답을 갖도록 세심하게 설계되었습니다. 간단한 인터넷 검색으로 성급하게 해결이 되지 않도록 질문도 제작했습니다.

주제는 고급 학문적 과제에서 비롯됩니다. 고대 팔미레어 비문을 번역하는 작업도 있고, 새의 작은 해부학적 구조를 식별하거나 성서 히브리어 발음의 세부 특징을 분석하는 작업도 있습니다.

연구원들은 주요 AI 시스템을 대상으로 모든 질문을 테스트했습니다. 모델이 질문에 올바르게 답할 수 있는 경우 해당 질문은 최종 시험에서 제거되었습니다. 이 프로세스를 통해 테스트는 현재 AI 시스템이 안정적으로 해결할 수 있는 수준 이상으로 유지되었습니다.

초기 테스트를 통해 전략이 효과가 있음이 확인되었습니다. 강력한 AI 모델조차도 시험에 어려움을 겪었습니다. GPT-4o는 2.7%, 클로드 3.5 소네트는 4.1%를 기록했다. OpenAI의 o1 모델은 8%로 다소 더 나은 성능을 보였습니다. Gemini 3.1 Pro 및 Claude Opus 4.6을 포함하여 지금까지 가장 뛰어난 시스템은 약 40%에서 50% 사이의 정확도 수준에 도달했습니다.

새로운 AI 벤치마크가 필요한 이유

Nguyen은 AI가 기존 테스트를 능가하는 문제는 기술적 문제 그 이상이라고 설명했습니다. 그는 HLE에서 공개적으로 사용 가능한 질문 2,500개 중 73개를 기고했는데, 이는 기고자 중 두 번째로 높은 수치이며 수학과 컴퓨터 과학과 관련된 질문을 가장 많이 썼습니다.

“정확한 평가 도구가 없으면 정책 입안자, 개발자 및 사용자는 AI 시스템이 실제로 무엇을 할 수 있는지 잘못 해석할 위험이 있습니다.”라고 그는 말했습니다. “벤치마크는 진행 상황을 측정하고 위험을 식별하기 위한 기반을 제공합니다.”

연구팀에 따르면 원래 인간을 위해 설계된 테스트에서 높은 점수가 반드시 진정한 지능을 나타내는 것은 아닙니다. 이러한 벤치마크는 주로 AI가 더 깊은 이해를 포착하기보다는 인간 학습자를 위해 생성된 특정 작업을 얼마나 잘 완료할 수 있는지를 측정합니다.

위협이 아니라 도구

극적인 이름에도 불구하고 인류 최후의 시험은 인간이 쓸모없어지고 있다는 것을 암시하려는 의도가 아닙니다. 대신, 여전히 인간 고유의 고유한 지식과 전문 지식이 많이 남아 있음을 강조합니다.

Nguyen은 “이것은 AI와의 경쟁이 아닙니다.”라고 말했습니다. “이것은 이러한 시스템이 어디에서 강력하고 어디에서 어려움을 겪고 있는지 이해하는 방법입니다. 이러한 이해는 우리가 더 안전하고 신뢰할 수 있는 기술을 구축하는 데 도움이 됩니다. 그리고 무엇보다도 인간의 전문성이 여전히 중요한 이유를 상기시켜 줍니다.”

장기 AI 벤치마크 구축

인류의 마지막 시험은 미래 AI 시스템에 대한 내구성 있고 투명한 벤치마크 역할을 하도록 설계되었습니다. 이러한 목표를 지원하기 위해 연구원들은 AI 모델이 단순히 답을 기억할 수 없도록 대부분을 숨긴 채 몇 가지 질문을 공개적으로 공개했습니다.

Nguyen은 “현재 인류의 마지막 시험은 AI와 인간 지능 사이의 격차를 가장 명확하게 평가하는 것 중 하나이며, 급속한 기술 발전에도 불구하고 격차는 여전히 넓습니다.”라고 말했습니다.

대규모 국제 연구 노력

Nguyen은 프로젝트 규모가 학문 분야와 국가 간 협력의 가치를 보여준다고 강조했습니다.

“이 프로젝트를 특별하게 만든 것은 규모였습니다.”라고 그는 말했습니다. “거의 모든 분야의 전문가들이 기여했습니다. 컴퓨터 과학자뿐만 아니라 역사학자, 물리학자, 언어학자, 의학 연구자들도 있었습니다. 이러한 다양성이 바로 오늘날 AI 시스템의 격차를 드러내는 것입니다. 아이러니하게도 인간이 함께 일하는 것입니다.”

출처: https://www.sciencedaily.com/releases/2026/03/260313002650.htm

코멘트

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다