워싱턴 주립대학교 Mesut Cicek 교수와 그의 연구팀은 과학 논문에서 가져온 가설을 제시하여 ChatGPT를 반복적으로 테스트했습니다. 목표는 AI가 각 주장이 연구에 의해 뒷받침되는지, 즉 그것이 사실인지 거짓인지를 정확하게 판단할 수 있는지 확인하는 것이었습니다.
전체적으로 팀은 700개 이상의 가설을 평가하고 일관성을 측정하기 위해 각 가설에 대해 동일한 질문을 10번 질문했습니다.
AI 성능의 정확도 결과와 한계
2024년 처음 실험을 진행했을 때 ChatGPT는 76.5%의 정답을 맞췄습니다. 2025년 후속 테스트에서는 정확도가 80%로 소폭 상승했다. 그러나 연구자들이 무작위 추측을 조정한 후에는 결과가 훨씬 덜 인상적이었습니다. AI는 우연보다 약 60% 정도 더 나은 성능을 발휘했는데, 이는 강한 신뢰도보다 낮은 D에 가까운 수준입니다.
시스템은 허위 진술을 식별하는 데 가장 어려움을 겪었으며 해당 진술에 올바르게 라벨을 붙인 경우는 16.4%에 불과했습니다. 또한 눈에 띄는 불일치를 보여주었습니다. 정확히 동일한 프롬프트가 10번 주어졌을 때에도 ChatGPT는 약 73%의 시간에만 일관된 답변을 제공했습니다.
일관되지 않은 답변으로 인해 우려가 제기됨
WSU Carson College of Business의 마케팅 및 국제 비즈니스학과 부교수이자 새 출판물의 주요 저자인 Cicek은 “우리는 정확성에 대해서만 말하는 것이 아니라 불일치에 대해 이야기하고 있습니다. 동일한 질문을 반복해서 하면 다른 답이 나오기 때문입니다.”라고 말했습니다.
“우리는 동일한 질문에 대해 10개의 프롬프트를 사용했습니다. 모든 것이 동일했습니다. true라고 답할 것입니다. 다음에는 false라고 합니다. true, false, false, true입니다. 5개의 true, 5개의 false가 있는 경우가 여러 번 있었습니다.”
AI 유창성과 실제 이해
연구 결과는 Rutgers 비즈니스 리뷰에서는 중요한 결정, 특히 미묘하거나 복잡한 추론이 필요한 결정을 AI에 의존할 때 주의하는 것이 중요하다는 점을 강조합니다. 생성 AI는 매끄럽고 설득력 있는 언어를 생성할 수 있지만 아직 동일한 수준의 개념 이해를 보여주지는 않습니다.
Cicek에 따르면, 이러한 결과는 진정으로 “생각”할 수 있는 인공 일반 지능이 많은 사람들이 예상하는 것보다 아직 더 멀리 떨어져 있을 수 있음을 시사합니다.
Cicek은 “현재 AI 도구는 우리가 하는 방식으로 세상을 이해하지 못합니다. ‘두뇌’가 없습니다.”라고 말했습니다. “그들은 단지 암기하고 통찰력을 줄 수는 있지만 자신이 말하는 내용을 이해하지 못합니다.”
연구 설계 및 방법
Cicek은 공동 저자인 Southern Illinois University의 Sevincgul Ulu, Rutgers University의 Can Uslay, Northeastern University의 Kate Karniouchina와 함께 작업했습니다.
팀은 2021년 이후 비즈니스 저널에 발표된 과학 연구에서 나온 719개의 가설을 사용했습니다. 이러한 유형의 질문에는 종종 가설이 뒷받침되는지 여부에 영향을 미치는 여러 요인과 함께 뉘앙스가 관련되어 있습니다. 그러한 복잡성을 단순한 참 또는 거짓 판단으로 축소하려면 신중한 추론이 필요합니다.
연구원들은 2024년에 ChatGPT-3.5 무료 버전을 테스트했고, 2025년에 업데이트된 ChatGPT-5 mini를 테스트했습니다. 전반적으로 성능은 두 버전 모두 유사하게 유지되었습니다. 정답 확률이 50%인 무작위 확률을 조정한 후 AI의 효율성은 두 해 모두 확률보다 약 60% 더 높았습니다.
AI 추론의 주요 약점
결과는 대규모 언어 모델 AI 시스템의 근본적인 한계를 지적합니다. 유창하고 설득력 있는 답변을 생성할 수 있지만 종종 복잡한 질문을 통해 추론하는 데 어려움을 겪습니다. 이는 설득력 있게 들리지만 실제로는 잘못된 답변으로 이어질 수 있다고 Cicek은 말했습니다.
전문가들이 AI에 대한 주의를 촉구하는 이유
연구진은 이러한 연구 결과를 바탕으로 비즈니스 리더들이 AI가 생성한 정보를 검증하고 회의적인 태도로 접근할 것을 권고했습니다. 그들은 또한 AI 시스템이 효과적으로 할 수 있는 것과 할 수 없는 것을 더 잘 이해하기 위한 교육의 필요성을 강조합니다.
이 연구는 특히 ChatGPT에 중점을 두었지만 Cicek은 다른 AI 도구를 사용한 유사한 실험에서 비슷한 결과가 나왔다고 지적했습니다. 이 작업은 또한 AI 과대광고에 대한 주의를 지적하는 이전 연구를 기반으로 합니다. 2024년 전국 조사에 따르면 AI에 초점을 맞춰 마케팅된 제품을 소비자가 구매할 가능성이 낮은 것으로 나타났습니다.
그는 “항상 회의적이어야 한다”고 말했다. “저는 AI를 반대하지 않습니다. 사용하고 있습니다. 하지만 매우 조심해야 합니다.”
출처: https://www.sciencedaily.com/releases/2026/03/260317064452.htm

답글 남기기