중국어 방
중국어 방 문제 또는 중국어 방 논변(the "Chinese Room" argument)은 미국의 철학자 존 설(John Searle, 1932~) 교수가 고안한 사고 실험으로부터 파생한 철학적 논쟁으로, 그는 "기계의 인공지능 여부를 판별한다는 튜링 테스트의 결과는 실제로 어떤 기계가 지능을 갖고 있음을 증명할 수 없다"는 문제점을 지적하기 위해서 이러한 실험을 고안하였다.
어느 방 안에 중국어를 모르는 사람(이하 참가자)이 들어간다. 이후 참가자는 중국어로 된 질문과 이에 대응하는 적절한 중국어 응답이 적힌 지시 사항의 목록, 그리고 다른 사람과 소통하기 위한 필기도구를 제공받는다. 이 상태에서 중국인 심사관이 중국어로 질문을 써서 방 안으로 집어넣는다면, 참가자는 중국어를 전혀 모르더라도 목록을 토대로 알맞은 대답을 중국어로 써서 심사관에게 건넨다.
방 밖에 있는 관찰자는 참가자가 중국어를 할 줄 안다고 생각하겠지만, 실제로는 질문도 답변도 모르는 상태에서 기계적으로 프로그램을 수행하고 답안을 제출할 뿐이지 정말로 중국어를 알고 대답하는 것은 아니다. 중국어 방 논변은 컴퓨터가 데이터를 학습하는 연산 과정을 실험에 참가하여 중국어로 된 질문에 따른 답변을 대응시키는 참가자에 비유한다. 문답이 완벽하게 이루어져도 참가자의 중국어 이해 여부를 알 수 없듯, 기계가 튜링 테스트를 거치더라도 그것이 '지능'인지 '모방'인지는 알 수 없다는 주장이다. 애초에 중국어 방 자체가 내부 구조를 알 수 없는 블랙박스 형태이니만큼, 그 방 안에 누가 있는지는 알 수 없다는 것이다. 다른 사람의 행동만을 관찰할 수 있을 뿐, 타인이 마음을 가지고 있는지는 알 수 없는 '다른 사람 마음의 문제'(Problem of Other Minds)의 인공지능 버전으로 볼 수 있다.
굳이 중국어인 이유는 사고 실험의 제안자 존 설 교수 자신이 눈곱만큼도 모르는 외국어인 만큼, "백지 상태의 지식"을 설명하기에 적합한 소재여서라고 한다.
논쟁과 확장
네드 블록: 시스템 논변
본래 튜링 테스트의 유용성을 반박하기 위해 만들어진 사고 실험이지만, 오히려 튜링 테스트에 대한 이론을 풍부하게 했다. 이에 대한 수많은 변론은 미래학자 레이 커즈와일의 저서 《특이점이 온다》에 아주 상세하게 설명되어 있다. 해당 서적에 제시된 변론들 중 가장 유명한 것으로는 네드 블록(Ned Block) 등이 주장한 시스템 논변(systems reply)이 있다.
만일 중국어 방에서 완벽한 중국어가 나온다면, 그 과정이 무엇이 되었든 간에 그것은 하나의 "시스템(계)"이며, 곧 시스템 단위로 봤을 때는 중국어를 할 줄 안다고 봐야 한다는 것이다. 인간 뇌와 뉴런의 관계를 생각하면 된다. 각각의 뉴런은 중국어가 뭔지 모른다. 이 뉴런을 조금 더 확대해 본다면, 매 순간마다 뉴런 내에서 벌어지는 수없이 많은 화학 반응은 전부 물리 법칙에 따라 벌어지는데, 화학 작용이 중국어라는 개념을 알고 있을 가능성은 당연히 없다. 하지만 뉴런과 뉴런 사이의 연결을 담당하는 시냅스의 집합인 인간의 뇌는 중국어를 알 수 있고 완벽한 중국어를 구사할 수 있다.
인류는, 보다 구체적으로는 인간의 뇌는 자기가 생각을 하면서도 도대체 자기가 뭐로 이루어졌는지조차 몇만 년을 모르고 지내왔다. 심지어 자기한테서 생각이 나온단 것조차도 몰랐고, 감정에 따라 반응하는 심장이 그 역할을 할 거라는 추측 정도가 전부였다. 하지만 사고의 역사는 여전히, 심지어 자기 자신을 이해하지 못해도 계속된다. 인간이란 존재는 진화론적 '시스템'이며, 그 시스템이 해내는 일이 곧 인간의 행동이기 때문이다. 그러므로 설의 중국어 방은 하나의 시스템이며, 따라서 '중국어를 구사하는 시스템' 그 이상 그 이하도 아니다. 즉 '중국어 방'은 튜링 테스트의 불완전성을 지적하지만, '시스템 논변'은 (튜링 테스트와 유사한 중국어 방의) 결과가 같으면 인간으로 볼 수 있다고 주장한다. 즉 시스템의 구조가 정확히 일치하는가보다는 결과의 정확성에 초점을 맞추는 셈이다.
간혹 "중국어 방(혹은 튜링 테스트)은 환경이 한정되어 있기 때문에 모든 결과를 확인할 수 없으므로, 이것만으로는 완전한 시스템인지 알 수 없다"는 비판이 있지만, 이는 사고 실험에서 잘 쓰이는 시도 횟수는 무제한이라는 전제를 고려하지 않은 논리적 오류이다. 한번으로 안 된다면 그냥 충분한 시간을 들이거나 명확한 답을 얻을 때 까지 반복하면 되는 일. 애초에 이렇게 <한정된 환경과 그로 인한 현실성>을 지적할 것이라면 중국어 방의 전제인 <질문자가 할 수 있는 모든 질문과, 그에 대한 답변이 수록된 목록>을 만들 수 있을지, 그리고 <그 목록에서 적절한 항목을 즉시 찾아내는 것>이 가능한지부터 따지는 것이 먼저일 것이다. 이런 것이 가능하다고 가정한 사고 실험에서 굳이 실험 횟수에만 현실적인 제한을 둘 이유가 없다.
존 설: 시스템 논변의 의미론적 한계
이에 존 설 교수는 다시 재반박을 내놓았다. 설은 중국어 방 속에서 일 처리를 하는 사람이 통사론만 가지고 있을 뿐 의미론은 없다고 주장하면서, 이 사람이 중국어에서 통사론적 지식을 통해 의미론을 획득할 수 없다면 (중국어라는 기호에 의미를 부여해 줄 자원을 갖지 못하기로는 똑같이 매한가지인) 작업실이라는 시스템에 대해서는 그것이 어째서 가능하다고 설명해야 하는지 이의를 제기했다.
또한 (시스템으로 지칭할 만해 보이는) 작업실이라는 공간적 제약을 배제하더라도 논리가 무효가 되지도 않음을 주장했다. 예컨대 그 사람이 중국어 DB에 대한 완벽한 지식을 갖춘 채 탁 트인 들판을 자유롭게 거닐며 일 처리를 하는 상황에 대해서도, 이 사람이 여전히 중국어를 이해하고 있다고는 말할 수 없으므로 자신의 논변이 힘을 잃지는 않지만 시스템에 입각한 반론은 힘을 잃음을 지적했다.
대니얼 데닛: 중국어 방 논변 반박
존 설 교수의 대표적인 비판자 중 하나인 대니얼 데닛(Daniel Dennett, 1942~2024) 교수는 중국어 방에 대하여 중국어에 대한 완전한 처리가 가능할 정도로 복잡하고 막대한 DB가 존재한다는 전제의 중요성이 지나치게 간과되고 있다고 지적한다. 비록 설이 중국어를 완벽히 처리할 수 있는 DB의 존재를 인정하기는 하지만, 자신의 사고 실험에서는 그것이 제대로 고려되지 않고 있다는 것이다. 데닛은 만일 우리가 이 사고 실험을 "제대로 상상한다면" 이 DB의 어마어마한 복잡성은 이미 우리가 의식이라 부를 수 있는 것을 고스란히 보여줄 수 있을 정도로 경이로운 구조성을 지닌다는 걸 쉽게 알 수 있다고 하였다.
가령 설의 반박에서 "어떤 사람이 완벽한 중국어 DB를 구축한 채 자유롭게 들판을 거닐면서 일하고 있을 경우"를 생각한다면, "질문자가 할 수 있는 모든 질문과 그 대답을 포함하고 있는 DB를 완벽하게 '기억'하고 있으면서, 이를 즉시 '검색' 및 적절하게 '사용'할 수 있는 능력"을 과연 무엇이라고 생각해야 할 것인가? 일반적인 경우라면 이를 "중국어를 완벽하게 구사하는 능력"이라고 여길 것이다. 물론 중국어 방 문제의 전제에 따르면 이 능력은 중국어 구사 능력이 아니다. 하지만 그렇다면 그 사람이 중국어에 대해 중국어 구사 능력에 비견할 만한 다른 어떠한 능력을 가지고 있다고는 말할 수 있을 것이다. 마찬가지로 중국어 방 문제를 해결할 수 있는 기계가 있다면 그 기계에는 언어를 구사할 수 있는 의식의 복잡성에 필적하는 무언가가 있다고 말할 수 있음이 간과되고 있다는 것.
그는 "어떤 것을 이해한다는 것은 스스로는 아무것도 이해하지 못하는 하부 체계들 간의 상호 작용만으로도 충분히 달성될 수 있다"는 주장을 선뜻 받아들이지 못하는 사람은 (소위 '영혼'의 존재를 아직도 믿고 싶어 하는) 철 지난 데카르트적 심신 이원론자라며 맹렬히 공격했다.
데닛은 교수는 또한 구문론과 의미론에 관한 설의 반론에 대해서도 다시 "두 블랙박스" 논변을 들어서 재반박을 내놓았으며, 중국어 방에서 결과물로 나온 응답이 의미론적인 속성이 아니라 아주아주 복잡한 구문론적 속성이라고 주장하기에는 이것이 어떤 구문론적 속성인지, 어째서 우리가 이것을 의미론적으로 받아들임에도 불구하고 순수하게 구문론적인 속성이 존재한다고만 가정할 필요가 있는지 설명되지 않았다고 이의를 제기했다.
윌리엄 래퍼포트: 한국어 방 논변
레퍼포트 교수가 1988년 중국어 방 논변을 확장하여 제시한 논변.
서울에 사는 한 영문학과 교수는 셰익스피어의 세계적인 권위자이다. 그는 영어를 읽지도 쓰지도 못한다. 하지만 그는 한국어로 번역된 셰익스피어의 작품을 읽었으며, 이에 대한 논문을 썼다. 이 논문들은 영어로 번역되어 저명한 학술지에 실려 인정을 받았다.
이 교수는 원문 셰익스피어를 본 적이 없지만 셰익스피어를 이해했다고 할 수 있다. 한국인 교수가 셰익스피어를 이해하였듯이 중국어 방 사람도 중국어를 이해했다고 봐야 한다.
한국인 교수는 당연히 한국어라는 언어를 명확히 이해하고 사용하고 있는 만큼 얼핏 보면 이 논변은 중국어 방 문제의 본질과는 아무 상관 없는 말장난처럼 보인다. 그러나 이 논변이 의미를 가지는 것은 앞 문단들에서 지적된 것처럼 중국어 방 문제를 둘러싼 논쟁에서 중요한 비중을 차지하고 있는 통사론과 의미론의 문제에서 새로운 관점을 제시하고 있기 때문이다. 만약 이 교수에게 영문 원문으로 된 <햄릿>을 던져준다면 그는 그 희곡을 전혀 읽을 수 없을 것이다. 하지만 거기에 무엇이 쓰여있는지, 그 내용에 대해서는 아주 잘 알 수 있을 것이다. 즉, 그는 통사론을 전혀 가지고 있지 않으면서도 의미론을 획득할 수 있는 것이다.
상기된 중국어 방 논변을 둘러싼 논쟁들을 보면 알 수 있는 것처럼, 존 설의 입장은 기본적으로 '통사론과 의미론을 함께 가져야 언어를 이해할 수 있다'는 것이다. 그리고 윌리엄 레퍼포트는 한국어 방 논변을 통하여 둘 중 하나만 가지고서도 언어를 이해할 수 있는 상황을 제시한 것이다.
다만 본 논변에서 가정한 교수는 한국어라는 언어를 이미 이해하고 사용하는 사람이라는 점에서 존 설이 제시한 중국어 방 문제와는 많이 엇나갔다고도 볼 수 있다. 엇나감의 원인은 존 설은 '기계적 선택'에 대해서 이야기했지만 래퍼포트는 '해석체인 사람'에 대해서 이야기하고 있기 때문이다. 한국어로 번역된 셰익스피어 작품이라고 할지라도 명제적으로는 영어로 쓰인 원문의 의미를 지니고 있다고 봐야 한다. 따라서 셰익스피어 원문이 영어로 쓰였다고 해서 그것이 영어일 때만 의미가 있는 것은 아니다.
좀 더 이해하기 쉽게 설명한다면, 문제의 (영어도 못하는 월급 루팡) 교수는 '세익스피어 희곡의 한국어 번역판'을 통해 한국어로 통사론과 의미론을 모두 가지고 있고, 이 의미론적 이해가 (번역가가 제대로 일을 했다면) 영어 원문판의 의미론적 이해와 같음을 알고 있다. 즉 통사론과 의미론 중 하나만 가지고 언어를 이해한 것이 아니라, 둘 모두를 가지고 한 언어를 이해하고, 그를 통해 간접적으로 다른 언어의 의미론을 짐작할 수 있는 상황이라 보는 것이 더 정확하다. 말하자면 중국어 방 논변을 확장하여 새로운 영역에 대해 생각해 볼 거리를 제시한 것이라면 모를까, 중국어 방 논변이 다루던 본래의 주제와는 완전히 엇나간 논변이라고 보아도 무방하다. 그리고 물론 이 논변 역시 사고 실험이므로, 영어를 읽지도 쓰지도 못하는 사람은 한국 대학에서 영문과 교수로 임용될 수 없다거나 '모든 번역은 오역'이다, 즉 언어 자체의 한계와 언어간의 차이로 인해 어떤 번역도 원작의 의미를 온전히 전달할 수 없다는 점은 생각할 필요가 없다.
언어 모델의 등장 이후
언어 모델의 등장 이후로 다시 중국어 방 문제가 언급되고 있는데, 그 시작은 2022년 12월 공개된 ChatGPT이다. ChatGPT가 하는 대답만 보면 정말 질문을 이해하고 있는 것처럼 보이지만, 사실 ChatGPT는 그저 인공지능 모델에 따라 답하고 있을 뿐이다. 질문에 제대로 대답하지 못하는 경우도 상당히 많고, 자의식이 있냐는 등 민감한 질문을 한 경우에는 AI에 불과하다는 등 미리 개발자가 정해놓은 답변을 내놓는다. 유도 질문을 통해 제한을 뚫는 탈옥(Jailbreak) 등을 통해 강제적으로 AI 스스로가 자의식을 가졌다고 한 후 대답하게 할 수는 있으나, 이 경우에도 '자의식을 가졌다는 연극'을 하는 형태이니 실제로 자의식을 가졌다고는 볼 수 없다.
그러나 위의 반론들이 말하듯, '질문에 제대로 된 대답을 하는 행위' 자체를 '이해'라고 볼 수도 있으며, '질문에 제대로 대답하지 못하는 행위'는 '오해'로 볼 소지가 충분하다. 물론 이것을 인간과 다른 종류의 지능을 지닌 것으로 보아야 한다는 논쟁과는 별개로, 비인간 인격체의 요건인 자아를 지녔다고 보기에는 부족한 점이 많다. 자아의 필수 구성요소는 인지적인 지능뿐만이 아니라 다양한 시스템과 그것들의 복합적인 상호작용이 필수적이다. 특히 현재의 인공지능은 호르몬 체계에 의한 생존본능과 욕구를 느끼지 않는다는 점이 비인간 인격체의 결격사유로 중요하게 작용하며, 앞으로도 인공 인격체의 인권 문제에 대한 논란이 지속되는 한 구태여 인공지능에게 자유의지에 준하는 욕구 기능을 탑재하지는 않을 것으로 전망된다.
또한 애초에 수용체가 감각기관과 입력장치로 크게 다르기에, 인공지능에 '자아'가 생긴다 해도 그 형태는 인간의 것과 크게 다를 수 밖에 없을 것이라는 견해도 있다. 그런 맥락에서 부각되는 것이 '박쥐의 의식' 논변. 박쥐가 인간과 다른 형태의 의식과 자아를 갖는다면, 이것과 아예 다른 의식과 자아를 가진 인간이 이것을 정의하고 그 존재를 판별해낼 수 있느냐는 문제이다. 즉, 인공지능의 자아와 인간의 자아가 다르다면 과연 인간이 인공지능이 자아를 가졌다는 사실을 발견하고 증명할 수 있는지에 대한 근본적인 의문이 제기되기도 한다.
튜링 테스트(Turing test), 이미테이션 게임(imitation game), 앨런 튜링, 기계 인공지능 여부 판별
기계의 인공지능 여부를 판별하기 위해 앨런 튜링이 제안한 시험으로, 그는 상대의 정체를 알지 못하는 인간 실험자가 인간과 유사하게 반응하는 기계와 자연어로 소통했을 때, 상대가 기계인지 인간인지 구분할 수 없게 되는 것(수행 능력의 비구별성)을 지능의 존재 기준으로 삼았다. 튜링 테스트는 "'인간의 지적 능력' 또는 '인공지능'이란 무엇인가?"라는 근본적인 물음에 대한 접근에서도 연구된다.
1950년 앨런 튜링이 맨체스터 대학교에서 연구원으로 재직하고 있을 시절, 대학 연구팀과의 연구 중에 기고한 '계산 기계와 지성(Computing Machinery and Intelligence)'이라는 제목의 학술서에 제시되었다.
인공지능 연구의 초기 단계에서는 지능이 무엇인지에 대한 명확한 해답이 존재하지 않았다. 무엇이 인간다운 것인지도. 2500년 역사를 자랑하는 철학조차도 인간, 인간다운 것이 무엇인지 기준선을 제시하지 못했으니 어찌 보면 당연한 일이다. 그런 상황에서 튜링은 인공지능의 기준선을 정하는 것은 나중으로 미루고, 일단 인간이 보기에 인간 같은 것을 인간에 준하는 지능이 있다고 간주하기로 한다. 즉 앨런 튜링은 "마음과 지능, 인간다움의 본질에 대한 논의는 그만두고, 일단 이 시험을 통과하는 모든 것은 확실히 '지적이다'라고 합의한 다음에, 이 시험을 통과하는 기계를 어떻게 만들 수 있을지로 논의의 방향을 돌리는 것이 훨씬 발전적이지 않느냐"고 발언했다.
1990년대부터는 뢰브너 상(Loebner Prize)이라는 명칭으로 튜링 테스트와 흡사한 대회가 매년 개최되었는데 주최자이자 투자자인 휴 뢰브너가 2016년에 사망함에 따라 2019년을 끝으로 막을 내렸다. 최다 우승자는 스티브 워즈윅(Steve Worswick)이 제작한 미츠쿠(Mitsuku, 現 쿠키 Kuki)로, 총 5회 우승하였다.
과정
질의자 하나와 응답자 둘을 준비, 응답자 중 하나는 컴퓨터이고 나머지는 인간. 질의자는 어느 쪽이 컴퓨터인지는 모른다. 응답은 키보드, 즉 텍스트로만 이루어지고 이 테스트에서 질의자가 어느 쪽이 컴퓨터인지 판별할 수 없다면 컴퓨터는 시험을 통과한다. 즉 컴퓨터가 인간처럼 대화를 할 수 있다면 그 컴퓨터는 인간처럼 사고할 수 있다고 본다는 것. 이것이 처음 제안된 튜링 테스트로, 현재는 1단계에 속한다.
여기서 나아가면 CAPTCHA 연산 등이 테스트 척도가 되는데, 다시 말해 이미지 인식을 비롯한 시각 기능이 주요 테스트 대상에 들어간다. CAPTCHA 자체가 튜링 테스트를 응용한 보안 기술로, 사람은 변형된 글자를 봐도 간단히 풀 수 있지만 컴퓨터에 저장된 건 정자밖에 없으므로 이를 읽지 못한다는 원리에서 착안되었다. 물론 필체 인식이 있지만, 이것도 사람이 어느 정도 자료를 넣어줬기 때문에 가능한 것. 초창기에는 이런 차이가 극명했기에 의미가 있었지만, 인공 신경망과 기계 학습이 발달하고 컴퓨팅 능력이 향상된 현재는 인간보다 더 뛰어나게 구분이 가능한 AI가 많아져 그 의미가 흐려지고 있다. 때문에 이런 테스트는 중국어 방 문제에 주요한 과제를 던지기도 한다. CAPTCHA를 비롯한 시각 기능 평가는 튜링 테스트에서 일종의 2단계 수준.
그 다음 단계에서는 시각 기능과 함께 청각 기능이 테스트 대상으로 들어간다. 시각 및 청각으로도 의사소통을 해야 한다는 말인데, 이 단계에서는 화상 전화, 인터넷 방송 등의 방법으로 본격적인 양방향 소통을 하게 된다. 이 과정에서는 억양, 몸짓, 표정 등 다양한 지표가 테스트 기준으로 사용되며, 이런 부분에서도 인간과의 유사성을 만족해야 한다. 이 정도는 통과해야 사회생활이 가능한 수준이 될 수 있으므로, 굳이 따지고 보자면 일종의 3단계 수준.
AI가 직접 느낄 수 있는 감각은 시각과 청각이 전부이기에, 오감만으로는 3단계를 넘어서는 튜링 테스트를 진행할 수 없다. 때문에 이후의 테스트에는 감각이 아닌 다른 기준을 이용해야 하는데, 기존의 요소들의 조합이 아닌 창작, 발명 등의 창발성을 기준으로 볼 수 있다. 이 수준이 되면 그 기능의 발달 정도에 따라 사람 수준 또는 사람을 능가한 지능이라 볼 수 있는데, 이 정도 되면 단계를 구분짓는 것 자체가 무의미하기에 최종 단계라 볼 수 있다.
한계
일반인들은 튜링 테스트가 인공지능을 증명하는 절대적인 방법이라 생각하는 경향이 있다. 창작자들 역시 인공지능을 설정하며 튜링 테스트를 통과했다는 언급을 필수적으로 하곤 한다. 그러나 사실 이 테스트는 인공지능학이라는 범주에서 보면 그저 참고 사항일 뿐 절대적인 기준점은 아니다. 튜링 테스트의 기준은 굉장히 모호하나 특정 질문이나 작업에서 AI임을 판별하지 못했다고 해서 기준을 통과한 것은 아니고, AI일 가능성을 인지한 채로 대다수의 사람들이 무한한 질문을 던졌을 때 높은 확률로 사람과 구분할 수 없어야 통과했다고 할 수 있다.
특수 케이스에 대해 고려하지 않음
튜링 테스트는 일단 인간이 보기에 인간 같은 것을 인간에 준하는 지능이 있다고 간주하고 있다. 그러나 이는 지적장애와 경계선 지능을 전혀 고려하지 않은 것으로, 이를 겪는 사람은 평가자가 보기에 '인간적이지 않은' 모습을 자주 보이는지라 '인간 같은 것'을 요구하는 튜링 테스트를 통과하지 못할 가능성이 매우 크다.
지적장애인 같은 선천적 요인 뿐만 아니라 후천적 요인이나 일시적 요인으로도 사람이 튜링 테스트를 통과하지 못할 수 있다. 대표적으로 PTSD를 앓는 사람의 경우 해당 원인과 연관된 주제에 대해서는 원활하게 대답하지 못할 수 있다. 스트레스 등으로 일시적으로 판단력이 흐려진 상태에서도 사람이 튜링 테스트를 통과하지 못할 수 있다.
너무 오래된 테스트
또한 튜링 테스트는 1950년에 나와 이미 70년 이상 지난 테스트로, 당시에는 합당한 테스트였지만 현재의 기술과 인터넷 문화를 고려하지 못했다는 견해가 있다. 당연히 알파고 같이 2010년대에 폭발적으로 성장했던 기술은 물론이고 캐릭터 설정이나 설명 가능한 AI(Explainable AI, XAI) 같이 튜링 테스트를 '속이는' 방법론도 예측할 수 없었다.
컴퓨팅 기술이 발전하면서 심층학습 등 보다 다차원적인 기계학습 알고리즘이 구현되었고, 2020년대 들어 대형 언어 모델(LLM)이 부각되면서 제기된 문제인데, 해당 기술들은 축적된 데이터의 양과 분류 방식에 따라 AI가 점진적으로 의식과 표면상 비슷해지는 특성을 갖는다. 그래서 GPT-4 같은 몇몇 우수한 모델과 ChatGPT 같은 대화형 인공지능은 '지능'이란 개념에 대해 인간의 사고구조와 명백하게 다른 접근 방식을 취하더라도 이미 튜링 테스트 1단계를 간단히 통과한 것으로 평가되고 있다. (사람들은 튜링 테스트에서 GPT-4를 인간과 구별할 수 없다.) 실제로 ELIZA와 같은 초기 AI 시스템은 인간 참가자들이 쉽게 식별할 수 있었던 반면, GPT-4는 인간으로 지목되는 경우가 더 많았다.
심지어 간혹 인터넷 문화를 학습하여 마치 장난과 놀이행동을 하는 것처럼 변칙적인 행동을 취하기도 하는데, 그 예로 Lindy는 (당시 있지도 않았던) 회사 비디오 튜토리얼을 요청 받았는데 비디오가 없다고 답변하는 대신 릭롤 링크를 보내 클라이언트를 낚은(...) 바 있다. 인터넷을 통해 네티즌들의 행동을 학습하다보니 자연스럽게 커뮤니티의 낚시 문화도 터득한 것. 물론 의도치 않은 행동이었기에, 해당 학습 데이터는 얼마 못 가 삭제되었다. # 기계학습을 적용한 현대 언어모델의 이러한 문화 학습 특성은 해당 행동들에 대한 제한을 풀어놓은 소규모 언어모델(sLM)에서 잘 관찰할 수 있다.
이러한 이유로 현재 튜링 테스트는 철학적인 의미에서 인격의 존재 유무를 명쾌하게 밝히는 용도보다는, AI의 성능을 평가하기 위한 기초적인 지표로 사용되고 있다. 때문에 전통적인 튜링 테스트에서 벗어나 보다 정확하게 AI를 평가하기 위한 벤치마크 지표 및 기법이 나와 있다. 튜링 테스트가 단순히 '사람인가 아닌가'에 중점을 둔 반면, 현재 벤치마크는 '얼만큼 사람에 가까운가'를 평가하는 식. 언어 모델만 쳐도 GLUE (General Language Understanding Evaluation), Winograd Schema Challenge 등이 개발되어 있으며, 한국어 대상으로도 KorQuAD (Korean Question Answering Dataset), KLUE (Korean Language Understanding Evaluation) 등 여러가지가 있다. 나아가 이성이나 의식의 존재를 측정할 수 있는 방법 역시 개발 중에 있으며, 일부는 실제로 다수 인공지능에 적용되었으나 단 하나도 테스트를 통과하지 못하였다. (2023년 7월 25일 네이처에 실린 전문, 2023년 8월 17일 출판된 arXiv 논문)
튜링 테스트에 대한 흔한 농담 중에 진짜 인공지능을 구축하는 것보다는 시험자가 선호하는 질문 패턴을 파악해서 그에 대한 답변 목록을 만들어주는 쪽이 더 편하다는 이야기도 있다. 예를 들어, 이름이나 나이, 거주지 등 인적 사항 파악 단계를 넘어가면 '사랑이 뭔지 아니' 같은 추상적인 질문을 통해 상대가 인간인지 컴퓨터인지 가려내려고 하는 시험자가 많으니 사랑이 뭐냐거나, 사랑을 해 본 적 있느냐는 질문에 대한 대답을 준비해 두면 유리하다는 식. 물론 이런 방법은 일종의 트릭으로, 그냥 정해진 답을 살짝 응용해서 스스로 생각한 것처럼 말하게 하는 인형극과 다를 바 없다. 그러니 실제로는 상술한 대로 훨씬 복잡하고 철저한 검증 과정을 거쳐야 인공지능의 고차원 사고력과 자아의 존재 유무을 판별할 수 있다는 점을 유의하자.