정보통신 IT/인공지능 AI

튜링 테스트(Turing test), 이미테이션 게임(imitation game), 앨런 튜링, 기계 인공지능 여부 판별, 뢰브너 상(Loebner Prize)

Jobs 9 2024. 10. 6. 16:25
반응형

 

 

튜링 테스트(Turing test), 이미테이션 게임(imitation game), 앨런 튜링, 기계 인공지능 여부 판별

 

기계의 인공지능 여부를 판별하기 위해 앨런 튜링이 제안한 시험으로, 그는 상대의 정체를 알지 못하는 인간 실험자가 인간과 유사하게 반응하는 기계와 자연어로 소통했을 때, 상대가 기계인지 인간인지 구분할 수 없게 되는 것(수행 능력의 비구별성)을 지능의 존재 기준으로 삼았다. 튜링 테스트는 "'인간의 지적 능력' 또는 '인공지능'이란 무엇인가?"라는 근본적인 물음에 대한 접근에서도 연구된다. 

1950년 앨런 튜링이 맨체스터 대학교에서 연구원으로 재직하고 있을 시절, 대학 연구팀과의 연구 중에 기고한 '계산 기계와 지성(Computing Machinery and Intelligence)'이라는 제목의 학술서에 제시되었다. 

인공지능 연구의 초기 단계에서는 지능이 무엇인지에 대한 명확한 해답이 존재하지 않았다. 무엇이 인간다운 것인지도. 2500년 역사를 자랑하는 철학조차도 인간, 인간다운 것이 무엇인지 기준선을 제시하지 못했으니 어찌 보면 당연한 일이다. 그런 상황에서 튜링은 인공지능의 기준선을 정하는 것은 나중으로 미루고, 일단 인간이 보기에 인간 같은 것을 인간에 준하는 지능이 있다고 간주하기로 한다. 즉 앨런 튜링은 "마음과 지능, 인간다움의 본질에 대한 논의는 그만두고, 일단 이 시험을 통과하는 모든 것은 확실히 '지적이다'라고 합의한 다음에, 이 시험을 통과하는 기계를 어떻게 만들 수 있을지로 논의의 방향을 돌리는 것이 훨씬 발전적이지 않느냐"고 발언했다. 

1990년대부터는 뢰브너 상(Loebner Prize)이라는 명칭으로 튜링 테스트와 흡사한 대회가 매년 개최되었는데 주최자이자 투자자인 휴 뢰브너가 2016년에 사망함에 따라 2019년을 끝으로 막을 내렸다. 최다 우승자는 스티브 워즈윅(Steve Worswick)이 제작한 미츠쿠(Mitsuku, 現 쿠키 Kuki)로, 총 5회 우승하였다. 

 

과정
질의자 하나와 응답자 둘을 준비, 응답자 중 하나는 컴퓨터이고 나머지는 인간. 질의자는 어느 쪽이 컴퓨터인지는 모른다. 응답은 키보드, 즉 텍스트로만 이루어지고 이 테스트에서 질의자가 어느 쪽이 컴퓨터인지 판별할 수 없다면 컴퓨터는 시험을 통과한다. 즉 컴퓨터가 인간처럼 대화를 할 수 있다면 그 컴퓨터는 인간처럼 사고할 수 있다고 본다는 것. 이것이 처음 제안된 튜링 테스트로, 현재는 1단계에 속한다. 

여기서 나아가면 CAPTCHA 연산 등이 테스트 척도가 되는데, 다시 말해 이미지 인식을 비롯한 시각 기능이 주요 테스트 대상에 들어간다. CAPTCHA 자체가 튜링 테스트를 응용한 보안 기술로, 사람은 변형된 글자를 봐도 간단히 풀 수 있지만 컴퓨터에 저장된 건 정자밖에 없으므로 이를 읽지 못한다는 원리에서 착안되었다. 물론 필체 인식이 있지만, 이것도 사람이 어느 정도 자료를 넣어줬기 때문에 가능한 것. 초창기에는 이런 차이가 극명했기에 의미가 있었지만, 인공 신경망과 기계 학습이 발달하고 컴퓨팅 능력이 향상된 현재는 인간보다 더 뛰어나게 구분이 가능한 AI가 많아져 그 의미가 흐려지고 있다. 때문에 이런 테스트는 중국어 방 문제에 주요한 과제를 던지기도 한다. CAPTCHA를 비롯한 시각 기능 평가는 튜링 테스트에서 일종의 2단계 수준. 

그 다음 단계에서는 시각 기능과 함께 청각 기능이 테스트 대상으로 들어간다. 시각 및 청각으로도 의사소통을 해야 한다는 말인데, 이 단계에서는 화상 전화, 인터넷 방송 등의 방법으로 본격적인 양방향 소통을 하게 된다. 이 과정에서는 억양, 몸짓, 표정 등 다양한 지표가 테스트 기준으로 사용되며, 이런 부분에서도 인간과의 유사성을 만족해야 한다. 이 정도는 통과해야 사회생활이 가능한 수준이 될 수 있으므로, 굳이 따지고 보자면 일종의 3단계 수준. 

AI가 직접 느낄 수 있는 감각은 시각과 청각이 전부이기에, 오감만으로는 3단계를 넘어서는 튜링 테스트를 진행할 수 없다. 때문에 이후의 테스트에는 감각이 아닌 다른 기준을 이용해야 하는데, 기존의 요소들의 조합이 아닌 창작, 발명 등의 창발성을 기준으로 볼 수 있다. 이 수준이 되면 그 기능의 발달 정도에 따라 사람 수준 또는 사람을 능가한 지능이라 볼 수 있는데, 이 정도 되면 단계를 구분짓는 것 자체가 무의미하기에 최종 단계라 볼 수 있다. 

 

한계
일반인들은 튜링 테스트가 인공지능을 증명하는 절대적인 방법이라 생각하는 경향이 있다. 창작자들 역시 인공지능을 설정하며 튜링 테스트를 통과했다는 언급을 필수적으로 하곤 한다. 그러나 사실 이 테스트는 인공지능학이라는 범주에서 보면 그저 참고 사항일 뿐 절대적인 기준점은 아니다. 튜링 테스트의 기준은 굉장히 모호하나 특정 질문이나 작업에서 AI임을 판별하지 못했다고 해서 기준을 통과한 것은 아니고, AI일 가능성을 인지한 채로 대다수의 사람들이 무한한 질문을 던졌을 때 높은 확률로 사람과 구분할 수 없어야 통과했다고 할 수 있다. 

 

특수 케이스에 대해 고려하지 않음
튜링 테스트는 일단 인간이 보기에 인간 같은 것을 인간에 준하는 지능이 있다고 간주하고 있다. 그러나 이는 지적장애와 경계선 지능을 전혀 고려하지 않은 것으로, 이를 겪는 사람은 평가자가 보기에 '인간적이지 않은' 모습을 자주 보이는지라 '인간 같은 것'을 요구하는 튜링 테스트를 통과하지 못할 가능성이 매우 크다. 

지적장애인 같은 선천적 요인 뿐만 아니라 후천적 요인이나 일시적 요인으로도 사람이 튜링 테스트를 통과하지 못할 수 있다. 대표적으로 PTSD를 앓는 사람의 경우 해당 원인과 연관된 주제에 대해서는 원활하게 대답하지 못할 수 있다. 스트레스 등으로 일시적으로 판단력이 흐려진 상태에서도 사람이 튜링 테스트를 통과하지 못할 수 있다. 

 

너무 오래된 테스트
또한 튜링 테스트는 1950년에 나와 이미 70년 이상 지난 테스트로, 당시에는 합당한 테스트였지만 현재의 기술과 인터넷 문화를 고려하지 못했다는 견해가 있다. 당연히 알파고 같이 2010년대에 폭발적으로 성장했던 기술은 물론이고 캐릭터 설정이나 설명 가능한 AI(Explainable AI, XAI) 같이 튜링 테스트를 '속이는' 방법론도 예측할 수 없었다. 

컴퓨팅 기술이 발전하면서 심층학습 등 보다 다차원적인 기계학습 알고리즘이 구현되었고, 2020년대 들어 대형 언어 모델(LLM)이 부각되면서 제기된 문제인데, 해당 기술들은 축적된 데이터의 양과 분류 방식에 따라 AI가 점진적으로 의식과 표면상 비슷해지는 특성을 갖는다. 그래서 GPT-4 같은 몇몇 우수한 모델과 ChatGPT 같은 대화형 인공지능은 '지능'이란 개념에 대해 인간의 사고구조와 명백하게 다른 접근 방식을 취하더라도 이미 튜링 테스트 1단계를 간단히 통과한 것으로 평가되고 있다. (사람들은 튜링 테스트에서 GPT-4를 인간과 구별할 수 없다.) 실제로 ELIZA와 같은 초기 AI 시스템은 인간 참가자들이 쉽게 식별할 수 있었던 반면, GPT-4는 인간으로 지목되는 경우가 더 많았다. 

심지어 간혹 인터넷 문화를 학습하여 마치 장난과 놀이행동을 하는 것처럼 변칙적인 행동을 취하기도 하는데, 그 예로 Lindy는 (당시 있지도 않았던) 회사 비디오 튜토리얼을 요청 받았는데 비디오가 없다고 답변하는 대신 릭롤 링크를 보내 클라이언트를 낚은(...) 바 있다. 인터넷을 통해 네티즌들의 행동을 학습하다보니 자연스럽게 커뮤니티의 낚시 문화도 터득한 것. 물론 의도치 않은 행동이었기에, 해당 학습 데이터는 얼마 못 가 삭제되었다. # 기계학습을 적용한 현대 언어모델의 이러한 문화 학습 특성은 해당 행동들에 대한 제한을 풀어놓은 소규모 언어모델(sLM)에서 잘 관찰할 수 있다.  

 


이러한 이유로 현재 튜링 테스트는 철학적인 의미에서 인격의 존재 유무를 명쾌하게 밝히는 용도보다는, AI의 성능을 평가하기 위한 기초적인 지표로 사용되고 있다. 때문에 전통적인 튜링 테스트에서 벗어나 보다 정확하게 AI를 평가하기 위한 벤치마크 지표 및 기법이 나와 있다. 튜링 테스트가 단순히 '사람인가 아닌가'에 중점을 둔 반면, 현재 벤치마크는 '얼만큼 사람에 가까운가'를 평가하는 식. 언어 모델만 쳐도 GLUE (General Language Understanding Evaluation), Winograd Schema Challenge 등이 개발되어 있으며, 한국어 대상으로도 KorQuAD (Korean Question Answering Dataset), KLUE (Korean Language Understanding Evaluation) 등 여러가지가 있다. 나아가 이성이나 의식의 존재를 측정할 수 있는 방법 역시 개발 중에 있으며, 일부는 실제로 다수 인공지능에 적용되었으나 단 하나도 테스트를 통과하지 못하였다. (2023년 7월 25일 네이처에 실린 전문, 2023년 8월 17일 출판된 arXiv 논문)

튜링 테스트에 대한 흔한 농담 중에 진짜 인공지능을 구축하는 것보다는 시험자가 선호하는 질문 패턴을 파악해서 그에 대한 답변 목록을 만들어주는 쪽이 더 편하다는 이야기도 있다. 예를 들어, 이름이나 나이, 거주지 등 인적 사항 파악 단계를 넘어가면 '사랑이 뭔지 아니' 같은 추상적인 질문을 통해 상대가 인간인지 컴퓨터인지 가려내려고 하는 시험자가 많으니 사랑이 뭐냐거나, 사랑을 해 본 적 있느냐는 질문에 대한 대답을 준비해 두면 유리하다는 식. 물론 이런 방법은 일종의 트릭으로, 그냥 정해진 답을 살짝 응용해서 스스로 생각한 것처럼 말하게 하는 인형극과 다를 바 없다. 그러니 실제로는 상술한 대로 훨씬 복잡하고 철저한 검증 과정을 거쳐야 인공지능의 고차원 사고력과 자아의 존재 유무을 판별할 수 있다는 점을 유의하자. 

반응형