노벨화학상, AI, 구글 딥마인드, 알파폴드2, 3차원 단백질 구조 예측 AI, 알파폴드(AlphaFold)3

자연 과학 Natural Science/화학 Chemistry

노벨화학상, AI, 구글 딥마인드, 알파폴드2, 3차원 단백질 구조 예측 AI, 알파폴드(AlphaFold)3

Jobs 9 2024. 10. 14. 08:31

노벨화학상, AI, 구글 딥마인드, 알파폴드2

단백질은 일반적으로 20가지의 아미노산으로 구성되며, 이 아미노산들이 긴 사슬처럼 연결된 형태를 띄게 된다. (사진=노벨상위원회

2024 노벨화학상, 데이비드 베이커 교수와 구글 딥마인드 연구자 2인 선정

베이커 교수, 새로운 단백질 만드는 기술 개발…질병 치료 등에 활용도 높아
알파폴드2, '단백질 구조' 2억여개 예측 성공…50년 묵은 학계 숙원 풀었다

올해 노벨화학상은 새로운 단백질을 만들어내고, 복잡한 3차원 단백질 구조를 정확하게 예측하는 AI(인공지능) 모델을 개발한 3명의 과학자에게 돌아갔다.

올해는 노벨물리학상에 이어 노벨화학상까지 AI 관련 연구자들에게 돌아갔다. 그간 노벨상위원회가 융합학문보다 순수학문에 초점을 두는 보수적인 모습을 보였다는 점을 고려하면 이례적이라는 평가가 많다. 이번 노벨화학상의 주인공이 된 AI 모델은 구글 딥마인드의 '알파폴드2'다.

스웨덴 카롤린스카야 의학연구원의 노벨상위원회는 9일 데이비드 베이커 미국 워싱턴대 교수와 데미스 허사비스 구글 딥마인드 최고경영자(CEO), 존 점퍼 딥마인드 수석연구원을 노벨화학상 수상자로 선정했다고 발표했다.

베이커 교수는 새로운 단백질을 만들어내는 기술을 개발했다. 단백질은 일반적으로 20가지의 아미노산으로 구성되며, 이들은 생명체를 이루는 일종의 '블록' 같은 역할을 한다. 베이커 교수는 2003년 이 아미노산들을 이용해 기존에 존재했던 단백질과는 전혀 다른 단백질을 설계하는 데 성공했다.

2003년 첫 설계 성공 이후 베이커 교수 연구팀은 의약품, 백신, 나노 소재 등 다양한 분야에 응용할 수 있는 새로운 단백질들을 꾸준히 만들어냈다.

단백질이 인간을 비롯한 생명체의 활동에서 가장 기본적인 역할을 하는 만큼 단백질 구조의 이해는 질병 치료를 비롯한 다양한 분야에 활용할 수 있다. 베이커 교수의 연구는 용도에 따라 필요한 대로 단백질을 만들어낼 수 있는 길을 열어줬다는 데서 그 의의가 크다.

베이커 교수가 새로운 단백질을 만들어냈다면, 허사비스 CEO와 점퍼 수석연구원이 이끈 구글 딥마인드는 복잡한 단백질 구조를 예측할 수 있는 AI를 개발하는 데 성공했다.

단백질은 아미노산이 긴 사슬처럼 연결된 형태를 띄고 있다. 이 사슬은 3차원 구조로 접히게 되는데, 어떻게 접히는지에 따라서 단백질의 기능을 결정하게 된다. 단백질 구조를 이해해야 그 기능을 명확하게 파악할 수 있는 셈이다.

이에 학계에서는 1970년대부터 아미노산 사슬을 기반으로 단백질 구조를 예측하려 했으나, 20가지나 되는 아미노산이 3차원 구조로 복잡하게 접히며 50여년 가까이 정확한 메커니즘을 파악하지 못했다.

이 난제를 구글 딥마인드가 풀었다. 2020년 구글 딥마인드는 2020년 '알파폴드2'라는 AI 모델을 발표했다. 알파폴드2는 지금까지 학계에서 확인된 2억개에 달하는 단백질 구조를 거의 대부분 예측해냈다.

노벨상위원회는 알파폴드2의 등장 이후 전세계 190여개국에서 200만명 이상의 사람들이 알파폴드2를 사용해 단백질 구조를 예측해냈다고 설명했다. 이를 통해 연구자들은 항생제의 내성을 더 잘 이해하거나, 플라스틱을 분해하는 단백질 효소의 구조 등을 확인할 수 있게 됐다.

알파폴드2가 단백질 구조를 예측하는 과정은 크게 보면 데이터 입력 및 데이터베이스 검색 → 아미노산 서열 분석 → AI 기반 분석 및 데이터 고도화 → 가설적 단백질 구조 생성 및 테스트의 과정을 거쳐 이뤄진다.

알 수 없는 구조의 아미노산 서열(단백질 구조)을 알파폴드2에 입력하면 알파폴드2가 입력된 서열과 비슷한 형태를 찾기 위해 데이터베이스 검색에 나서게 된다. 이후 비슷한 서열이 여러개 나오면 이를 정렬하고 어떤 아미노산들이 서로 상호작용하는 지를 AI가 진단하게 된다. 이 과정에서 아미노산들이 구조 내에서 서로 얼마나 가까운지 파악하는 '거리 지도' 등을 생성하게 된다.

이같은 과정을 거친 후에는 AI가 반복 과정을 통해 서열 분석 결과 및 거리 지도를 보다 정교하게 다듬게 된다. 이때 일종의 인공신경망을 활용해 중요한 요소들을 식별하게 된다. 이후 최종적으로 퍼즐을 맞추듯 가설적인 단백질 구조를 생성하고, 해당 구조에 대한 테스트를 통해 실제 구조와의 일치 가능성을 계산해 최종적으로 단백질의 3차원 구조를 도출해낸다.

즉 올해 노벨화학상 수상자 3명은 인류가 생명체의 근간을 이루는 단백질을 이해하고 설계하는 능력을 크게 도약시킨 셈이다. 이같은 발견은 단순히 화학에만 그치는 것이 아니라 의학, 생명과학, 공학, 환경 등 다양한 분야에서 새로운 가능성을 열어젖혔다.

생명현상을 기계에 완전히 비유하긴 어렵지만, 기계가 고장나면 그 구조를 보고 어떻게 고칠지 생각할 수 있는 것처럼 단백질 등 생체분자도 비슷하다"며 "구조에 대해 이해하고, 원하는 모양과 성질을 가진 분자를 설계하는 게 필요하다. 알파폴드가 그 구조를 알려주는 거라면, 베이커 교수의 기술은 그 구조를 기반으로 단백질을 설계할 수 있게 하는 것

알파폴드의 등장 이후 베이커 교수가 이를 모티브로 '로제타 폴드 디퓨전'이라는 방법으로 분자를 새롭게 설계하는 방법까지 만들어냈다. 로제타 폴드 개발에는 우리나라 학자인 백민경 박사까지 참여하기도 했다"며 "물론 모든 문제를 다 풀어낸 건 아니지만, AI로 그전에 풀지 못했던 문제를 풀게 됐다는 점이 중요하다. 바이오나 신약 개발 등에 큰 영향을 주게 될 것

단백질과 분자 상호작용도 예측…화학상 알파폴드2에서 진일보한 알파폴드3

'GOAT(Greatest Of All Time)'라는 표현이 있다. 역대 최고라는 뜻의 신조어다. 오늘날 생명과학에서 GOAT를 꼽자면 알파폴드(AlphaFold)를 빼놓을 수 없을 것이다. 알파폴드는 구글 딥마인드가 개발한 인공지능(AI) 프로그램이다. 아미노산 서열로 단백질의 구조를 예측하는 이 프로그램은 2018년 첫 공개된 이후로 생명과학의 판도를 뒤집어 놨다.

지난 5월 8일 알파폴드의 최신 버전 '알파폴드3'가 공개됐다. "기존의 어떤 모델보다도 더 정확하게 단백질과 생체 내 분자의 상호작용을 예측할 수 있다"는 연구자들의 설명에 앞으로 알파폴드3가 신약개발 혁신을 이끌 것이라는 기대감이 고조된다. 2024년 노벨 화학상을 안긴 알파폴드2에서 진일보한 알파폴드3에 대해 당신이 꼭 알아야 할 정보를 4가지 포인트로 톺아봤다.

"우리의 AI 시스템은 과학계의 오랜 도전 과제를 풀어 질병의 정복이나 일회용 플라스틱의 분해 등 인류에게 중요한 문제를 해결하는 데 도움이 되고 있습니다. 언젠가는 생명 그 자체의 미스터리를 밝히는 데에 도움이 될지도 모르죠."

구글 딥마인드 홈페이지에서 찾아볼 수 있는 알파폴드(AlphaFold) 소개 문구다. 거창해 보이지만 과장은 없다. 알파폴드는 그렇게 대단한 프로그램이 맞다. 알파폴드는 아미노산 서열을 토대로 단백질의 구조를 예측한다. 단백질은 생명활동을 조절하는 핵심 분자다. 항체, 세포막, 효소 등을 구성한다.

단백질의 구조와 기능은 서로 밀접한 연관성을 갖고 있다. 주어진 아미노산 서열로 만들 수 있는 단백질의 구조를 알면 이 단백질이 생체 내에서 어떤 일을 할 수 있는지 가늠할 수 있다. 거꾸로 구조를 바꿔가며 원하는 기능을 하는 단백질을 설계하는 일 또한 가능하다. 그래서 과학자들은 수십 년간 단백질의 구조를 정확하게 예측할 방법을 탐색하고 있었다.

그러던 2018년 알파폴드가 공개됐다. 그해 12월 열린 제13회 단백질 구조 예측 대회(CASP13)에서 알파폴드는 97개 팀 중에서 우승을 차지하며 화려하게 데뷔했다. 이어 2020년 개최된 CASP14에서는 알파폴드2가 평균 92.4점으로 1위를 차지했다. CASP에서 90점 이상의 점수를 받은 프로그램은 알파폴드2가 역대 최초다.

올해 5월 8일 구글 딥마인드와 아이소모픽 랩스 공동연구팀이 국제학술지 '네이처'에 알파폴드3을 공개했다. 알파폴드2가 공개된 지 4년 만의 일이다.

연구팀은 논문을 통해 "알파폴드3은 단 하나의 통일된 딥러닝 프로그램으로 단백질과 리간드 간의 상호작용, 단백질과 핵산, 항체 등의 상호작용을 기존에 출시된 프로그램보다 더 정확히 예측할 수 있다"고 소개했다. 단백질과 단백질 사이의 상호작용만 예측하던 기존 알파폴드보다 한 발짝 나아간 셈이다. (doi: 10.1038/s41586-024-07487-w)

'역대 최고'의 단백질 구조 예측 프로그램이 보인 새 행보에 과학계가 흔들렸다. 리간드, 핵산, 항체 등 생체분자와 단백질의 상호작용을 정확히 예측하면 단백질을 활용한 신약 개발에 큰 도움이 된다.

구글 딥마인드는 "알파폴드3의 도약은 앞으로 재생가능소재 개발과 작물의 질병 저항성을 높이는 연구에 도움이 되고 나아가 약물 설계 속도를 올리거나 유전학 연구 등에 큰 역할을 해 과학계의 전환을 이끌 것"이라고 했다.

Strength. 디퓨전 모델로 더욱 섬세한 예측

알파폴드2에서는 단백질 구조를 예측할 때 기본 뼈대가 되는 부분을 몇 가지 덩어리로 뭉뚱그려 계산했다. 각각의 덩어리가 3차원 공간에서 어떻게 움직이는지만 보면 되니 계산이 쉽다. 그러나 단백질의 세밀한 구조를 예측하기는 어렵다는 단점이 있었다. 한편 알파폴드3에서는 디퓨전 모델을 이용해 단백질을 구성하는 각 원자의 좌표를 바로 구해 더 섬세한 구조를 알 수 있다.

그동안 알파폴드의 핵심 역할을 해온 건 다중 서열 정렬(MSA) 알고리즘이었다. MSA 알고리즘이 불러온 혁신을 이해하기 위해선 알파폴드의 세부 원리를 알아야 한다. 단백질은 20종의 아미노산이 구슬 꿰듯 줄지어 연결돼 만들어진 한 가닥의 폴리펩타이드로부터 시작한다. 폴리펩타이드는 아미노산 간의 상호작용에 따라 2차, 3차구조를 형성하며 접힌다.

구글 딥마인드는 아미노산 간의 상호작용을 일일이 계산하지 않고도 단백질의 입체 구조를 알아낼 꾀를 썼다. 그게 MSA 알고리즘이다. 지난 수십 년간 생물학자들은 사람을 비롯해 쥐, 바퀴벌레, 아메바 등 생명체 속 단백질 구조를 밝히고 데이터베이스로 만들어왔다. 그 덕에 우리는 이미 지구상의 단백질 약 2억 개의 구조와 아미노산 서열을 알고 있다.

같은 종류의 단백질이라도 생물종에 따라 아미노산 서열이 조금씩 다르다. 진화적으로 가까운 생물일수록 서열이 비슷하다. MSA 알고리즘은 주어진 아미노산 서열과 유사한 것들을 유사성 기준으로 나열한다.

그러면 아미노산 서열이 종에 따라 달라질 때 반드시 함께 변하는 공진화(coevolution) 쌍을 발견할 수 있다. 공진화 쌍은 해당 아미노산 서열로 단백질을 만들 때 3차원 구조상에서 서로 붙어있는 지점이라고 해석된다.

공진화 쌍을 기준으로 '접으면' 처음 보는 단백질의 구조도 쉽게 예측할 수 있다. 이것이 MSA 알고리즘의 핵심 아이디어다. AI는 무작위처럼 보이는 데이터 뭉치에서 규칙성을 찾아내는 능력이 사람보다 더 뛰어나다. 알파폴드는 AI를 이용해 수만 개의 아미노산 서열에서 공진화 쌍을 빠르게 찾는다. 그리고 공진화 쌍이 3차원 공간에서 서로 붙어있다는 규칙을 적용해 전체 단백질의 구조를 알아낸다.

MSA 알고리즘의 한계는 곧 알파폴드의 한계가 됐다. 기존의 단백질 구조 데이터베이스 상에 비슷한 단백질 서열이 몇 개 없으면 공진화 쌍을 많이 찾을 수 없다. 그래서 다양한 생물에 널리 분포한 단백질의 구조는 정확하게 예측할 수 있는 반면 인간이나 포유류 등에서만 찾아볼 수 있는 단백질의 구조는 상대적으로 예측 정확도가 떨어졌다.

알파폴드3은 새롭게 적용된 디퓨전 모델을 이용해 기존 알파폴드의 한계를 극복한다. 디퓨전 모델은 원자와 원자 사이 공간적인 배열 패턴을 예상해 화학물질의 구조를 예측한다. 단백질 구조 데이터베이스 상에 유사한 단백질이 몇 개 없는 경우라도 상관없다.

심지어 단백질이 아닌 분자여도 상관없다. 그래서 알파폴드의 경쟁자인 로제타폴드(RoseTTAFold)도 2022년부터 디퓨전 모델을 적용해왔다. 기존 MSA 알고리즘의 장점과 디퓨전 모델의 장점을 결합해 단백질과 단백질뿐만 아니라 DNA, 리간드, 항체 등 분자와 단백질 사이의 상호작용까지도 예측 가능하다는 게 알파폴드3의 강점이다.

주황색 화살표는 정보 입력 과정을 나타낸다. 단백질의 아미노산 서열이나 리간드, DNA 정보 등을 입력하면 유사한 단백질 구조와, 단백질 유전정보 데이터, 그리고 단백질 내 원자의 연결관계 데이터(컨포머)를 탐색한다. 탐색한 정보를 '정보입력'단에서 통합한다.

파란색 화살표는 실제로 단백질 구조를 구현하는 과정이다. 구조 모듈, MSA 모듈, 페어포머를 거치며 전체적인 단백질의 구조를 그린다. 초록색 화살표는 최종적으로 단백질 구조를 만드는 과정이다. 디퓨전 모델을 이용한다.

Weakness. 여전히 실험을 대체할 순 없어

논문을 통해 공개된 알파폴드3의 성적표를 살펴보자. 원래 잘하던 건 여전히 잘하고 있다. 단백질과 단백질 사이의 상호작용을 예측하는 능력은 76.6%로 나타났다. 이전 버전인 알파폴드2.3보다 1.1%p 높아진 수치다. 리간드, RNA, DNA, 항체와 단백질의 상호작용을 예측하는 능력은 각각 76.4%, 39.4%, 64.8%, 62.9%로 이전 버전이나 로제타폴드 등 타사의 단백질 구조 예측 프로그램과 비교해서도 뛰어났다.

하지만 6월 10일 서울대에서 만난 이주용 서울대 약대 교수는 논문 데이터를 살펴보며 "아직 실제 실험을 대체할 만큼 잘 예측하진 못한다"고 설명했다. 실제로 연구팀은 논문에서 알파폴드3가 가진 네 가지 한계점을 지적하기도 했다. 우선 분자가 거울상 이성질체인 경우 해당 분자의 이성질성을 예측할 때 4.4%의 오차범위가 발생함을 발견했다.

알파폴드3의 핵심 개선사항인 디퓨전 모델은 원래 이미지 생성 AI에서 쉽게 찾아볼 수 있는 기법이다. 디퓨전 모델의 부작용은 이미지 왜곡이다. 디퓨전 모델이 그림을 그릴 때 사람의 손가락을 여섯 개 만든다거나 얼굴 주름이 이상하게 연결되는 등 미세한 왜곡이 발생하는데 이것이 단백질의 구조를 예측할 때도 동일한 양상으로 생겨난다.

연구팀은 논문에서 "이전 버전과 동일하게 알파폴드3도 여전히 단백질 구조 데이터베이스 상에 있는 구조를 모방할 뿐 실제 생체 내에서 단백질이 어떻게 생겼는지를 정확히 예측하지는 못한다"고 짚었다. 이어 "알파폴드3의 구조 예측 정확도가 크게 향상되었음에도 불구하고 여전히 항원-항체 복합체의 구조를 정확히 예측하기도 어렵다"고 했다.

이 교수는 "항원과 항체가 결합하는 부분은 유연하게 움직이는 예측이 어려운 부분"이라고 설명했다. 스타이네거 교수는 "알파폴드3의 개발을 지휘한 존 점퍼 알파폴드 수석연구원은 단백질이 생체 내에서 어떻게 움직이는지 예측하는 기능을 구현하고 싶어했다"면서 "그러나 알파폴드3에 해당 기능이 없는 걸 보면 아직 많은 개발이 필요한 것으로 보인다"고 말했다.

Opportunity. AI 제약이라는 거대한 시장

약점을 극복한 알파폴드3에게 펼쳐질 미래는 밝다. 시장이 움직이고 있기 때문이다. 한국제약바이오협회가 2023년 7월 발표한 'AI 뉴노멀 시대의 도래와 신약 개발' 보고서에 따르면 2022년 6억 980만 달러(약 8373억 원) 규모이던 전 세계 AI 신약 개발 시장은 매년 연평균 45.7%씩 성장해 2027년엔 40억 350만 달러(약 5조 4969억 원) 규모에 이를 것으로 전망된다.

AI는 신약 개발 전반에 활용될 수 있다. 특히나 알파폴드의 활약이 주목되는 건 신약 후보 물질 발굴부터 임상 1상까지 이어지는 과정이다. 석차옥 서울대 화학부 교수는 신약 개발 소프트웨어 회사인 '갤럭스'의 대표를 겸하고 있다.

그는 6월 10일 인터뷰를 통해 "신약 개발은 약효를 내기 위해 체내에서 타깃으로 할 단백질을 찾은 다음 이 단백질에 작용하는 분자를 발굴하고 그 분자의 실제 효능과 독성을 테스트한 뒤 임상 시험을 진행하는 단계로 구성된다"고 말했다.

알파폴드와 같은 단백질 구조 예측 AI는 타깃 단백질의 형태를 찾고 여기에 작용할 분자와의 상호작용을 예측하는 등 신약 후보 물질을 발굴하는 시간을 줄여준다. 석 교수는 "현재 미국식품의약국(FDA)에서는 신약을 발굴할 때 가장 많은 시간을 차지하는 임상 단계를 단축하려는 노력도 있다"면서 "미래에는 AI가 이 부분에서 시간을 당겨주는 역할을 해줄 것"이라고 내다봤다.

아미노산 서열을 토대로 단백질의 구조를 알아내는 알파폴드의 능력은 단백질 신약을 설계하는 데 큰 도움이 된다. 석 교수는 "단백질 구조 예측 AI가 발전하면 AI가 단백질 신약 후보 10개를 설계하고 이 10개에 대한 독성 시험과 임상 시험만 진행하면 되는 미래가 올 수도 있다"고 했다.

실제로 지난 1월엔 글로벌 제약사인 일라이릴리와 노바티스가 알파폴드의 개발을 맡은 구글 아이소모픽 랩스와 30억 달러(약 4조 원) 규모의 공동개발 파트너십을 체결한 바 있다. 데미스 허사비스 구글 딥마인드 공동설립자(아이소모픽 최고경영자)는 "파트너십을 통해 알파폴드의 독점 기술 플랫폼을 글로벌 제약사의 신약 개발에 적용하고 의약품 설계 접근 방식을 획기적으로 발전시킬 것"이라고 말했다.

Threat. '오픈 사이언스'의 문 닫혀

산업계에서는 각광받는 알파폴드3이지만 학계의 반응은 의외로 차갑다. 알파폴드2가 공개될 때는 전체 소스코드를 함께 공개하면서 생명과학의 큰 공진화를 불러왔다. 알파폴드2의 논문을 인용한 수가 1만 3000건, 열람 수가 1억 6000만 건일 정도다. 알파폴드2를 이용해 항우울제 후보물질을 수십만 개 발견하는 등 실제 논문으로 이어지는 성과도 나온다.

그러나 이번 알파폴드3에는 소스코드가 함께 공개되지 않았다. 알파폴드 서버를 통해 알파폴드3을 이용할 수는 있지만 이마저도 비상업적 용도로 제한되고 있는 실정이다. 스타이네거 교수는 "현재 과학계의 반발이 강하다"면서 "이건 네이처와 딥마인드가 명백하게 잘못한 것"이라고 비판했다.

"네이처라는 저널의 이름값이 필요했다면 그 저널에 투고하는 다른 연구자들과 같이 소스코드를 공개해 정당한 리뷰 절차를 거쳤어야 했습니다. 알파폴드가 사기업이 개발한 프로그램이라 기업 자산인 소스코드를 공개하기 어려웠다면 논문 사전공개 정도로만 발표했어도 대중의 반발이 이렇게 크지는 않았을 겁니다.

생명과학 커뮤니티는 원래 오픈소스를 기반으로 성장했어요. 수십 년간 과학자들이 기술과 정보를 공유해가며 쌓아온 단백질 구조 데이터베이스를 기반으로 성장한 알파폴드가 그 예외가 돼선 안된다는 이야기입니다."

네이처는 5월 22일 뒤늦게 '알파폴드3-왜 네이처는 코드 없이 논문을 냈는가'란 내용의 성명문을 통해 "연구자들의 비판을 수용한다"면서 "앞으로 6개월 안에 알파폴드3의 소스코드를 공개하겠다"고 발표했다.

알파폴드나 로제타폴드 등 선도적인 단백질 구조 예측 AI 기술은 실제 시장에 투입될 정도로 성장했다. 제약회사의 투자가 이어지는 상황에서 연구자들이 계속해서 자신들의 지적 재산을 무료로 공개하기를 기대하긴 어려운 시대가 됐다.

그러나 AI를 이용한 단백질 구조예측 기술은 이미 막을 수 없는 거센 물결이다. 알파폴드가 자신의 기술을 공개하지 않는다고 해도 이미 세계 각국의 단백질 구조예측 기술이 궤도에 오른 상태다. 석 교수는 "지금 가장 중요한 건 기술 자립"이라고 말한다.