Recent advances in AI-driven protein-ligand interaction predictions
- 임지현
- 8월 11일
- 3분 분량
Jaemin Sim, Dongwoo Kim, Bomin Kim, Jieun Choi and Juyong Lee
24 February 2025
Structure-based drug discovery is a fundamental approach in modern drug development, leveraging computational models to predict protein-ligand interactions. AI-driven methodologies are significantly improving key aspects of the field, including ligand binding site prediction, protein-ligand binding pose estimation, scoring function development, and virtual screening. In this review, we summarize the recent AI-driven advances in various protein-ligand interaction prediction tasks. Traditional docking methods based on empirical scoring functions often lack accuracy, whereas AI models, including graph neural networks, mixture density networks, transformers, and diffusion models, have enhanced predictive performance. Ligand binding site prediction has been refined using geometric deep learning and sequence-based embeddings, aiding in the identification of potential druggable target sites. Binding pose prediction has evolved with sampling-based and regression-based models, as well as protein-ligand co-generation frameworks. AI-powered scoring functions now integrate physical constraints and deep learning techniques to improve binding affinity estimation, leading to more robust virtual screening strategies. Despite these advances, generalization across diverse protein-ligand pairs remains a challenge. As AI technologies continue to evolve, they are expected to revolutionize molecular docking and affinity prediction, increasing both the accuracy and efficiency of structure-based drug discovery.
한글초록요약본
구조 기반 약물 개발은 단백질–리간드 상호작용을 예측하기 위해 계산 모델을 활용하는 현대 약물 개발의 핵심 접근법임. 최근 AI 기반 방법론은 결합 부위 예측, 단백질–리간드 결합 포즈 예측, 스코어링 함수 개발, 가상 스크리닝 등 여러 핵심 영역에서 성능을 크게 향상시킴. 본 리뷰에서는 단백질–리간드 상호작용 예측과 관련한 최근 AI 기반 발전을 정리하였음. 기존 도킹 방법은 경험적 스코어링 함수에 의존하여 정확도가 떨어지는 경우가 많았으나, 그래프 신경망(GNN), 혼합 밀도 네트워크(MDN), 트랜스포머(transformer), 확산(diffusion) 모델 등의 AI 기법이 예측 성능을 향상시킴. 결합 부위 예측은 기하학적 딥러닝과 서열 기반 임베딩을 통해 정밀도가 향상되어 잠재적 약물 표적 부위를 찾는 데 도움을 줌. 결합 포즈 예측은 샘플링 기반·회귀 기반 모델과 단백질–리간드 공동 생성(co-generation) 프레임워크를 통해 발전하였음. AI 기반 스코어링 함수는 물리적 제약과 딥러닝 기술을 결합하여 결합 친화도 추정을 개선하였으며, 이를 통해 보다 견고한 가상 스크리닝 전략이 가능해짐. 이러한 발전에도 불구하고, 다양한 단백질–리간드 쌍에서의 일반화 성능은 여전히 과제로 남아 있음. 앞으로 AI 기술이 계속 발전함에 따라, 분자 도킹과 결합 친화도 예측은 한층 더 정확하고 효율적인 구조 기반 약물 개발로 혁신될 것으로 기대됨.
한글 논문 요약본
1. Introduction
단백질–리간드 상호작용 예측은 히트 발굴, 리드 최적화, 독성 예측 등 약물 개발 초기 단계에 핵심적임. 전통적인 도킹 기법은 경험적/지식 기반 스코어링 함수에 의존해 정확도가 제한적이었음. AlphaFold의 등장으로 고품질 단백질 구조 데이터가 폭발적으로 늘어나 구조 기반 약물 설계 가능성이 확대됨. 최근 보고에 따르면 AI로 설계된 분자는 임상 1상 성공률이 80~90%로 기존 대비 높음. 본 리뷰는 AI/ML 기반 결합 부위 예측, 결합 포즈 예측, 스코어링 함수 개발, 가상 스크리닝 발전을 정리함.
2. Data and Benchmark Sets
AI 모델 학습에는 PDBbind가 가장 많이 사용됨 (3D 구조 + 결합 친화도 제공).
성능 평가는 다음과 같이 이루어짐:
- CASF-2016: 스코어링, 랭킹, 도킹, 스크리닝 파워 측정
- PoseBusters: RMSD와 물리적 타당성을 동시에 평가
- DUD-E / LIT-PCBA / DEKOIS 2.0: 활성/비활성 화합물 포함, 스크리닝 능력 검증
3-1. AI-based Ligand Binding Site Prediction
3-1-1. Structure-based methods
CNN, GNN, 포인트 클라우드 등으로 단백질 표면 결합 부위를 탐지함.
- PointSite: 원자 좌표를 포인트 클라우드로 변환해 결합 원자 분류
- SiteRadar: 단백질 표면 격자점 기반 GNN으로 결합 부위 클러스터링
- LigBind: 리간드 특이적 결합 잔기 예측
- PeSTo: 기하학적 Transformer로 원자 상태 업데이트
3-1-2. Hybrid approaches
서열·구조 기반 임베딩 결합 방식.
- IF-SitePred: ESM-IF1 임베딩 + 앙상블 투표
- BindWeb: 구조/서열 기반 모델 통합
- GPSite: 단백질–DNA/RNA/금속 등 다양한 결합 부위 예측
3-2. AI-based Ligand Binding Pose Prediction
포즈 예측 방법은 크게 샘플링 기반, 회귀 기반, 단백질–리간드 공동 생성(co-generation) 방식으로 구분됨.
- 샘플링 기반: 여러 포즈 생성 후 최적 선택 (예: DiffDock, SurfDock, GalaxyDock-DL)
- 회귀 기반: 바로 최적 포즈 예측 (예: EquiBind, KarmaDock, CarsiDock, Uni-Mol)
- Co-generation: 단백질과 리간드 구조를 동시에 생성 (예: AlphaFold3, RoseTTAFold All-Atom, NeuralPLexer)
DiffDock은 변환·회전·토션 공간에서 역확산으로 포즈 생성, SurfDock은 표면 정보와 Diffusion 모델 결합, AlphaFold3는 구조 변화까지 모델링 가능함.
3-3. AI-based Protein-Ligand Scoring Functions
결합 친화도 예측에는 GNN이 주로 활용됨.
- PLANET: 결합 친화도, 접촉 지도, 거리 행렬을 동시에 예측
- GIGN: 기하학적 상호작용 레이어 사용
- PIGNet2: 물리 기반 방정식 + GNN 결합
- HAC-Net: GNN + 3D CNN 하이브리드
- DLin_F9XGB: 기존 경험적 함수에 XGBoost 보정 적용
3-4. Enhanced Virtual Screening with Machine Learning
가상 스크리닝은 수백만 화합물 중 활성 후보를 선별하는 과정임.
- RTMScore: 잔기–원자 거리 확률 기반
- GenScore: 스코어링·도킹·랭킹·스크리닝 성능 균형 유지
- Docking Score ML: 도킹 스코어와 분자 임베딩 결합
- TB-IECS: 에너지 항목 + XGBoost
- Active Learning Framework: MoLFormer, MolCLR 등 대규모 사전학습 모델로 효율적 스크리닝
4. Conclusion
AI는 단백질–리간드 상호작용 예측에서 기존 방식보다 높은 정확도와 효율성을 보임. 기하학적 GNN, Diffusion 모델, Co-generation 방식이 핵심 기술로 자리잡음. 현재 대부분의 모델이 고정된 리셉터 구조를 사용하여 구조 변화나 숨겨진 포켓 예측에 한계가 있으나, Co-generation 기법이 이를 극복할 가능성이 있음. AI 발전에 따라 구조 기반 약물 설계와 발굴이 혁신적으로 가속될 것으로 기대됨.

댓글