SPR 데이터 분석: 오버피팅을 피하는 과학적 주장 가이드

핵심 요약:

SPR 데이터 분석에서 과학적 신뢰성을 확보하려면 실험 설계와 데이터 품질이 허용하는 수준 내에서만 결론을 도출해야 합니다. 특히 복잡한 모델을 통한 피팅 시 발생할 수 있는 오버피팅(Overfitting)을 경계하고, 이론적 수치를 벗어난 Rmax 값이나 과도한 파라미터 오차를 확인하여 데이터의 타당성을 검증해야 합니다.

연구실의 숙제, SPR 데이터 분석의 함정

바이오 벤처 연구원이나 대학원생이라면 누구나 공감할 것입니다. 며칠을 고생해 얻은 SPR 데이터 분석 결과가 기대했던 “예쁜 곡선”으로 나오지 않을 때의 그 불안함을요. 이때 무리하게 피팅 모델을 복잡하게 설정하거나 일부 농도만 선택하여 결과를 도출하고 싶은 유혹에 빠지기 쉽습니다. 하지만 이러한 접근은 ‘오버피팅’이라는 독이 되어 돌아옵니다.

1. SPR에서 오버피팅이 발생하는 결정적 순간

오버피팅은 데이터가 가진 실제 물리적 의미보다 모델이 너무 복잡하여, 실험적 노이즈나 드리프트까지 상호작용의 일부로 해석할 때 발생합니다.

과도한 모델링: 단순 1:1 결합이 아닌데 데이터 포인트가 부족함에도 불구하고 Heterogeneous 모델 등을 억지로 적용할 때.
선택적 데이터 보고 (Multiple hypothesis 문제): 여러 농도나 주입 조건으로 수많은 실험을 시도한 뒤, 전체 경향과 관계없이 오직 “가장 예쁜 곡선이 나오는 특정 조합”만 골라서 결과로 제시하는 것을 말합니다. 이는 우연히 잘 맞은 데이터를 일반적인 결론인 것처럼 호도하여 데이터의 신뢰성을 심각하게 훼손합니다.
부적절한 전처리: 더블 레퍼런싱을 생략하고 Baseline drift를 모델이 대신 설명하도록 방치할 때.

Pro-tip: 비현실적인 수치란 무엇인가요?

1. 비현실적인 Rmax 예시:

이론적 Rmax는 (분석물 분자량 / 리간드 분자량) × 고정화 레벨(RU)로 계산됩니다.
예시: 리간드(150kDa)를 1,000 RU 고정하고 분석물(50kDa)을 흘렸다면 이론적 Rmax는 약 333 RU입니다. 그런데 피팅 결과 Rmax가 1,500 RU로 나왔다면, 이는 비특이적 결합이 포함되었거나 모델이 억지로 곡선을 늘린 오버피팅의 증거입니다.

2. 과도한 표준오차(SE) 예시:

일반적으로 파라미터 값 대비 오차가 10~20% 이내여야 신뢰할 수 있습니다.
예시: 해리상수(kd) 값이 1.0 x 10^-3 인데 표준오차가 5.0 x 10^-3으로 산출되었다면(오차가 값의 5배), 해당 파라미터는 수학적으로만 존재할 뿐 물리적 신뢰성이 전혀 없음을 의미합니다.

2. 과학적으로 안전한 주장 범위 (Claim Level)

데이터 품질에 따라 우리가 할 수 있는 주장의 수위(Level)를 조절하는 것이 전문 연구자의 자세입니다. Myszka (1999)의 제안을 바탕으로 안전한 주장 범위를 아래와 같이 구분할 수 있습니다.

주장 레벨	권장 표현	필요 요건
Level 1 (보수적)	“nM 대의 친화력 범위로 추정됨”	농도 범위 부족, 노이즈 존재
Level 2 (표준)	“1:1 모델로 합리적으로 설명 가능함”	0.1~10배 KD 농도, 랜덤한 잔차
Level 3 (확정적)	“일관된 ka, kd가 도출되어 기전 입증”	다양한 유속/리간드 밀도 재현성

3. 오버피팅 의심을 없애는 ‘TBMRFAADOBE’ 준수

글로벌 표준인 TBMRFAADOBE 기준을 준수하면 데이터의 투명성이 보장됩니다. 여기서 TBMRFAADOBE는 “The Bare Minimum Requirements For An Article Describing Optical Biosensor Experiments”의 약자로, 광학 바이오센서 실험을 기술하는 논문이 갖춰야 할 ‘최소한의 필수 요건’을 의미합니다.

리포트 시 필수 체크리스트

글로벌 피팅 오버레이: 원본 센서그램과 피팅 라인을 겹쳐서 보여줄 것.
잔차 플롯(Residual Plot): 시간에 따른 오차가 0 주위에 무작위로 분포하는지 확인.
실험 조건 명시: pH, 온도, 버퍼, 리간드 밀도(RU), 재생 조건 등.

4. 실무 적용 예시 (Results 작성법)

[Results 섹션 문장 예시]

“Figure 2는 항체-항원 상호작용의 센서그램(0.1-10 nM, n=3)과 1:1 Langmuir 모델의 글로벌 피팅 결과를 보여준다. 잔차는 ±1.5 RU 내에서 랜덤하게 분포하며(Chi-square = 0.8 RU), 이를 통해 본 데이터가 1:1 상호작용 모델에 잘 부합함을 확인하였다. 도출된 KD 값은 4.8 nM로 문헌치와 일치한다.”

자주 묻는 질문 (FAQ)

Q1. 피팅 통계량(Chi-square)이 좋은데도 오버피팅일 수 있나요?

네, 모델이 너무 복잡하면 통계량은 좋아지지만 물리적 의미(예: Rmax)가 왜곡될 수 있습니다. 항상 파라미터의 타당성을 함께 검토해야 합니다.

Q2. 잔차가 랜덤하지 않고 특정 패턴을 보이면 어떻게 하나요?

이는 모델 미스매치나 실험적 오류(Base-line drift 등)를 의미합니다. 모델을 수정하기 전에 먼저 실험 설계를 점검하고 전처리(Double referencing)를 강화하세요.

전문가에게 SPR 데이터 분석 상담하기

참고문헌

• Myszka, D. G. (1999). Improving biosensor analysis. Journal of Molecular Recognition, 12(5), 279-284.
• Rich, R. L., & Myszka, D. G. (2007). Survey of the 2006 commercial optical biosensor literature. Journal of Molecular Recognition, 20(5), 300-366.
• SPR Pages. (2023). Reporting results and TBMRFAADOBE. Retrieved from https://www.sprpages.nl/experiments/reporting-results