선형 회귀와 로지스틱 회귀, 기본적인 접근의 차이
승패 예측 모델링을 처음 접할 때 가장 먼저 마주하는 두 가지 방법이 선형 회귀와 로지스틱 회귀입니다. 이름은 비슷하게 생겼지만, 그 목적과 결과물은 근본적으로 다른 길을 걷고 있습니다. 선형 회귀는 연속된 숫자, 가령 특정 팀이 득점할 점수나 한 경기에서 나올 총 득점 차이를 예측하는 데 적합합니다. 반면, 로지스틱 회귀는 이항 분류, 즉 ‘승리’ 또는 ‘패배’와 같이 두 가지 범주 중 하나로 결과를 도출하는 데 특화되어 있습니다. 이처럼 예측하고자 하는 대상의 성격이 수치인지 범주인지에 따라 선택의 기준이 명확히 갈리게 됩니다.
두 방법의 핵심 차이는 출력값의 형태에서 가장 잘 드러납니다. 선형 회귀 모델은 입력 데이터를 바탕으로 하나의 직선(또는 평면)을 그어, 특정 조건에서 무한대의 음수 값부터 무한대의 양수 값까지 어떤 숫자든 결과로 내놓을 수 있습니다. 승패 예측에 이 방법을 무작정 적용하면, 예측값이 1.5승이나 -0.3승 같은 해석하기 어려운 숫자가 나올 수 있습니다. 로지스틱 회귀는 여기에 한계를 두고, 모든 계산 결과를 0과 1 사이의 확률 값으로 압축합니다. 이 확률을 기준으로 0.5보다 크면 한 클래스(예: 승리), 작으면 다른 클래스(예: 패배)로 판단하는 구조입니다.
따라서 승패라는 명확한 카테고리를 예측하는 것이 목표라면, 로지스틱 회귀가 더 자연스러운 출발점이 됩니다, 선형 회귀는 경기력 지표들 간의 상관관계를 분석하거나, 승패에 영향을 미치는 요인의 기여도를 연속적인 수치로 살펴볼 때 유용한 도구가 될 수 있습니다. 모델링을 시작하기 전에 ‘내가 최종적으로 얻고 싶은 답은 무엇인가’를 묻는 것이 이 두 길을 가르는 첫 번째 관문입니다.
수학적 메커니즘과 결과 해석의 차이
내부적인 작동 원리를 들여다보면 그 차이가 더욱 선명해집니다. 선형 회귀는 기본적으로 Y = aX + b와 같은 직선 방정식을 찾는 과정입니다. 여기서 Y는 예측하려는 연속값(예: 득점 차이)이고, X는 다양한 특징(예: 평균 유효 슈팅률, 실점률)입니다. 모델은 실제 데이터의 점들과 이 직선 사이의 거리(오차)를 최소화하는 a(기울기)와 b(절편)를 찾아냅니다. 결과 해석은 상대적으로 직관적입니다. 예를 들어, ‘평균 유효 슈팅률’의 계수가 2.5라면, 해당 지표가 1단위 증가할 때 예측 득점 차이가 2.5만큼 증가한다고 말할 수 있습니다.
로지스틱 회귀는 선형 회귀의 결과를 한 번 더 가공합니다. 먼저 선형 방정식으로 ‘로그 오즈’라는 값을 계산합니다. 오즈는 ‘승리할 확률 / 패배할 확률’의 비율을 의미합니다. 이 로그 오즈 값을 시그모이드 함수라는 S자 형태의 곡선에 통과시켜, 어떠한 입력값이 들어와도 출력이 0과 1 사이로 조정되도록 만듭니다. 이 과정이 핵심입니다, 덕분에 결과는 확률로 해석되며, 0.7은 ‘70%의 승리 확률’을 의미하게 됩니다.
로지스틱 회귀의 계수 해석은 선형 회귀와는 다른 주의가 필요합니다. 계수는 ‘로그 오즈’의 변화량을 나타내기 때문에, 지수 변환을 통해 ‘오즈비’로 해석하는 것이 일반적입니다. 예를 들어, ‘홈 경기 여부’의 계수가 1.2라면, 이를 오즈비로 변환하면 약 3.32가 됩니다. 이는 홈 경기일 때의 승리 오즈가 원정 경기일 때보다 약 3.32배 높다는, 즉 홈 어드밴티지의 영향을 정량화하는 의미로 읽을 수 있습니다. 이렇게 결과를 해석하는 방식 자체가 모델의 목적을 반영합니다.
승패 예측에 적용할 때의 고려사항
실제로 스포츠 경기 승패를 예측하는 모델을 구축한다면, 로지스틱 회귀가 첫 번째 후보가 될 것입니다. 그러나 단순히 알고리즘을 선택하는 것만으로는 충분하지 않습니다. 어떤 데이터를 수집할지, 어떻게 특징을 만들지가 예측 성능을 좌우하는 더 큰 변수입니다. 팀의 평균 득점, 실점, 최근 5경기 승패 추이, 주요 선수 부상 여부, 상대 전적 같은 정보가 모델의 입력값으로 활용됩니다. 여기서 선형 회귀의 사고방식이 도움이 될 수 있습니다. 예를 들어, 다양한 지표들 사이의 선형 관계를 먼저 탐색함으로써, 로지스틱 회귀에 사용할 가장 유의미한 특징들을 선별하는 전처리 과정에 활용하는 것이죠.
로지스틱 회귀 모델을 훈련시킨 후에는 단순히 정확도만 보지 않습니다. 특히 승패가 불균형한 데이터(한 팀이 압도적으로 많이 이기는 리그)에서는 정확도가 허울 좋은 수치일 수 있습니다, 따라서 정밀도, 재현율, f1 점수, 그리고 roc 곡선 아래의 면적(auc) 같은 지표를 종합적으로 평가합니다. AUC는 모델이 승리팀과 패배팀을 얼마나 잘 구분하는지를 나타내는 지표로, 승패 예측 모델의 성능을 판단하는 데 매우 유용합니다. 이 모든 평가는 ‘어떤 오류를 더 줄이는 것이 실전에서 유리할까’라는 실용적 질문에서 출발합니다.
한편, 선형 회귀는 승패 예측 자체보다는 예측 모델의 기반이 되는 지표 개발 단계에서 빛을 발합니다. ‘기대 승률’과 같은 복합 지표는 종종 선형 회귀 모델을 통해 각 공격·수비 지표에 가중치를 부여하여 만들어집니다. 이렇게 만들어진 기대 승률 값은 이후 로지스틱 회귀 모델의 훌륭한 입력 특징이 될 수 있습니다. 따라서 두 방법은 상호 배타적인 선택이 아니라, 예측 분석이라는 큰 그림 안에서 단계별로 협력할 수 있는 도구들로 바라보는 시각이 필요합니다.

모델의 평가와 해석 가능성 비교
만든 모델이 얼마나 믿을 만한지 평가하는 방식도 두 회귀 분석에서는 차이를 보입니다. 선형 회귀는 주로 R-제곱 값과 평균 제곱근 오차(RMSE) 같은 지표를 통해 평가합니다. R-제곱은 모델이 데이터의 분산을 얼마나 잘 설명하는지 보여주며, RMSE는 예측값과 실제값 사이의 평균적인 오차 크기를 알려줍니다. 승패 예측의 맥락에서 선형 회귀를 득점 차이 예측에 사용했다면, RMSE가 3점이라면 대략 예측이 평균적으로 실제 결과와 ±3점 차이가 난다는 의미가 됩니다.
로지스틱 회귀의 평가는 분류 문제에 특화된 방식을 따릅니다. 앞서 언급한 정밀도와 재현율이 대표적입니다. 정밀도는 ‘모델이 승리라고 예측한 경기 중 실제로 승리한 경기의 비율’을 의미합니다. 이 수치가 높으면 허위 승리 예측이 적다는 뜻입니다. 재현율은 ‘실제 승리한 경기 중 모델이 승리라고 맞춘 경기의 비율’로, 모델이 승리를 포착하는 능력을 보여줍니다. 이 두 가지는 트레이드오프 관계에 있어, 어떤 것을 더 중요시할지는 분석 목적에 따라 달라집니다. 단순히 승리팀을 맞추는 게임이라면 정밀도를, 중요한 대진을 놓치지 않으려면 재현율을 높이는 전략을 고려할 수 있습니다.
해석 가능성은 로지스틱 회귀가 가지는 큰 강점 중 하나입니다. 모델이 내놓은 확률 값은 그 자체로 매우 직관적인 해석을 가능하게 합니다. ‘A팀의 승리 확률이 75%로 예측된다’는 것은 누구나 이해할 수 있는 정보입니다. 또한 각 특징의 계수를 오즈비로 변환해 해석하면, ‘주전 골키퍼 출전 여부가 승리 가능성에 미치는 상대적 영향력’과 같은 인사이트를 얻을 수 있습니다. 선형 회귀의 계수 해석도 명확그러나, 그 결과가 연속값 예측에 머무르기 때문에 최종적인 승패 판단으로 바로 연결하기에는 추가적인 기준 설정이 필요합니다. 해석의 용이성은 모델의 결과를 실제 의사결정에 활용할 때 매우 중요한 요소가 됩니다.
데이터 요구사항과 전처리 과정
두 방법 모두 기본적인 통계적 가정을 전제로 합니다. 선형 회귀는 오차의 정규성, 독립성, 등분산성 등을 가정하는 반면, 로지스틱 회귀는 이러한 가정이 비교적 완화됩니다. 그러나 로지스틱 회귀에서 특히 주의해야 할 것은 다중공선성입니다. 서로 높은 상관관계를 가진 특징들(예: ‘총 슈팅 수’와 ‘유효 슈팅 수’)이 함께 모델에 포함되면 계수의 해석이 불안정해질 수 있습니다. 따라서 승패 예측 모델을 만들기 전에 특징들 간의 상관관계 행렬을 확인하고, 필요하다면 특징을 제거하거나 주성분 분석(PCA) 등을 통해 새로운 특징을 생성하는 전처리가 필요합니다.
또 다른 중요한 전처리는 특징 스케일링입니다. 선형 회귀에서는 계수 크기에 미치는 영향을 줄이기 위해, 로지스틱 회귀에서는 최적화 알고리즘의 수렴 속도를 높이기 위해 각 특징의 스케일을 맞추는 작업이 권장됩니다. 키커의 평균 거리(미터 단위)와 팀의 평균 점유율(백분율)은 그 범위가 크게 다르기 때문입니다. 정규화나 표준화 과정을 거치지 않으면, 스케일이 큰 특징이 모델에 과도한 영향을 미칠 위험이 있습니다. 이 과정은 모델의 성능을 안정시키는 데 기여합니다.
로지스틱 회귀의 경우, 목표 변수인 승패의 분포도 확인해야 합니다. 만약 데이터셋에서 승리와 패배의 비율이 9:1로 극단적으로 치우쳐 있다면, 모델은 단순히 항상 ‘승리’라고 예측하는 방식으로도 높은 정확도를 달성할 수 있습니다. 이를 해결하기 위해 언더샘플링, 오버샘플링, 또는 SMOTE 같은 방법을 사용하여 클래스 불균형을 해소하는 작업이 선행되어야 합니다. 질 좋은 예측은 결국 깨끗하고 잘 준비된 데이터에서 시작된다는 점을 명심해야 합니다.
한계와 함께 사용하는 다른 기법
로지스틱 회귀는 해석력이 뛰어나고 구현이 비교적 간단하지만, 선형적인 결정 경계를 가정한다는 한계가 있습니다. 즉, 특징과 승리 확률 간의 관계가 단순히 선형적인 조합으로만 표현된다고 가정합니다. 현실의 스포츠 경기에서는 다양한 요소들이 복잡하게 상호작용합니다. 예를 들어, ‘수비 라인의 압박 강도’와 ‘상대팀의 역습 성공률’ 사이의 상호작용 효과는 단순한 선형 합으로 설명하기 어려울 수 있습니다. 이러한 비선형 관계를 포착하기 위해서는 다항 특징을 추가하거나, 상호작용 항을 직접 모델에 포함시키는 시도를 해볼 수 있습니다.
또한, 선형 회귀나 로지스틱 회귀는 기본적으로 각 특징이 독립적으로 결과에 영향을 미친다고 전제합니다. 하지만 경기라는 것은 흐름이 있는 살아 있는 시스템입니다. 이를 보완하기 위해 시퀀스 데이터를 다루는 RNN이나 LSTM 같은 딥러닝 모델, 또는 앙상블 방법인 랜덤 포레스트, 그래디언트 부스팅 머신(GBM) 등이 더 복잡한 패턴을 학습하는 데 사용되기도 합니다. 이러한 모델들은 종종 더 높은 예측 성능을 보일 수 있지만, 그 대가로 ‘블랙박스’화되어 해석이 매우 어려워진다는 단점이 있습니다.
따라서 현명한 접근법은 로지스틱 회귀와 같은 해석 가능한 모델로 분석을 시작하는 것입니다. 이를 통해 어떤 요인이 유의미한지에 대한 기초 인사이트를 확보한 후, 필요에 따라 더 복잡한 모델을 적용하여 성능을 비교해 보는 것입니다. 만약 복잡한 모델의 성능 향상이 미미하다면, 해석력이 우수한 로지스틱 회귀 모델을 선택하는 것이 실무적으로 더 유리한 결정일 수 있습니다. 모델 선택은 항상 성능과 해석 가능성, 구현 복잡도 사이의 절충안을 찾는 과정입니다.
실전에서의 선택과 활용 전략
결국 선형 회귀와 로지스틱 회귀 중 무엇을 선택해야 하는지는 분석의 궁극적인 질문에 달려 있습니다. ‘경기의 최종 점수 차이는 얼마나 될까?’라는 질문에는 선형 회귀가, ‘어떤 팀이 이길까?’라는 질문에는 로지스틱 회귀가 더 적합한 도구입니다. 승패 예측 모델링의 본질은 후자에 가깝기 때문에, 로지스틱 회귀가 출발점이 되는 경우가 대부분입니다. 그러나 여기서 멈추지 않고, 선형 회귀를 보조 도구로 활용하면 모델의 완성도를 높일 수 있습니다.
하나의 효과적인 전략은 2단계 모델링을 고려해 보는 것입니다. 첫 번째 단계에서 선형 회귀를 사용하여 팀의 공격력과 수비력을 나타내는 종합 지표(예: 기대 득점, 기대 실점)를 생성합니다. 그런 다음, 이렇게 생성된 종합 지표와 다른 조건 변수들을 특징으로 사용하여 로지스틱 회귀 모델을 훈련시켜 최종 승패를 예측하는 것입니다. 이는 복잡한 원데이터를 의미 있는 요약 정보로 압축함으로써 모델의 안정성을 높이고, 과적합의 위험을 줄이는 데 도움이 될 수 있습니다.
최종적으로 모델을 운영할 때는 지속적인 검증과 업데이트가 필수적입니다. 시즌 초반 데이터로 훈련된 모델은 시즌 중반의 메타나 팀의 컨디션 변화를 반영하지 못할 수 있습니다. 외부 환경 변화가 시장에 미치는 영향도 고려해야 하는데, 규제 완화/강화가 불법 시장의 규모와 형태에 미치는 사회적 영향 (정책 분석)을 보면 규제 강화 시 합법 시장 참여자는 감소하지만 불법 시장으로 이동하여 전체 시장 규모는 유지되고, 규제 완화 시 합법 시장 급증과 함께 투명성이 높아져 예측 모델의 데이터 품질도 개선됩니다. 이처럼 정책 변화는 베팅 패턴과 데이터 가용성을 바꾸므로 모델도 이를 반영해야 합니다. 따라서 주기적으로 새로운 데이터로 모델을 재훈련하거나, 롤링 윈도우 방식을 적용하여 최근 경기 데이터에 더 큰 가중치를 주는 방법을 고려해야 합니다. 또한 모델의 예측 확률과 실제 결과를 지속적으로 비교하는 모니터링 체계를 갖추는 것이 장기적인 신뢰성을 확보하는 길입니다. 데이터와 현장의 흐름은 끊임없이 변하기 때문에, 모델도 그 변화를 따라가도록 유연하게 관리되어야 합니다.
요약과 종합적인 관점
선형 회귀와 로지스틱 회귀는 승패 예측 모델링이라는 같은 목적지를 바라보지만, 서로 다른 길과 차량을 선택합니다. 선형 회귀는 결과를 연속적인 값으로 해석해 전반적인 흐름이나 영향력을 파악하는 데 유리한 반면, 로지스틱 회귀는 승패처럼 이진적인 결과를 확률로 표현해 실제 의사결정에 바로 활용할 수 있다는 장점이 있습니다. 따라서 어떤 모델이 더 우수하다고 단정하기보다는, 분석의 목적과 데이터의 특성에 따라 적절한 도구를 선택하는 것이 중요합니다. 결국 효과적인 예측이란 단일 모델에 의존하는 것이 아니라, 각 방법의 한계를 이해하고 상황에 맞게 조합해 사용하는 데서 완성됩니다.