데이터 기반 의사결정 (Sam Bornstein)

현대 야구에서는 수많은 데이터가 사용되고 있다. 하지만 데이터가 정확히 어떤 방식으로 야구장에서 팀의 경기력을 높일 수 있을까? 이 글에서 샘 보른스타인(Sam Bornstein)이 그 질문에 답해줄 것이다. 또한 자신이 지금까지 지켜본 효과적인 데이터 활용 전략에 대해서도 소개한다.

“제대로 알고 결정을 내리기 위해 가능한 한 많은 정보를 수집하는 것이 현대 야구의 트렌드다. 여기서 어려운 점은 데이터가 정확히 어떤 뜻인지 파악하고, 파악한 내용을 실제로 활용할 수 있는 형태로 옮기는 데 있다. 데이터 기반 야구에서의 혁명은 야구를 하는 방식을 바꾸는 것이 아니라 사용 가능한 기술을 이용해 성공 확률을 최대한 높이는 것이다. 다시 말해 우리는 막연한 추측 대신 구체적인 숫자를 보고 싶은 것이다.”

이 말은 1년 전 제이크가 제작한 첫 Simple Sabermetrics 영상에서 나온 것으로, 지금도 여전히 들어맞는 이야기다. 모두 반갑다. 나는 현재 아이오와 대학 야구팀의 학생 매니저이자 수석 데이터 분석가로 활동하고 있다. 또한 비지니스 분석 과학 박사 과정을 진행 중이기도 하다. 제이크를 비롯해 아담 셕(Adam Schuck) 같은 동료 참여자들과 같이 데시 드루셸(Desi Druschel) 코치로부터 배웠고, 일류 코치들 밑에서 일하며 데이터 기반 의사결정 과정을 도울 기회가 있었다.

연습경기를 하며 트랙맨 데이터를 실시간으로 확인하는 미국대학야구팀

가장 최근의 야구 분석 혁명은 2015년 메이저리그가 30개 전 구장에 트랙맨을 설치하며 일어났다. 그 뒤로 마이너리그와 몇몇 대학에서도 트랙맨을 설치해 경기 중 투구를 추적하기 시작했다. 야구장 밖에서는 랩소도를 이용해 구속, 회전, 무브먼트와 같은 투구 정보를 측정하는 경우가 많아졌다. 이러한 투구 추적 기기들은 선수, 코치들이 보다 정확하게 선수의 기량을 측정할 수 있게 해주는 동시에 우리에게 수많은 연구 데이터를 던져준다. 데이터를 활용하는 시스템을 구축할 능력이 있는 팀은 야구의 전 영역에 걸쳐 풍성한 수확을 거두기 시작했다.

누군가는 새로운 기술의 도입이 야구에 이롭지 않다고 생각하겠지만, 전혀 그렇지 않다. 새로운 기술들은 데이터 기반 의사결정에 필요한 ‘계량’을 가능하게 한다. 선수 개발에 새로운 기술을 사용하는 것은 수학 시험에서 계산기를 쓰는 것과 같다. 계산기 없이 정답을 맞힐 수도 있겠지만, 있으면 정답에 더 빠르게 다가가기 위한 최적의 결정을 분명 내릴 수 있다. 현대 야구도 마찬가지다. 평생을 야구에 몸담아온 코치는 수많은 값진 경험을 갖고 있다. 하지만 점점 더 많은 기술이 도입되면서 우리는 의사결정을 경험보다 데이터를 중심으로 할 수 있게 되었다.

투수 육성과 관련된 예시를 생각해 보자. 투수 A는 포심, 투심, 슬라이더, 체인지업을 던진다. 최근 코치는 A가 두 가지 문제가 있다는 것을 발견했다. 하나는 포심과 투심이 너무 비슷하게 움직인다는 것이고, 다른 하나는 슬라이더가 신통찮다는 것이다.

코치는 선택의 기로에 서 있다. 여전히 야구에서 경험은 매우 중요하다. 하지만 과거에 어떤 것들이 효과가 있었는지를 생각해 시행착오를 거쳐 의사결정을 내리는 올드스쿨 방식은, 수많은 정보들이 활용 가능해지면서 완전히 옛날 이야기가 됐다. 현대 야구에서는 선수 육성에서 데이터 기반 의사결정이 필수적이다.

이제 A에게 어떤 것들이 필요할지 몇 가지 질문을 해 보자. 포심이나 투심 중 하나를 버려야 할까, 또는 둘 중 하나를 약간 수정하는 것으로 충분할까? 슬라이더가 다른 무브먼트를 가져야 할까, 또는 구속이나 회전수에 변화를 주어야 할까? 두 가지 질문 모두 현재 상황을 내적으로 바라보는 것이지만 실은 이 두 가지 문제에 공통적으로 영향을 주는 다른 외적 원인이 있을지도 모른다.

현재 구종 외에 다른 구종이 없는 것이 문제일 수도 있다. 커브를 추가하는 건 어떤가? 추가한다면 커브가 슬라이더를 대체해야 할까? 둘 다 가져가도 될까? 투구 전략의 문제일까? 투구 비율은 어떤가? 마운드에서의 위치, 또는 투구 자세, 또는 트레이닝 방법의 문제는 아닌가? 의사결정 과정에 데이터를 포함시키지 않으면 이 중 어떤 질문에도 효과적으로 답할 수 없다.

방금 나는 세부적으로 답하자면 수백, 수천 자가 필요할지도 모르는 구체적인 질문들을 던졌다. 이 글의 주제는 아니지만 데이터를 기반으로 이런 질문들에 답하는 몇 가지 방법을 제시하고자 한다. 이는 각자가 큰 모집단에 대한 데이터가 있다는 가정 하에 진행될 것이다. 당신이 그런 데이터가 있다면 더할 나위 없다. 없다면? 특정한 단체에 소속되지 않은 사람들을 위한 공용 데이터가 있으니 이를 활용하길 추천한다.

구속이든 회전이든 무브먼트든, 투구에 수정을 가할 때는 올바른 육성 방향을 설정하기 위해 두 가지 방식으로 데이터를 활용할 수 있다. 첫 번째 방법은 해당 투수의 과거 데이터를 면밀히 살피는 것이다. 이를 통해 (사전에 설정한 기준에 따라) 좋은 투구를 할 때는 어땠는지 정확하게 알아본다. 두 번째 방법은 투수가 던진 공의 몇 가지 특성, 또는 투구 전체를 다른 투수들과 비교해 왜 성공했거나 실패했는지 알아보는 것이다.

지난해 우리 투수들의 데이터를 수집한 뒤, 아이오와 분석팀은 투구 특성과 헛스윙률, 땅볼 비율과 같은 주요 경기력 인자 사이의 미묘한 관계를 분석했다. 충분한 실전 경기 데이터가 있다고 하고, 예를 들어 슬라이더의 수평 무브먼트가 늘었을 때 얼마나 이득이 있는지를 알아보자. 만약 수평 브레이크가 6인치 걸릴 때보다 12인치 걸릴 때 더 헛스윙이 많아진다면 결정은 쉬울 것이다. 만약 샘플이 충분하지 않거나, 슬라이더가 제대로 들어간 적이 없다고 하면 이런 접근 방식은 효과적이지 않다. 이런 경우에는 틀에서 벗어나 데이터베이스 안에서 다른 투수, 또는 투구와 비교해 보아야 한다.

각 구종마다 세분류는 있지만 기본적으로 대부분의 투수는 직구, 커브, 슬라이더/커터, 체인지업을 조합해 투구한다. 투구 양태를 다양화시키는 요인에는 구속, 회전, 무브먼트, 릴리즈 포인트, 그립, 손목 엎침/뒤침, 메카닉 한계 등이 있다. 라이징 패스트볼, 하드 싱커, 12-6 커브, 고속 슬라이더 같은 야구 용어를 종종 들을 것이다. (이 기사를 강력 추천한다.) 다행스럽게도 이런 세분류들은 모두 계량할 수 있다.

패스트볼은 눈꽃과 같다. 서로 비슷하지만 서로 비교할 수 있다. 좌우 투수에 따라 9~10가지 타입이 있다고 가정하고 다른 투수와 비교하는 방식으로 분석을 시작해 보자. 예를 들어 ‘Type 1 패스트볼’은 시속 90-92마일에 2200RPM의 회전수, 수직 브레이크 15, 수평 브레이크 10이고 스리쿼터에서 나오는 공이라고 정의해 보자. 만약 어떤 투수가 Type 1 패스트볼을 던지고, Type 1 패스트볼을 던지는 다른 투수가 10명 있다면 10명의 데이터를 두 가지 방식으로 활용할 수 있다.

먼저 샘플 사이즈가 손쉽게 10배로 늘어나므로 이를 투수 A의 데이터인 것처럼 활용할 수 있다. 물론 위험도 있다. 서로 다른 투수의 패스트볼을 비교하는 것은 투구 전체의 맥락에서 이뤄져야 한다. 투수 B가 패스트볼을 받쳐줄 좋은 두 번째 구종이 있다면? 투수 B의 Type 1 패스트볼이 잘 통하는 이유는 그 두 번째 구종의 존재 덕분일 가능성이 높다. 또 어떤 투수들은 메카닉 한계가 있어 다른 투수들과 온전히 비교하기 어렵다.

예를 들어 자연 커터를 던지는 선수들은 손목과 손가락을 조절해 회전 효율을 높이기 어려운 경우가 많다. 만약 이런 투수가 특정한 패스트볼 타입에서 스핀 효율이 높은 다른 타입으로 옮기려 한다면 잘 되지 않을 가능성이 높다. 어떤 투수가 가능하다고 다른 투수도 가능하다고 할 수는 없다. 다른 모든 야구 연구와 마찬가지로, 가능한 해결책들에 어떤 것이 있는지 제대로 알기 위해서는 최대한 깊게 파 보아야 한다.

한 장으로 정리한 투수프로필

다음으로 같은 그룹의 다른 투수들이 해당 투구를 어떻게 사용하는지를 통해 경기 준비와 투구 개발에 활용할 수 있다. 투구의 올바른 사용법을 찾아가는 과정에서 다른 투구나 구종 전체의 활용에 관한 내용으로 가지를 치는 경우도 종종 발생한다. 특정 구종을 얼마나 자주 던지는가? 다른 구종은 어떤 것이 있는가? 다른 구종과 어떻게 배합하는가? 어떤 코스가 효과적인가? 만약 다른 10명에게서 공통적인 패턴이 발견된다면 우리 투수도 그 패턴을 활용할 수 있다. 반대로 다른 10명의 성적이 좋지 못했다면 우리 투수의 패스트볼을 재설계해야 한다는 신호가 될 것이다.

두 가지 접근방식 모두 의사결정에 데이터를 활용하는 첫걸음이다. 최적의 투구 특성이나 신체적 변화 방향, 경기 운영 방식을 결정하고 나면 다음 과정은 믿음직한 동료들과 실제로 어떻게 바꾸어 나갈지 계획하는 것이다. 말은 쉽지만 결코 쉽지 않은 과정이다. 이 글의 목적은 데이터와 관련된 문제들을 인식하고, 왜 그런 문제가 발생하는지 분석하고, 가능한 해결책을 탐색하고, 정확한 개선 방향을 짚어내는 것이었다. “야전” 회의에서 어떻게 계획을 짜서 어떻게 개선해 나갈지는 완전히 다른 이야기가 된다. 조만간 다른 필진이 그에 관해 다뤄줄 것이다.

느꼈을지도 모르겠지만 이 글 전체의 테마는, 데이터가 리스크는 최소화하고 보상은 늘리면서 의사결정 과정을 단순하게 한다는 것이다. 과감한 말이지만 분명한 사실이고, 이것이 ‘야구 기술’의 시대를 이끌어가는 동력이다. 지금까지 말한 방법들이 그냥 눈으로 판단하는 것보다 조금은 나아 보이지 않는가? 시행착오 과정을 생략하고, 팩트와 고급 정보를 이용하자. 다시 한번 말하지만, 이 혁명은 야구를 플레이하는 방식을 바꾸는 것이 아니다. 제대로 알고 결정을 내려 성공 확률을 최대한 높이는 것이다.

데이터가 의사결정을 뒷받침한다.

글 : Sam Bornstein (아이오와대학 데이터분석가)
번역 : 오연우

(원문기사 읽기)

Data Driven Decisions

게이오대학 야구부의 데이터 활용

 

답글 남기기

이메일 주소는 공개되지 않습니다.