서강대학교 로욜라도서관

탑메뉴

전체메뉴

전체메뉴닫기


검색

상세정보

메이저리그 야구 통계학 : 빅데이터 분석의 시작 R

김재민

상세정보
자료유형단행본
서명/저자사항메이저리그 야구 통계학 : 빅데이터 분석의 시작 R / 김재민 지음
개인저자김재민
발행사항서울 : 에이콘, 2018
형태사항362 p. : 삽화, 표 ; 24 cm
총서명에이콘 데이터 과학 시리즈
ISBN9791161751641
9788960774469 (set)
일반주기 색인수록
일반주제명R (Computer program language)
Baseball --Data processing
언어한국어

소장정보

서비스 이용안내
  • 찾지못한자료찾지못한자료
  • SMS발송SMS발송
메세지가 없습니다
No. 등록번호 청구기호 소장처/자료실 도서상태 반납예정일 예약 서비스
1 1324001 796.3570285 김72ㅁ 2관 5층 일반도서 대출가능
찾지못한자료 SMS발송


서평 (0 건)

서평추가

서평추가
별점
별0점
  • 별5점
  • 별4.5점
  • 별4점
  • 별3.5점
  • 별3점
  • 별2.5점
  • 별2점
  • 별1.5점
  • 별1점
  • 별0.5점
  • 별0점
제목입력
본문입력

*주제와 무관한 내용의 서평은 삭제될 수 있습니다.

출판사 제공 책소개

출판사 제공 책소개 일부

4차 산업의 거대한 물결로 빅데이터 같은 대형 데이터의 활용 가치는 더욱 높아지고 있지만, 수학이라는 진입장벽 때문에 데이터 분석에 접근하지 못하는 어려움이 반복되고 있다. 한국에서 가장 인기 있는 프로 스포츠인 야구로 통계분석을 다룬다면, 데이터에 대한 새로운 관점을 가질 수 있다. 메이저리그에서 140년 이상 쌓여온 대형 패널 데이터를 이용해 전통적 분석인 상관관계 분석, 회귀분석, 로지스틱 회귀분석, 분산분석과 최근 인공지능으로 주목받고 있는 판별분석, 클러스터링 분석, 요인분석, 네트워크 분석, 신경망분석 등을 통해 흥미로운 야구 이야기를 모델링하고 데이터로 직접 테스트한다. 모든 작업에는 학계와 산업계의 분석에서 이미 중심이 된 오픈소스 통계 프로그램 R이 있다.

★ 이 책에서 다루는 내용 ★

- 야구 이야기와 통계 프로그램 R 코드가 동시에 진행되는 이해하기 쉬운 설명
- 다양한 목적의 분석 툴을 야구에서 발생하는 특수 상황에 맞게 적용
- 실제 메이저리그 대형 데이터인 라만(Lahman) 데이터베이스 활용
- 대형 데이터를 분석 목적에 맞게 마이닝하는 방법 제시
- 예측모델에서 발생할 ...

출판사 제공 책소개 전체

4차 산업의 거대한 물결로 빅데이터 같은 대형 데이터의 활용 가치는 더욱 높아지고 있지만, 수학이라는 진입장벽 때문에 데이터 분석에 접근하지 못하는 어려움이 반복되고 있다. 한국에서 가장 인기 있는 프로 스포츠인 야구로 통계분석을 다룬다면, 데이터에 대한 새로운 관점을 가질 수 있다. 메이저리그에서 140년 이상 쌓여온 대형 패널 데이터를 이용해 전통적 분석인 상관관계 분석, 회귀분석, 로지스틱 회귀분석, 분산분석과 최근 인공지능으로 주목받고 있는 판별분석, 클러스터링 분석, 요인분석, 네트워크 분석, 신경망분석 등을 통해 흥미로운 야구 이야기를 모델링하고 데이터로 직접 테스트한다. 모든 작업에는 학계와 산업계의 분석에서 이미 중심이 된 오픈소스 통계 프로그램 R이 있다.

★ 이 책에서 다루는 내용 ★

- 야구 이야기와 통계 프로그램 R 코드가 동시에 진행되는 이해하기 쉬운 설명
- 다양한 목적의 분석 툴을 야구에서 발생하는 특수 상황에 맞게 적용
- 실제 메이저리그 대형 데이터인 라만(Lahman) 데이터베이스 활용
- 대형 데이터를 분석 목적에 맞게 마이닝하는 방법 제시
- 예측모델에서 발생할 수 있는 소음을 제거하는 모델링 방법 소개
- 인공지능으로 주목받고 있는 비지도학습법인 판별분석, 군집분석, 신경망분석 등을 소개

★ 이 책의 대상 독자 ★

- R에 관심은 있지만 특별한 동기가 없어서 본격적으로 시작하지 못했던 R 초보자
- 학위 과정을 준비하고 있거나 학위 과정에서 통계분석을 알고 있어야 하는 독자
- 직장에서 매일 다루는 데이터를 의미 있게 분석하고, 해석하고 싶은 직장인
- 데이터과학을 야구를 통해 배우고 싶은 스포츠 팬

★ 이 책의 구성 ★

이 책은 총 6개 장으로 구성됐다. 데이터와 분석 목적이 일치하는가, 측정하려는 개념을 측정하고 있는가, 과학적 예측은 어떻게 하는가, 다름과 같음을 구분할 수 있는가, 분석결과를 호도할 수 있는 소음은 잡아낼 수 있는가에 대해 R에서 메이저리그 경기 데이터를 사용해 직접 실험한 결과를 바탕으로 설명하고 각 장에서 코드를 제시한다.
1장, '변수를 알면 분석모델을 디자인할 수 있다'에서는 분석 목적에 맞는 맞춤형 데이터를 만들기 위해 반드시 알아야 하는 데이터 구조와 그 중심에 있는 변수를 메이저리그 데이터베이스를 통해 이해한다. 더불어 데이터 생성, 가공, 분석 활동이 동시에 이뤄져야 하는 비즈니스 환경에서 분석 플랫폼 역할을 하는 R과 오픈소스 R 활용이 궁극적으로 도달해야 하는 데이터 가치 사슬(data value chain)에 대해 설명한다.
2장, '메이저리그 데이터 마이닝'에서는 메이저리그 팀과 선수들의 데이터를 활용해 빅데이터로부터 특정 데이터를 추출하거나 데이터의 형태를 변형해 분석 목적에 맞게 준비하는 마이닝 기법을 배운다. 특히 원본 데이터에 어떠한 영향도 주지 않고 코드를 통해 변수를 자유자재로 변형하고 2개 이상의 테이블을 공통 변수로 결합함으로써 제기된 문제에 유연하게 답할 수 있는 방법을 제시한다.
3장, '선수의 능력은 어떻게 측정할 것인가?'에서는 데이터 시각화의 시작이자 추정통계의 기반이 되는 상관관계 분석을 활용해 신뢰성과 타당성을 보유한 야구지표의 조건을 파악한다. 또한 장타력과 득점의 상관성을 보여주는 산포도의 다양한 시각화 방법, 감독과 선수의 상관 정도인 인맥을 보여주는 네트워크 분석, 산포도 개념을 활용한 메이저리그 구장 위치 정보 소개, 그리고 조건에 따라 변하는 다양한 상관 정도를 한 번에 보여주는 패널차트 등 분석을 실행하는 데 필요한 데이터 구조와 코딩방법을 소개한다.
4장, '상관관계는 인과관계가 아니다'에서는 인과관계를 모델링하는 대표적인 분석 방법인 선형회귀 분석을 실행하기 위해 빅데이터에서 필요한 양의 표본을 임의로 추출해 분석결과를 해석하고 예측하는 방법을 팀타율과 팀득점을 이용해 자세히 설명한다. 특히 예측에서 반드시 발생할 수밖에 없는 다양한 오류를 소개하고, 예측 능력이 좋은 모델을 구별하는 기준이 되는 표준오차가 팀득점 예측에 활용되는 과정을 코드를 통해 이해한다.
5장, '비교와 구분'에서는 머신러닝이 주목받으면서 가치가 높아지고 있는 분석을 소개한다. 전통적인 t 검증과 분산분석(ANOVA)뿐만 아니라, 비지도학습법인 판별분석, 요인분석, 군집분석, 신경망분석과 지도학습법인 로지스틱 회귀분석을 메이저리그팀들이 소속된 리그 구분 및 지구(디비전) 우승 여부와 연계해서 학습한다. 이 과정에서 이상치의 확인과 모델에 미치는 영향, 프로 스포츠에서 선수성적 표준편차가 갖는 의미, 그리고 구글 트렌드 데이터를 R에서 활용하는 방법을 소개한다.
6장, '모델링'에서는 개념적 관계를 수학적 모델로 전환하는 과정인 모델링에서 관측치가 충분히 많은 빅데이터로 인과관계를 검증한다고 해도 활용할 수 있는 변수가 충분치 않아 측정되지 않은 제3의 변수 때문에 관계는 항상 의심을 받는다는 사실에 주목한다. 메이저리그 팀들의 공격능력과 팀성적 간의 인과관계를 입증하기 위해 통제 변수를 개발하고 눈에 보이지 않는 교란 변수를 통제하는 패널모델 및 다수준 혼합모델을 적용해 인과관계를 테스트하고 모델 적합성을 평가하는 방법을 코드를 통해 배운다. 어려운 개념인 모델링을 야구와 결합함으로써 일반화된 이론모델, 검증할 수 있는 수학모델, 그리고 현실의 데이터를 R에서 결합하는 방법을 쉽게 이해할 수 있다.

함께 비치된 도서