NEW 야구 주요 규칙 판정 영상 데이터
- 분야스포츠
- 유형 텍스트 , 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2024-10-30 데이터 최종 개방 1.0 2024-08-09 데이터 개방 Beta Version 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2024-08-09 산출물 공개 Beta Version 소개
- AI 심판을 통한 야구 경기의 판정 속도 및 객관성·공정성 향상을 위한 야구 경기 규칙 관련, 스트라이크/볼, 파울/페어, 세이프/아웃 등 심판 판정 관련 이미지 데이터
구축목적
- AI 심판을 통한 야구 경기의 판정속도 및 객관성 공정성 향상 - 심판의 편파 판정과 스포츠 도박으로 인한 승부조작 방지 - 국내 사회인야구, 아마추어 야구, 프로야구 등 야구장 내에서 활용을 통한 공정성 향상으로 건전한 체육 문화 정착
-
메타데이터 구조표 데이터 영역 스포츠 데이터 유형 텍스트 , 이미지 데이터 형식 JSON, jpg 데이터 출처 KBO 및 실제 경기(독립리그, 대학부, 고등부) 영상, 자체 경기 등 촬영 및 수집 라벨링 유형 바운딩박스(이미지) & 폴리곤 라벨링 형식 JSON 데이터 활용 서비스 야구 경기의 판정 속도 및 객관성·공정성 향상을 위한 야구 경기 규칙 관련, 스트라이크/볼, 파울/페어, 세이프/아웃 등 심판 판정 데이터 구축년도/
데이터 구축량2023년/원천데이터: jpg 199,500개 / TXT 6,600세트 / 라벨링데이터: JSON 199,500개 / TXT 6,600세트 -
- 데이터 구축 규모
1) 라벨링 데이터데이터 구축 규모 1) 라벨링 데이터 항 목 분 류 파일 포맷 제출 수량 스트라익_볼 스트라익 json 57,000 볼 json 75,000 파울_페어 파울 json 11,904 페어 json 16,104 세이프_아웃 세이프 json 14,000 아웃 json 17,510 파울헛스윙 파울 json 4,000 헛스윙 json 4,012 총 수량 199,530 2) 기타 데이터(궤적 관련)
데이터 구축 규모 2) 기타 데이터(궤적 관련) 항목 세부 항목 분 류 파일 포맷 제출 수량 Other 궤적영상 스트라익/볼 MP4 6,600세트(33,000개) 궤적데이터 스트라익/볼 TXT 6,600세트(33,000개) 궤적확인영상 스트라익/볼 AVI 6,600세트(26,400개) 총 수량 19,800세트(92.400개) - 데이터 분포
1) 전체 파일 규모데이터 분포 1) 전체 파일 규모 판정 항목 조건구분 데이터 수(클립) 비율 스트라익/볼판정 스트라익/볼 실제 경기에서 신규 취득 (1920*1080, 120fps, 5방향) 6,600 100% (파울/페어), (세이프/아웃), (헛스윙/파울) 판정 파울/페어 실제 경기에서 신규 취득 (1920*1080, 120fps, 3방향) 약1,500 19% 자체 경기에서 신규 취득 (1920*1080, 120fps, 3방향) 약5,900 73.50% 프로야구 녹화영상에서 추출 600 7.50% 세이프/아웃 실제 경기에서 신규 취득 (1920*1080, 120fps, 3방향) 약1,500 21% 자체 경기에서 신규 취득 (1920*1080, 120fps, 3방향) 약4,700 70.40% 프로야구 녹화영상에서 추출 600 8.60% 헛스윙/파울 실제 경기에서 신규 취득 (1920*1080, 120fps, 3방향) 1,900 95% 프로야구 녹화영상에서 추출 100 5% 2) 다양성(통계)
데이터 분포 2) 다양성(통계) 구분 다양성 항목명 어노테이션 속성명 설명 비고 1 야구 선수 등급별 분포 metaData.Player_career(year) 타자의 경력 구분 1~5년 5~10년 10~15년 15~20년 20~25년 25~30년 2 촬영방향별 분포 1-4) 파일명 “다섯 번째” 항목을 기준으로 2자리씩 검사
예) CAM030509
①②③카메라 방향
“그림 1” 참조“그림 1” 참조 참고 : (1루)=>1루쪽에설치 • 스트라익/볼, 파울/헛스윙 홈플레이트 탑샷:01 우타자(1루): 02 좌타자(3루): 03 홈/3루(1루): 04 홈/1루(3루): 05 • 세이프/아웃 1루 베이스(1루): 08 1루 베이스(3루): 09 1루 베이스(홈): 10 2루 베이스(홈): 11 2루 베이스(1루): 12 2루 베이스(3루): 13 3루 베이스(홈): 14 3루 베이스(3루): 15 3루 베이스(1루): 16 홈 베이스(홈): 01 홈 베이스(1루): 02 홈 베이스(3루): 03 • 파울/페어 홈 베이스(홈): 01 홈 베이스(1루): 02 홈 베이스(3루): 03 내야(1루): 04 내야(3루): 05 1루 내야라인(홈): 17 1루 외야라인(3루): 18 1루 외야라인(1루): 19 3루 내야라인(3루): 20 3루 외야라인(1루): 21 3루 외야라인(3루): 22 3 카테고리별 분포 1-4) 파일명 “두 번째” 항목 리그별 구분 독립리그 : 01 KBO : 02 대학 : 03 고등 : 04 자체경기 : 05 4 판정별 분포 1-4) 파일명 “첫 번째” 항목 규칙 판정별 분포 스트라익: ST 볼: BA 파울: FU 페어: FR 세이프: SA 아웃: OU 파울: FL 헛스윙: NS -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 스트라이크/볼
ResNet 50 변형 모델로 3차원 공의 궤적 및 타자의 자세 추정에 다른 스트라이크 존 입력으로 스트라이크/볼을 분류 하는 모델- 입력: 타자 스트라이크 존, 3차원 공궤적 (strike 존 근방)
- 공 궤적 수식으로 계산된 결과 strike/ball (AS: analytic solution)
- Strike zone은 타자 3차원 pose를 이용하여 analytic하게 만들 수 있음
- Strike zone 안에서 공이 날아간 경우 strike- 파울/페어,세이프/아웃/파울/헛스윙
학습 알고리즘은 객체와 각 객체에 따른 속성을 이용하여 장면을 기술 하는 과정으로 객체 검출과 검출된 객체의 속성을 인식하는 두 단계 인공지능 모델로 이루어짐객체 검출은 객체의 특징에 따라 바운딩박스와 폴리곤이 혼합된 형태로 라벨링 되어 있어, 폴리곤을 기준으로 인식을 하되, 바운딩박스 또한 사각 폴리곤 형식으로 적용하고, 사용한 모델은 yolov7 임
YOLOv7는 Real-time Instance Segmentation on MSCOCO 영역에서 SOTA 성능인 45% 인식율을 나타내고, 기준 논문(Kexin Yi, ...,Joshua B. Tenenbaum, "Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding" 2019)에서 객체 검출 용으로 사용 된 Mask R-CNN(34.6%, 16위) 대비 더 좋을 성능을 나타냄< Real-time Instance Segmentation on MSCOCO 순위 >
< yolov7 개념도 >
속성 인식은 객체에 대한 각각의 라벨링 정의에 따른 속성을 인식하는데 있어 AttNet(ResNet-50)을 사용 함
AttNet은 기준 논문(Kexin Yi, ...,Joshua B. Tenenbaum, "Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding" 2019)에서 객체의 속성 인식용으로 사용된 모델임< AttNet의 개념도 >
기존 그래프 내에서 노드와 엣지로부터 정보를 취합하는 GCN(Graph Convolutional Networks) + MLP(multi-layer perceptron) layer에 구조 정보를 추출하는 HGP-SL layer를 추가한 신경망 네트워크
< 그림 > HGP-SL 훈련모델
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드- 데이터 설명 :
○ AI 심판을 통한 야구 경기의 판정 속도 및 객관성·공정성 향상을 위한 야구 주요 규칙 판정 동영상 및 이미지 데이터 구축
○ 인공지능 학습용 데이터 구축량
- 여러 방향에서 촬영된 야구 규칙 중심의 동영상 클립 및 이미지
- 야구 주요 규칙 : 스트라이크(Strike), 볼(Ball), 파울(Foul), 페어(Fair), 세이브(Safe), 아웃(Out) + 파울/헛스윙
○ AI 임무(task)
- 투구의 스트라이크/볼 판정
- 구장 전체를 관망하며 파울/페어 판정
- 주자의 세이프/아웃 판정
- 타자의 파울.헛스윙 판정- 데이터 구성 :
1) 라벨링데이터데이터 구성 1) 라벨링데이터 구분 속성명 타입 필수여부 설명 범위 비고 1 box object Y 선수,공,경기도구,심판 지정 1-1 type string Y 1-2 location array Y 1-2-1 x number Y 1-2-2 y number Y 1-2-3 width number Y 1-2-4 height number Y 1-3 label string Y box의 속성값 1-4 value array N 1-4-1 상태 string N 구체적인 상태 1-4-2 위치 string N 규칙상 위치 2 polygon object N 경기장 지정 2-1 type string N 2-2 location array N 2-2-1 x1 number N 2-2-2 y1 number N 2-2-3 x2 number N 2-2-4 y2 number N 2-2-5 x3 number N 2-2-6 y3 number N 2-2-7 x4 number N 2-2-8 y4 number N 2-2-9 x5 number N 2-2-10 y5 number N 2-3 label string N polygon의 속성값 2) 메타데이터
데이터 구성 2) 메타데이터 구분 속성명 타입 필수
여부설명 범위 비고 1 metaData object Y 1-1 File_name string Y 파일명 1-2 File_format string Y 파일 형식 1-3 File_resolution string Y 파일 해상도 1-4 File_cam_ID string Y 캠 번호 1-5 Game_date string Y 일시 1-6 Game_weather string Y 날씨 1-7 Game_Temperature(Celsius_degree) string Y 온도(섭씨) 1-8 Game_humidity(percent) string Y 습도(퍼센트) 1-9 Game_wind_direction(degrees) string Y 풍향(섭씨도) 1-10 Game_wind_speed(m/s) string Y 풍속(m/s) 1-11 Player_height(cm) string Y 선수 키 1-12 Player_weight(Kg) string Y 선수 몸무게 1-13 Player_grade string Y 선수 소속 리그 1-14 Player_position string Y 선수 역할(포지션) 1-15 Player_career(year) string Y 선수 경력 1-16 Player_bats string Y 치는손 1-17 Player_throws string Y 던지는손 1-18 Situation_umpire_judgement string Y 현장 심판 판정 1-19 Situation_labeled_judgement string Y 라벨 심판 판정 1-20 Situation_code string Y 상황 순서 고유값 1-21 Ball_labelname string Y 공 라벨 이름 1-22 Ball_status string Y 공의 실질적 상태 1-23 License string Y 라이센스 1-24 Version string Y 버전 1-25 Contributer string Y 제작자 1-26 Url string Y url 1-27 sourcefile string Y 원본파일 *Player_carrer(year)
Player_carrer(year) 수준 구분 경력 데이터 수집 대상 비고 L-6 프로야구 9년 이상 kbo 영상 구매 - L-5 퓨처스리그 9년 이상 X - L-4 독립리그/ 대학부 9년이상 O - L-3 고교부 6~8년 O - L-2 중등 3~5년 X - L-1 초등 1~2년 X - - 어노테이션 포맷
데이터 구성 - 어노테이션 포맷 구분 다양성 항목명 어노테이션 속성명 설명 비고 1 야구 선수 등급별 분포 metaData.Player_career(year) 타자의 경력 구분 1~5년 5~10년 10~15년 15~20년 20~25년 25~30년 2 촬영방향별 분포 1-4) 파일명 “다섯 번째” 항목을 기준으로 2자리씩 검사
예) CAM030509
①②③카메라 방향
“그림 1” 참조“그림 1” 참조
참고: (1루)=>1루쪽에설치• 스트라익/볼,파울/헛스윙 홈플레이트 탑샷 : 01 우 타자 (1루) : 02 좌 타자 (3루) : 03 홈/3루 (1루) : 04 홈/1루 (3루) : 05 • 세이프/아웃 1루 베이스 (1루) : 08 1루 베이스 (3루) : 09 1루 베이스 (홈) : 10 2루 베이스 (홈) : 11 2루 베이스 (1루) : 12 2루 베이스 (3루) : 13 3루 베이스 (홈) : 14 3루 베이스 (3루) : 15 3루 베이스 (1루) : 16 홈 베이스 (홈) : 01 홈 베이스 (1루) : 02 홈 베이스 (3루) : 03 • 파울/페어 홈 베이스 (홈) : 01 홈 베이스 (1루) : 02 홈 베이스 (3루) : 03 내야 (1루) : 04 내야(3루) : 05 1루 내야 라인 (홈) : 17 1루 외야 라인 (3루) : 18 1루 외야 라인 (1루) : 19 3루 내야 라인 (3루) : 20 3루 외야 라인 (1루) : 21 3루 외야 라인 (3루) : 22 3 카테고리별 분포 1-4) 파일명 “두 번째” 항목 리그별 구분 독립리그 : 01 KBO : 02 대학 : 03 고등 : 04 자체 경기 : 05 4 판정별 분포 1-4) 파일명 “첫 번째” 항목 규칙 판정별 분포 스트라익 : ST 볼 : BA 파울 : FU 페어 : FR 세이프 : SA 아웃 : OU 파울 : FL 헛스윙 : NS - 채널 별 카메라 번호 및 사진 샘플
#1 서버(스트라익/볼) & (파울/헛스윙)
- Cam1 스트라익/볼탑샷 홈 플레이트 => 전체 카메라 채널 넘버 : 1
- Cam2 스트라익/볼 우 타자 => 전체 카메라 채널 넘버 : 2
- Cam3 스트라익/볼 좌 타자 => 전체 카메라 채널 넘버 : 3
- Cam4 스트라익/볼 홈/3루 => 전체 카메라 채널 넘버 : 4
- Cam5 스트라익/볼 홈/1루 => 전체 카메라 채널 넘버 : 5
- Cam6 전체경기장 30fps => 전체 카메라 채널 넘버 : 6
- Cam7 전광판 30fps => 전체 카메라 채널 넘버 : 7[그림 2] 1번 서버(스트라익/볼, 파울/헛스윙) 카메라 방향 및 화각 사진
#2 서버(세이프/아웃)
-Cam1 1루 베이스 => 전체 카메라 채널 넘버 : 8
-Cam2 1루 베이스 => 전체 카메라 채널 넘버 : 9
-Cam3 1루 베이스 => 전체 카메라 채널 넘버 : 10
-Cam4 2루 베이스 => 전체 카메라 채널 넘버 : 11
-Cam5 2루 베이스 => 전체 카메라 채널 넘버 : 12
-Cam6 2루 베이스 => 전체 카메라 채널 넘버 : 13
-Cam7 3루 베이스 => 전체 카메라 채널 넘버 : 14
-Cam8 3루 베이스 => 전체 카메라 채널 넘버 : 15[그림 3] 2번 서버(세이프/아웃) 카메라 방향 및 화각 사진
#3 서버(파울/페어)
-Cam1 (세이프/아웃용 잔여 카메라) 3루베이스=> 전체 카메라 채널 넘버 : 16
-Cam2 1루 내야 => 전체 카메라 채널 넘버 : 17
-Cam3 1루 외야 => 전체 카메라 채널 넘버 : 18
-Cam4 1루 외야 => 전체 카메라 채널 넘버 : 19
-Cam5 3루 내야 => 전체 카메라 채널 넘버 : 20
-Cam6 3루 외야 => 전체 카메라 채널 넘버 : 21
-Cam7 3루 외야 => 전체 카메라 채널 넘버 : 22[그림 4] 3번서버(파울/페어) 카메라 방향 및 화각 사진
- 실제 예시
● 스트라이크/볼● 파울/페어,세이프/아웃/파울/헛스윙
-
데이터셋 구축 담당자
수행기관(주관) : ㈜컴아트시스템
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 설창훈 070-7122-2300 [email protected] 총괄기획 / 데이터 수집, 정제 수행기관(참여)
수행기관(참여) 기관명 담당업무 ㈜에어패스 데이터 정제 / 데이터 가공/ 데이터 검수 ㈜가치랩스 AI 모델링 (사)대한스포츠문화산업협회 데이터 수집, 정제 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 박철우 070-7122-2303 [email protected] AI모델 관련 문의처
AI모델 관련 문의처 담당자명 전화번호 이메일 김민기 031-460-0029 [email protected] 저작도구 관련 문의처
저작도구 관련 문의처 담당자명 전화번호 이메일 박종진 02-2205-0551 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.