-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-15 데이터 최종 개방 1.0 2023-05-04 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
ㅇ 철도 운영 주요 시설물 중 중요 시설물인 철도 선로 및 전차선 애자에 대하여 영상카메라 및 각종 특수장비를 활용하여 다양한 여건에서의 기계적 결함(파손, 균열, 이완 등) 데이터를 포함한 영상 데이터 셋(24만장) 구축 ㅇ 수집된 영상 데이터를 통한 시설물의 상태확인, 이상 현상 감지, 이상상황 판별을 통해 안전한 운용을 위한 예방적 점검개소 검지 및 고장원인 분석 등이 가능하도록 AI 학습용 영상 데이터 구축, AI 학습 모델 제시 및 데이터 수집 환경 구축에 의한 유효성 검증
구축목적
ㅇ 인공지능 학습용 데이터 구축
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 jpg 데이터 출처 철도 선로 및 전차선 애자 시설물을 특수 제작한 수집장치를 활용하여 현장에서 직접 촬영을 통해 데이터 수집 라벨링 유형 바운딩박스(이미지), 세그멘테이션(이미지) 라벨링 형식 json 데이터 활용 서비스 안전하고 편리한 철도 시설 점검 환경 구축 데이터 구축년도/
데이터 구축량2022년/철도 선로 상태 인식 데이터 151,814 셋 -
[데이터 통계]
- 데이터 구축 규모
3개 분야 15개 시설물 이미지, 제이슨 형식으로 총 151,814 set 구축[데이터 통계]- 데이터 구축 규모 시설물 장소 수집규모 가공규모 최종 결과물 규모 형식 레일(2종) 레일, 도유기 도시철도 136,739 61,622 61,622 jpg, 레일 이음매(4종) 용접부, 분기부 이음매판, 볼트·너트, 이음매판 json 일반철도 84,692 43,964 43,964 체결장치(9종) 팬드롤 e-clip, 절연블록, 나사스파이크, 가드레일 볼트·너트, 육각볼트(ALT-Ⅱ 침목), 침목(RC, PC, 목침목), fast clip, system 300-1, 경전철 체결장치 고속철도 110,415 24,615 24,615 경전철 93,344 21,613 21,613 총계 4개 장소 425,190 151,814 151,814 데이터 분포
1) 클래스별 데이터 분포데이터 분포1) 클래스별 데이터 분포 구분 계 도시철도 일반철도 고속철도 경전철 대상 시설물 3개 시설물 3개 시설물 3개 시설물 2개 시설물 11종* 7종** 8종*** 2종**** 수량(set) 151,814 61,622 43,964 24,615 21,613 비율 100% 41% 29% 16% 14% * 레일(레일, 도유기), 레일 이음매(용접부, 분기부 이음매판, 볼트·너트), 체결장치(팬드롤 e-clip, 절연블록, 나사스파이크, 가드레일 볼트·너트, 육각볼트, 침목)
** 레일(레일), 레일 이음매(이음매판, 볼트·너트), 체결장치(팬드롤 e-clip, 절연블록, 나사스 파이크, 침목)
*** 레일(레일), 레일 이음매(용접부), 체결장치(팬드롤 e-clip, fast clip, system 300-1, 나사스파이크, 절연블록, 침목)
**** 레일(레일), 체결장치(경전철 체결장치)2) 정상·이상별 데이터 분포
데이터 분포2) 정상·이상별 데이터 분포 구분 클래스 라벨링 데이터 원천 데이터 계 정상 이상 계 정상 이상 합계 151,814 108,089 43,725 151,814 108,089 43,725 철도 선로 상태 인식 데이터 도시철도 61,622 49,859 11,763 61,622 49,859 11,763 일반철도 43,964 23,363 20,601 43,964 23,363 20,601 고속철도 24,615 17,469 7,146 24,615 17,469 7,146
경전철 21,613 17,398 4,215 21,613 17,398 4,215 -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드[활용모델]
- 모델학습
∙YOLOv5(바운딩박스 기반), Mask R-CNN(세그멘테이션 기반) 학습을 위해 철도 선로 및 전차선 애자 데이터 관련 이미지(.jpg)와 이에 대응되는 라벨링 데이터(.json)를 준비하고 라벨링은 동일한 객체에서도 정상·비정상을 구분하여 라벨링하여 학습
∙같은 객체일지라도 정상 객체 및 비정상 객체 A가 다르게 탐지
∙학습:검증:시험 데이터셋은 랜덤하게 8:1:1로 분리하여 학습 및 유효성 검증을 수행하고 검증 방법은 Ground Truth와 예측된 모델 결과를 비교하여 mAP를 측정
∙데이터 일반화를 적용할 경우, mAP가 조금 떨어질 수 있지만, 데이터셋에 포함되지 않은 다른 환경의 데이터 적용 시 더 높은 정확도를 가질 수 있으며, overfitting 방지를 위해 데이터 일반화 적용을 권장- 서비스 활용 시나리오
∙시설물 객체 탐지 학습 모델을 활용을 통해 탐지된 객체의 이상현상을 감지하여, 철도 운영에서 발생할 수 있는 사고를 조기에 대응할 수 있도록 정보를 제공할 수 있음
- 철도 및 전차선 애자 현장 모니터링 영상을 학습된 모델에 적용하여 비정상 객체 데이터를 수집 가능
- 수집된 비정상 객체를 시각화 하여 현장 모니터링에 활용할 수 있음
- 동기화된 위치 데이터 또는 영상을 통해, 이상 현상이 감지된 위치를 파악하여 즉시 현장 출동이 가능함
- 히스토리 관리 및 모니터링을 통해 정확도가 낮게 나온 객체에 대한 데이터를 수집하고 모델을 업데이트하여, 지속적인 모델의 업데이트 가능[기타정보]
∙대표성 : 도시철도, 고속철도, 일반철도, 경천철 환경과 같이 철도 환경의 대부분의 영역을 포함하는 데이터셋 구성
∙독립성 : 볼트/너트 등 일반적인 환경에 촬영된 객체가 아닌, 철도환경에서 촬영된 객체들로만 데이터셋을 구성 -
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 바운딩박스 탐지 성능 Object Detection YOLO v5 mAP@IoU 0.75 80 % 87.41 % 2 세그멘테이션 탐지 성능 Object Detection Cascade Mask R-CNN mAP@IoU 0.75 70 % 83 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드[데이터 구성]
[데이터 구성] 구분 No 속성명 속성 및 내용 필수 1 metadata..camera_id 촬영 카메라 id 필수 2 metadata.file_name 원본 데이터명 선택 3 metadata.start 시작지점 선택 4 metadata.direction 방향 선택 5 metadata.length 원본영상 길이 선택 6 metadata.fps 원본영상 FPS 필수 7 metadata.width 원본영상 가로길이 필수 8 metadata.height 원본영상 세로길이 필수 9 metadata.aspect_ratio 원본영상 종횡비 필수 10 metadata.resolution 원본영상 해상도 필수 11 metadata.datetime 촬영날짜, 시간 필수 12 metadata.region_name 촬영지역 필수 13 metadata.weather 날씨 필수 14 metadata.format 파일형식 필수 15 metadata.type 원시 데이터 비디오/이미지 여부 선택 16 metadata.humidity 촬영 습도 선택 17 metadata.temperature 촬영 온도 선택 18 metadata.angle 촬영 각도 선택 19 metadata.illuminance 촬영 조도 [어노테이션 포맷]
[어노테이션 포맷] 구분 항목명 타입 필수여부 설명 비고 1 info Object Y 데이터셋정보 1-1 info.description String Y 데이터셋명칭 철도 선로 상태 인식 데이터 1-2 info.version String Y 데이터셋버전 ver1.0 1-3 info.date_created number Y 데이터셋생성년도 2022 2 categories Arr[Obj] Y 카테고리 정보 2-1 categories.supercategory String Y 카테고리 대분류 대분류 명 2-2 categories.id Number Y 카테고리 아이디 2-3 categories.name String Y 카테고리 소분류(이름) 세부 부품 영문명 2-4 categories.name_kor String Y 카테고리 소분류(이름) 세부 부품 한글명 3 image Arr[Obj] Y 이미지정보 3-1 image.id Number Y 이미지식별자 3-2 image.file_name String Y 이미지파일명 4 annotations Arr[Obj] Y 어노테이션정보 4-1 annotations[].id Number Y 어노테이션ID 4-2 annotations[].image_id Number Y 이미지ID 4-3 annotations[].category_id Number Y 카테고리ID 4-4 annotations[].bbox Arr[Num] N 객체 BoundingBox 정보 N[x, y, width,height] 4-5 annotations[].polygon Arr[Num] N 객체 Polygon 정보 [x1, y1, x2, y2, ...] 4-6 annotations[].status String Y 정/이상 여부 ‘normal’‘abnormal’ 4-7 annotations[].status_detail String N 이상상태 상세 ‘편마모’, ‘균열’,‘절손’ 등 5 metadata Obj Y 메타정보 5-1 metadata..camera_id Number Y 촬영 카메라 id 5-2 metadata.file_name String Y 원본 데이터명 5-3 metadata.start String N 시작지점 5-4 metadata.direction String N 방향 5-5 metadata.length String N 원본영상 길이 “11:22:33” 형식 5-6 metadata.fps Number N 원본영상 FPS 5-7 metadata.width Number Y 원본영상 가로길이 5-8 metadata.height Number Y 원본영상 세로길이 5-9 metadata.aspect_ratio String Y 원본영상 종횡비 5-10 metadata.resolution String Y 원본영상 해상도 5-11 metadata.datetime Number Y 촬영날짜, 시간 “2022-06-22 19:16:01” 5-12 metadata.region_name String Y 촬영지역 5-13 metadata.weather String Y 날씨 ‘맑음’, ‘흐림’, ‘비’, ‘눈’ 5-14 metadata.format String Y 파일형식 ‘mp4’,‘avi’,‘jpg’, ‘png’ 5-15 metadata.type String Y 원시 데이터 비디오/이미지 여부 ‘video’,‘image’ 5-16 metadata.humidity Number N 촬영 습도 5-17 metadata.temperature Number N 촬영 온도 5-18 metadata.angle Number N 촬영 각도 30, 60, 90 등 5-19 metadata.illuminance Number N 촬영 조도 (단위: lux) [데이터 포맷]
- 원시데이터 수집 기준
[데이터 포맷]- 원시데이터 수집 기준 장소 부위 시설물 환경조건 시나리오 도시철도 레일 레일 조도 상관없음/터널 특성상 날씨 상관 없음 • 편마모 : 레일마모 진행 구간 중 6.5mm~9mm에 대한 편마모 데이터취득
• 파상마모 : 곡선부 12개소 파상마모 발생구간(22년 4월 기준)에 대한 데이터 취득
• 절손(훼손) : 운행구간 데이터 수집에 대한 실제 구현이 어려운점을 감안하여 상황 연출 구현으로 데이터 취득
• 텅레일, 크로싱 절손 및 훼손에 대한 실제 구현이 어려운 점을 감안하여 상황 연출 구현으로 데이터 취득
• 텅레일 인위적 반 밀착상태 구현으로 대한 데이터 취득도유기 • 배유판의 인위적 파손으로 데이터 취득
• 도유량 인위적 과다 분사로 데이터 취득레일 이음매 용접부 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득 분기부 이음매판(절연이음매 포함) • 이음매 재료 인위적 파손, 이완으로 데이터 취득 볼트, 너트 • 인위적 파손, 이완으로 데이터 취득 체결장치 팬드롤 e-clip • 인위적 파손, 탈락으로 데이터 취득 절연블록 • 인위적 파손으로 데이터 취득 나사스파이크 • 인위적 파손, 탈락으로 데이터 취득 가드레일 볼트, 너트 • 인위적 파손, 탈락으로 데이터 취득 육각볼트(ALT-Ⅱ침목) • 인위적 파손, 탈락으로 데이터 취득 침목 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득 일반철도 레일 레일 주/야간
맑은날/우천시• 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득(텅레일 포함) 레일 이음매 이음매판 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득 볼트, 너트 • 인위적 파손, 탈락으로 데이터 취득 체결장치 팬드롤 e-clip • 인위적 파손, 탈락으로 데이터 취득 절연블록 • 인위적 파손으로 데이터 취득 나사스파이크 • 인위적 파손, 탈락으로 데이터 취득 침목 • 지상부 목침목 실제 손상 침목 데이터 취득
• PC 침목은 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득고속철도 레일 레일 주/야간 맑은날 또는 우천시 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득 레일 이음매 용접부 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득 체결장치 팬드롤 e-clip • 인위적 파손, 탈락으로 데이터 취득 fast clip • 인위적 파손, 탈락으로 데이터 취득 system300-1 • 인위적 파손, 탈락으로 데이터 취득 나사스파이크 • 인위적 파손, 탈락으로 데이터 취득 절연블록 • 인위적 파손, 탈락으로 데이터 취득 침목 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득(PC침목) 경전철 레일 레일 주/야간 맑은날/우천시 • 실제적인 손상이 어려워 상황 연출 구현으로 데이터 취득 체결장치 경전철 체결장치 • 볼트, 너트의 경우는 인위적 파손, 탈락으로 데이터 취득
• 상하패드의 경우 실제 손상 시설물 활용원천 데이터 예시 가공 데이터 예시 - 제이슨 형식
- 실제 예시
[데이터 포맷]- 실제 예시 가공 이미지(예시) 어노테이션 파일(예시) -
데이터셋 구축 담당자
수행기관(주관) : 대전교통공사
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 김중진 042-539-3934 [email protected] 사업 총괄 관리, 데이터 수집 장소 지원 및 대상 시설물 정의 수행기관(참여)
수행기관(참여) 기관명 담당업무 대전광역시 성과확산, 대내외 확산 및 과제 고도화 지원 ㈜데이터메이커 학습용 데이터 가공·검수 및 품질관리 명성알앤피㈜ 데이터 수집 환경 지원 ㈜알에프컴 데이터 수집환경 구축, 데이터 수집·정제 및 유효성 검증 환경 조성 한국과학기술원한국과학기술원 인공지능 모델 개발(세그멘테이션 기반), 데이터 유효성 검증 ㈜카이 인공지능 모델 개발(바운딩박스 기반), 데이터 유효성 검증 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 김중진 042-539-3934 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.