-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-10-25 원천데이터 및 라벨링데이터 추가 개방 1.0 2022-07-29 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2022-12-19 데이터 설명서 업데이트 2022-10-20 신규 샘플데이터 개방 2022-07-29 콘텐츠 최초 등록 소개
서울시 내 25개구 20년 이상 된 단독주택, 다세대주택, 연립주택, 아파트, 비주거용주택 총 5가지의 주택 유형에 대하여 총 7가지의 노후화 현상(균열, 박리, 철근 노출 등)을 일반 및 열화상 촬영을 동시 취득하여 외부 노후화 현상에 따른 내부(열화상) 현상을 비교 데이터로 데이터셋을 구성하여 노후 현상을 수치화 하여 건축물에 대한 위험도를 판단할 수 있는 데이터를 확보
구축목적
노후 주택의 균열, 박리, 철근 노출, 노후화 현상 등을 판단하고 수치화하여 기록함으로써 해당 건축물에 대한 위험도를 판단할 수 있는 데이터를 구축
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 JPG 데이터 출처 서울시 25개구 소재 20년 이상 노후 주택 1,350건물 이상 직접 영상 촬영 라벨링 유형 바운딩박스, 폴리곤 라벨링 형식 JSON 데이터 활용 서비스 노후 건축물의 노후화 현상 확인 및 위험도를 진단하여 구조물의 유지보수 계획에 도움을 주는 서비스 데이터 구축년도/
데이터 구축량2021년/813,908장 -
1. 데이터 구축 규모
1. 데이터 구축 규모 점검유형 분류 데이터(장) 데이터 총 규모 구조물(균열) RGB 59,504 119,008 열화상 59,504 구조물(박리,박락) RGB 59,942 119,884 열화상 59,942 구조물(철근노출) RGB 59,895 119,790 열화상 59,895 대지 RGB 56,247 112,494 열화상 56,247 마감 RGB 57,140 114,280 열화상 57,140 생활 RGB 56,171 112,342 열화상 56,171 창호 RGB 58,055 116,110 열화상 58,055 데이터총량 813,908 2. 데이터 분포
- 점검 유형 데이터 분포
점검 유형 데이터 분포 점검유형 Class 데이터 총량(장) 분류 건수(장) 총합(장) 구조물(균열) 우수 RGB 5,993 11,986 119,008 14.62% 열화상 5,993 보통 RGB 7,071 14,142 열화상 7,071 불량 RGB 46,440 92,880 열화상 46,440 구조물
(박리,박락)우수 RGB 5,780 11,560 119,884 14.73% 열화상 5,780 보통 RGB 8,234 16,468 열화상 8,234 불량 RGB 45,928 91,856 열화상 45,928 구조물
(철근노출)우수 RGB 6,037 12,074 119,790 14.72% 열화상 6,037 보통 RGB 6,301 12,602 열화상 6,301 불량 RGB 47,557 95,114 열화상 47,557 대지 우수 RGB 5,714 11,428 112,494 13.82% 열화상 5,714 보통 RGB 9,150 18,300 열화상 9,150 불량 RGB 41,383 82,766 열화상 41,383 마감 우수 RGB 5,516 11,032 114,280 14.04% 열화상 5,516 보통 RGB 13,749 27,498 열화상 13,749 불량 RGB 37,875 75,750 열화상 37,875 생활 우수 RGB 6,246 12,492 112,342 14.27% 열화상 6,246 보통 RGB 10,250 20,500 열화상 10,250 불량 RGB 39,675 79,350 열화상 39,675 창호 우수 RGB 6,215 12,430 116,110 14.04% 열화상 6,215 보통 RGB 13,493 26,986 열화상 13,493 불량 RGB 38,347 76,694 열화상 38,347 데이터총량 813,908
- 주택 유형 데이터 분포
주택 유형 데이터 분포 주택유형 Class 데이터 총량 다세대주택 우수 29,736 288,284 35.40% 보통 56,594 불량 201,954 단독주택 우수 23,756 259,050 31.80% 보통 35,348 불량 199,946 아파트 우수 8,842 93,778 11.50% 보통 11,124 불량 73,812 비주거용주택 우수 11,292 85,944 10.60% 보통 8,330 불량 66,322 연립주택 우수 9,376 86,852 10.70% 보통 25,100 불량 52,376 데이터총량 813,908
- Class별 데이터 상세 분포
Class별 데이터 상세 분포 주택유형 점검유형 우수 보통 불량 총량 다세대주택 구조물(균열) 3,910 4,708 33,896 42,514 구조물(박리,박락) 4,002 6,144 31,076 41,222 구조물(철근노출) 4,460 3,100 31,452 39,012 대지 4,032 8,846 30,688 43,566 마감 3,898 14,422 23,188 41,508 생활 4,658 8,802 25,108 38,568 창호 4,776 10,572 26,546 41,894 총량 29,736 56,594 201,954 288,284 단독주택 구조물(균열) 3,698 5,412 30,948 40,058 구조물(박리,박락) 3,792 6,136 29,470 39,398 구조물(철근노출) 3,188 4,800 32,100 40,088 대지 3,604 5,692 29,426 38,722 마감 3,710 5,256 29,018 37,984 생활 1,884 2,724 23,998 28,606 창호 3,880 5,328 24,986 34,194 총량 23,756 35,348 199,946 259,050 아파트 구조물(균열) 1,338 2,376 9,174 12,888 구조물(박리,박락) 1,394 1,374 14,440 17,208 구조물(철근노출) 1,368 1,842 13,586 16,796 대지 1,232 1,230 6,952 9,414 마감 1,168 1,160 9,976 12,304 생활 1,030 1,620 8,312 10,962 창호 1,312 1,522 11,372 14,206 총량 8,842 11,124 73,812 93,778 비주거용주택 구조물(균열) 1,438 694 9,362 11,494 구조물(박리,박락) 1,102 870 7,980 9,952 구조물(철근노출) 1,706 1,100 9,530 12,336 대지 1,366 756 6,836 8,958 마감 1,032 2,250 8,036 11,318 생활 3,610 822 18,526 22,958 창호 1,038 1,838 6,052 8,928 총량 11,292 8,330 66,322 85,944 연립주택 구조물(균열) 1,602 952 9,500 12,054 구조물(박리,박락) 1,270 1,944 8,890 12,104 구조물(철근노출) 1,352 1,760 8,446 11,558 대지 1,194 1,776 8,864 11,834 마감 1,224 4,410 5,532 11,166 생활 1,310 6,532 3,406 11,248 창호 1,424 7,726 7,738 16,888 총량 9,376 25,100 52,376 86,852
- 점검 유형 데이터 분포
-
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드- 모델 학습
: 이미지 내에서의 각 결함에 대하여 위치정보를 저장하는 바운딩 박스 어노테이션과, 이미지 내에서의 마스크 영역을 따라서 폴리곤 어노테이션 두 가지로 나뉘어 있음. 본 사업에서 바운딩 박스 학습 모델은, 객체 인식 알고리즘으로써 널리 사용되고, 우수한 성능을 내는 SSD (Single Shot MultiBox Detector)를 사용하며, 폴리곤 학습모델은 Mask R-CNN 모델을 사용사용모델 사용모델 내용 SSD Mask
R-CNN - 전체 81만장 이상의 데이터를 구축해야 하므로 각 train, val, test의 비율은 8:1:1로 구성하여 test에 81,393장의 image 사용
모델 학습 구분 학습(Train) 검증(Validation) 시험(Test) 개요 - 해당하는 클래스와 시나리오 학습
- 학습용 서버를 활용하여 각 모델 학습 진행- 학습 도중 모델 성능 평가 및 비교
- 각 클래스 별 AP, mAP 수치 확인- 학습에서 사용되지 않은 이미지를 학습된 가중치로 테스트
- 성능지표 확인필요 데이터 - 많을수록 좋음(Overfitting 유의)
- 학습할 클래스를 고루 분포시켜야 함10%(81,393장) 10%(81,393장) - 서비스 개발 시나리오
- 시뮬레이션 기반 이미지 학습을 통한 주택 노후화 판단
- 객체 인식 데이터셋 중 균열에 대한 이미지를 CFD (전산유체역학) 시뮬레이션을 통해 노후화 등급 1부터 10까지의 새로운 이미지를 생성
- 입자기반 시뮬레이션 NFLOW를 기반으로 해석
- 균열 부분에 대한 WSS (Wall Sheer Stress), Velocity 등의 factor 분석
- 각 level에 대한 해석 이미지 도출
- 시뮬레이션 기반 이미지 학습을 통한 주택 노후화 판단
- 모델 학습
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 주택 노후화 등급 예측 모델 Image Classification EfficientNet-b0 Accuracy 90 % 99 % 2 주택 노후화 등급 예측 모델 Image Classification EfficientNet-b0 F1-Score 0.9 점 0.99 점 3 객체인식 모델 (바운딩박스) Object Detection SSD (바운딩박스) mAP 80 % 90 % 4 객체인식 모델 (바운딩박스) Object Detection SSD (바운딩박스) mIoU 85 % 85 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터셋 구성
1. 데이터셋 구성 데이터
유형주택 유형 점검 유형 노후화 규모 파일 해상도 등급 포맷 RGB 단독주택 /
다세대주택 /
연립주택 /
아파트 /
비주거용 주택구조물(균열) 우수,
보통,
불량406,954장 이미지-JPG
라벨링-JSON1440*1080 구조물(박리, 박락) 구조물(철근 노출) 대지 마감 창호 생활 열화상 단독주택 /
다세대주택 /
연립주택 /
아파트 /
비주거용 주택구조물(균열) 우수,
보통,
불량406,954장 이미지-JPG
라벨링-JSON384*288 구조물(박리, 박락) 구조물(철근 노출) 대지 마감 창호 생활 2. 라벨링데이터 구성
2. 라벨링데이터 구성 분류 속성명 속성 설명 데이터 필수 여부 예시 타입 Raw
data
Info.Raw data ID 파일명 string Y S-210701_A_B_1_R_0001 location 촬영장소 ID string Y 1 Structure 주택유형 string Y A acknowledge 승인년도 string Y 1975년.... copyrighter ㈜미디어그룹사람과숲 string Y ㈜미디어그룹사람과숲 resolution 해상도 array Y 14,401,080 date 촬영일자(yyyy-mm-dd) string Y 2021-06-01 Time 촬영시간 string Y 16:00:02 Inspection_distance 촬영거리 string Y 이미지가 촬영된 거리 (레이저 거리측정기 활용) Season 계절 string Y spring Temperature 기온 string Y 15 Equipment 촬영장비 string Y 일반, 열화상카메라 등 FPS 초당 프레임수 Integer Y 30 F-Stop 조리개 수치 number Y 11 exposure time 노출시간 number Y 1 ISO ID(Level) 감도 Integer Y 100 File extension 파일 확장자 string Y mp4 Source
data
info.Source data ID 이미지 파일명 string Y S-210701_A_B_1_R_0001 Large ID 대분류 ID string Y A Middle ID 중분류 ID string Y B Shooting ID 촬영 ID stirng Y R File extension 파일 확장자 string Y jpg Learning
data
info.Path 이미지 폴더명 string Y S-210701_A_B_1_R_0001 json data ID Json 파일명 string Y S-210701_A_B_1_R_0001 Class ID 분류 ID string Y 1 type 어노테이션 종류 string Y polygon, bbox type 값 [x,y,x,y...] number Y [593,671,1040,795.....] File extension 파일 확장자 string Y json 3. 라벨링데이터 실제 예시
3. 라벨링데이터 실제 예시 3. 라벨링데이터 실제 예시 {
"Raw_Data_Info": {
"Acknowledge": "1983",
"Copyrighter": "㈜미디어그룹사람과숲",
"Date": "2021-08-26",
"Equipment": "일반",
"Exposure_Time": "0.0006510417",
"F_Stop": "227/100",
"File_Extension": "mp4",
"FPS": "30",
"Inspection_Distance": "148",
"ISO_ID": "50",
"Location": "895045-19",
"Raw_Data_ID": "S-210826_M_P_3_R_66166895045",
"Resolution": [1440, 1080],
"Season": "summer",
"Structure": "M",
"Temperature": "30",
"Time": "13:22:24"
},
"Source_Data_Info": {
"File_Extension": "jpg",
"Large_ID": "M",
"Middle_ID": "P",
"Shooting_ID": "R",
"Source_Data_ID": "S-210826_M_P_3_R_66166895045-19"
},
"Learning_Data_Info": {
"File_Extension": "json",
"Json_Data_ID": "S-210826_M_P_3_R_66166895045-19",
"Annotations": [
{
"Class_ID": "3",
"Type": "polygon",
"polygon": [8,811,33,813,52,815,58,816,60,819,64,817,73,815,82,813,88,814,95, 815,101,814,109,808,111,805,117,800,122,797,122,794,128,791,134,789,141,787,149,786,157,786,164,784,173,779,185,776,196,773,206,771,214,769,222,769,226,767,232,768,237,769,242,770,248,769,252,768,258,767,263,767,243,781,241,783,238,781,236,782,230,797,223,813,218,823,216,827,212,829,213,832,213,842,173,851,174,843,176,837,177,829,177,825,171,821,168,819,166,815,157,814,151,813,142,813,128,813,117,812,112,813,108,818,105,822,99,825,80,830,79,825,76,823,64,830,51,838,47,835,45,832,39,833,32,835,29,835,24,830,20,827,18,823,12,821,8,818]
},
{
"Class_ID": "3",
"Type": "polygon",
"polygon": [265,767,267,764,280,763,287,759,299,757,309,754,314,752,320,753, 329,752,335,748,341,744,349,741,353,740,359,740,365,741,371,741,365,748,361,762,359,770,357,774,353,782,351,787,351,792,348,796,346,801,340,811,336,817,334,823,334,825,329,828,322,828,317,824,308,825,303,825,299,825,301,815,295,815,288,822,284,825,279,823,276,821,276,815,276,808,277,803,280,805,283,808,286,806,287,803,287,799,287,796,284,789,281,786,277,781,272,773]
},
{
"Class_ID": "3",
"Type": "polygon",
"polygon": [168,952,170,948,176,949,182,945,194,940,199,942,209,942,221,938, 225,934,227,930,229,927,239,923,239,928,248,924,252,918,259,913,264,912,270,914,274,916,287,917,294,914,300,912,305,909,310,905,315,899,316,894,324,889,335,891,345,891,351,891,360,895,367,905,371,911,374,913,379,913,382,916,390,915,391,924,400,934,406,943,408,949,404,956,403,957,388,949,376,947,366,949,355,952,349,956,349,976,347,984,350,992,346,992,343,1001,341,1009,328,1006,38,999,328,994,330,987,327,982,321,987,316,989,313,990,318,997,314,999,310,993,301,994,294,993,297,985,301,974,303,966,303,956,307,947,312,940,316,936,321,935,323,933,321,929,310,929,300,931,286,932,269,937,257,939,237,942,232,944,225,946,210,947,202,948,197,950,186,952]
}
]
}
} -
데이터셋 구축 담당자
수행기관(주관) : ㈜미디어그룹사람과숲
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 성낙춘 02-830-8583 [email protected] · 사업총괄 · 데이터 품질 수행기관(참여)
수행기관(참여) 기관명 담당업무 에이치씨아이플러스(주) · 데이터 수집
· 데이터 정제㈜인피닉 · 데이터 가공 이에이트 주식회사 · 알고리즘 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 성낙춘 02-830-8583 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.