-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-22 데이터 최종 개방 1.0 2023-04-30 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-22 산출물 전체 공개 소개
·건설 모래 품질 관리를 위한 모래 입자크기 분류 및 모래 위험광물 분류 이미지 데이터 1. 모래 입자크기(조립률) 육안배율 RGB 이미지 데이터 506,764장 이상 2. 모래 위험광물(조암광물) 고배율 현미경 이미지 데이터 106,677장 이상
구축목적
·건축물의 안전을 확보하기 위하여 모래의 이미지 기반 AI학습을 통해 건설용으로 사용되는 모래의 품질을 신속하고 정확하게 예측할 수 있도록 인공지능 학습을 위한 이미지 데이터
-
메타데이터 구조표 데이터 영역 재난안전환경 데이터 유형 이미지 데이터 형식 PNG 데이터 출처 한국지질자원연구원과 기술이전 협약으로 획득한 전국 80개 지역 420개 모래 시료 육안배율 촬영 및 고배율 현미경 촬영 라벨링 유형 1. 모래 입자크기 분류: 클래스 분류(이미지) 2. 모래 위험광물 분류: 세그먼테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 골재자원 품질관리 서비스 데이터 구축년도/
데이터 구축량2022년/원천데이터 이미지(PNG): 613,441장 / 라벨링데이터(JSON): 613,441건 -
1. 데이터 구축 규모
데이터 구축 규모 데이터 구분 이미지 데이터 라벨링 데이터 원천데이터 포맷 라벨링데이터 포맷 모래 위험광물 분류 106,677장 106,677장 PNG JSON 2. 모래 입자크기 분류 506,764장 506,764장 PNG JSON 총합 613,441장 613,441장 PNG JSON
2. 데이터 분포
1) 모래 입자 크기 분류 데이터 분포데이터 분포 전체 수량 506,764개 분포 클래스 건수 비율 육상 280,374 55.33% 하천 203,670 40.19% 바다 10,720 2.12% 산림 7,200 1.42% 선별 4,800 0.95% 데이터 분포 전체 수량 506,764개 분포 클래스 건수 비율 안정 271,740 53.62% 위험 171,424 33.83% 불가 63,600 12.55% ■ 습윤별 모래 분포
습윤별 모래 분포 전체 수량 506,764개 분포 클래스 건수 비율 완전건조 169,179 33.38% 표면건조 169,107 33.37% 완전수분 168,478 33.25% ■ 조도별 모래 분포
조도별 모래 분포 전체 수량 506,764개 분포 클래스 건수 비율 4500룩스 126,692 25.00% 3000룩스 126,692 25.00% 8000룩스 126,691 25.00% 13000룩스 126,689 25.00% 2) 모래 위험광물 분류 데이터셋 분포
■ 수집 장소별 분포
수집 장소별 분포 전체 수량 106,677개 분포 클래스 건수 육상 60,856 하천 41,158 바다 2,078 산림 1,545 선별 1,040 ■ 광물 종류별 분포
광물 종류별 분포 전체 수량 563,430개(광물 수) 분포 클래스 건수 비율 석영 444,750 78.94% 장석 101,834 18.07% 흑운모 8,302 1.47% 각섬석 5,549 0.98% 혼합광물(기타) 2,735 0.49% 감람석 197 0.03% 황철석 63 0.01% ■ 이미지당 최소 인스턴스 수
이미지당 최소 인스턴스 수 전체 수량 563,430개 통계 최대 21개 평균 5.28개 최소 1개 ■ 조도별 모래 분포
조도별 모래 분포
106,677개 분포 클래스 건수 비율 9,000룩스 53,340 50.00% 20,000룩스 53,337 50.00% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드1. 모래 위험광물 분류 학습모델
모래 위험광물 분류 학습모델 구분 내 용 개발 목표 • 6대 위험광물(석영, 장석, 흑운모, 각섬석, 감람석, 황철석) 의 탐지 및 분류 개발 내용 •현미경으로 촬영한 각 위험광물들의 좌표값을 수집하여, Mask_Label제작 및 촬영된 이미지 데이터와 제작된 Mask-Label 학습 알고리즘 PspNet 알고리즘 선정 이유 ① 위험광물을 분류하는 객체기반 분류 작업에 적합한 Mask를 생성하는 인스턴스 분할 모델 ② 전체 이미지를 캡처하고 활용하여 객체 분할을 세분화 하도 록 설계됨 ③ 위험광물의 특징표현을 타 모델보다 빠르고 정확하게 구연 ④ End-to-End로 모델 훈련을 진행할 수 있어, 광물 분류를 가 장 효과적으로 수행 ⑤ Pyramid Pooling 모듈을 사용하여 다양한 크기의 객체를 인 식 및 여러 척도로 학습가능 1-1. 모래 위험광물 분류 학습모델 결과
모래 위험광물 분류 학습모델 결과 TEST 데이터 TASK 명 모델명 지표 결과값 10,668 위험 광물 탐지 성능 PSPNET mAP 90%이상 모래 위험광물 분류 학습모델 결과 결과값 원천데이터 객체검출 2. 모래 입자크기 분류 학습모델
모래 입자크기 분류 학습모델 구분 내 용 개발 목표 •모래 입자 크기 3단계 카테고리 분류 (불가,안정,위험) 개발 내용 •5대의 카메라를 이용 각각 다른 각도, 상황을 고려하여 다양한 상황에서 예측이 가능하도록 학습. 외부 날씨 환경(습윤 및 조도)변화를 고려하여 학습진행 알고리즘 ResNet 알고리즘 선정 이유 ① 이미지 분류 및 객체 감지 작업에서 좋은 결과를 도출하 는 심층 신경망 아키텍처 ② 본 모델은 Inception Architecture와 ResNet의 장점을 결 합한 보다 강력한 모델임 ③ 잔차 계층을 통합하여 프로세스 안정화와 과적합 위험을 줄일 수 있음 ④ 계산의 효율성을 중요시 하는 EffiNet보다 3단계 카테고리 분류 모델로 정확한 결과값을 도출하는 ResNet 선정 2-1. 모래 입자크기 분류 학습모델 결과
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 모래품질 등급 분류 성능 Image Classification Inception ResNet Accuracy 90 % 96.16 % 2 위험 광물 탐지 성능 Object Detection pspnet mAP@IoU 0.5 85 % 93.86 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 소개
데이터 소개 구분 세부 내역 모래 위험광물 분류 •6대 위험광물(석영, 장석, 흑운모, 감람석, 각섬석, 황철석) 고배율 이미지 데이터 2. 모래 입자크기 분류 • 모래 입자크기 분류(조립률) 3단계(위험, 안정, 불가) 카테고리 분류 육안배율 이미지 데이터 건설용 모래는‘어디서’, ‘어떻게’ 만들었는지에 대한 관리가 어려워 건설현장에서 사용되는 불법골재 유통량이 증가하고 있음. 이로 인한 골 재 품질문제를 해결하고자 건설용 모래에 대한 신속하고 정확한 원산지 추적 및 골재의 품질을 확인할 수 있는 체계 구축이 필요함.
모래의 이미지기반 AI 학습을 통해 건설용으로 사용되는 모래의 품질을 신속하고 정확하게 예측할 수 있도록 인공지능 학습용 데이터를 구축.
<기본개념 : 모래에 대한 품질 진단 및 평가를 위한 데이터 구축>
2. 데이터 포맷
데이터 포맷 구분 원천데이터 라벨링데이터 모래 입자크기 분류 PNG JSON 2. 모래 위험광물 분류 PNG JSON 3. 원천데이터 예시
원천데이터 예시 구분 원천데이터 예시 1. 모래 입자크기 분류 2. 모래 위험광물 분류 4. 라벨링 작업 예시
라벨링 작업 예시 구분 라벨링 작업 예시 1. 모래 입자 클래스 분류 2. 모래 위험광물 세그먼테이션 5. 라벨링데이터 예시
라벨링데이터 예시 모래 입자크기 분류 모래 위험광물 분류 6. 어노테이션 포맷
6-1. 모래 위험광물 분포모래 위험광물 분포 속성명 type 필수여부 작성내역 ID number 필수 img_name string 필수 img_size number 필수 Dataset.type number 필수 1: 이미지 Dataset.number number 필수 1-442 Dataset.year number 1998~2021 Dataset.address1 string 위경도 Dataset.address2 string 시군구(읍면동) Dataset.sort string 필수 하천, 육상, 바다, 산림, 선별 Dataset.camera string 필수 SZ61TR Dataset.lighting string 필수 (2단계) 9,000룩스, 20,000룩스 shapes name string 필수 POLYGONS type string 필수 조암 광물 6종(석영, 장석, 흑운모, 각섬석, 감람석, 황철석) minDotCount number maxDotCount number annotations[].polygons.id string 필수 annotations[].polygons.x number 필수 annotations[].polygons.y number 필수 annotations[].polygons.x number 필수 annotations[].polygons.y number 필수 ... number 필수 6-2. 모래 입자크기 분류
모래 입자크기 분류 속성명 항목 설명 type 필수여부 작성내역 Dataset.identifier 데이터셋 식별자 string 필수 IMG_COMPONENT_01 Dataset.name 데이터셋 이름 string 필수 모래 이미지 분류를 위한 학습용 데이터셋 Dataset.src_path 데이터셋 폴더 위치 string 필수 /dataSet/image/ Dataset.label_path 데이터셋 레이블 폴더 위치 string 필수 /dataSet/json/ Dataset.type 데이터셋 타입 number 필수 1: 이미지 Dataset.number 촬영번호 number 필수 1-442 Dataset.year 채취연도 number 1998~2021 Dataset.address1 채취위치_1 string 위경도 Dataset.address2 채취위치_2 string 시군구(읍면동) Dataset.sort 모래종류 string 필수 하천, 육상, 바다, 산림, 선별 Dataset.category 조립률 number 필수 2.3~3.1 이내 ( 7단계, 3그룹) Dataset.result 조립률 판정 string 필수 판정(불가, 안정, 위험) Dataset.quality1 품질정보1(밀도) number 2.5 이상 Dataset.quality2 품질정보2(흡수율) number 3% 이하 (흡수율이 높으면 콘크리트 물비 증가 → 강도저하 및 균열 문제 발생) Dataset.quality3 품질정보3(안전성) number 5% 이하 (외부 화학적, 기상적 환경영향성 → 내구성 문제 발생) Dataset.quality4 품질정보4(잔입자 통과량) number 잔입자량이 많으면 콘크리트 물비 증가 → 강도저하 및 균열 문제 발생) Dataset.camera 카메라 종류 string 필수 AFDM101 Dataset.angel 촬영 각도 string 필수 90도, 88도, 85도, 80도, 75도 등 5단계(측정하는 사람에 따라 기울기 감안) Dataset.moisture 수분 흡수량 string 필수 1:완전건조 2:표면건조 3:완전수분 Dataset.lighting 조명 단계 string 필수 (4단계)3,000룩스, 4,500룩스,8,000룩스, 13,000룩스 -
데이터셋 구축 담당자
수행기관(주관) : ㈜에스티엔
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 조경욱 070-8831-9984 [email protected] 데이터 수집, AI 모델 수행기관(참여)
수행기관(참여) 기관명 담당업무 데이터헌트(주) 데이터 가공 (재)한국골재산업연구원 데이터 수집, 데이터 검수, 홍보 어니컴(주) 데이터 검수
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.