마스크 착용 한국인 안면 이미지 데이터
- 분야영상이미지
- 유형 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.2 2023-05-24 라벨링데이터 수정 1.1 2023-05-22 라벨링데이터 수정 1.0 2022-07-14 데이터 최초 개방 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-11-22 데이터 설명서 및 세부데이터 내용 수정 2023-02-21 담당자 변경 2022-11-23 데이터설명서 수정 2022-10-13 신규 샘플데이터 개방 2022-07-14 콘텐츠 최초 등록 소개
- 마스크 착용이 일반화된 상황에서 마스크 착용 시에도 활용 가능한 얼굴 인식 시스템 개발을 위해서 외국인 마스크 착용 안면 이미지 데이터보다 상대적으로 수가 부족한 한국인 마스크 착용 안면 데이터 구축 - 마스크에 가려진 안면 모습의 추정, 안면 생체 인식 시스템 등 얼굴 인식과 관련된 다양한 분야에서 활용을 목표
구축목적
- 마스크를 착용한 한국인 안면에 대한 안면 인식 시스템의 정확도 제고 - 제한적인 안면 특징점(마스크로 가려진 부분을 제외한 안면 특징점)만으로 안면 인식을 통한 신원 인증 - 얼굴인식기술,가려진 얼굴 추정 인공지능 기술, CCTV 보안 등 기술 개발에 활용
-
메타데이터 구조표 데이터 영역 영상이미지 데이터 유형 이미지 데이터 형식 JPG 데이터 출처 자체 수집 라벨링 유형 키포인트(이미지) 라벨링 형식 JSON 데이터 활용 서비스 얼굴 인식 기술, 가려진 얼굴 추정 인공지능 기술, CCTV 보안 등 기술개발 데이터 구축년도/
데이터 구축량2021년/1,058,000건 -
1. 데이터 구축 규모
1. 데이터 구축 규모 구분 상세 형식 수량 원천 이미지 스튜디오 촬영 JPG 378,000 실제 상황 – 직접 촬영 JPG 518,000 실제 상황 – 크라우드 소싱 JPG 162,000 합계 1,058,000 안면 랜드마크 라벨링 데이터 JSON 1,058,000 촬영 메타 정보 JSON 1,058,000 2. 데이터 분포
2. 데이터 분포 항목 조건구분 비율(%) 성별 남자 50.00% 여자 50.00% 총계 100.0% ( 총 1,058,000건) 연령 60세 이상 30.00% (스튜디오 기반) 30세 이상 59세 이하 40.00% 30세 이하 30.00% 총계 100.0% (총 378,000건) 연령 60세 이상 28.50% (실제 상황 기반) 30세 이상 59세 이하 49.00% 30세 이하 22.50% 총계 100.0% (총 680,000건) 마스크 착용 상태 정상 착용 41.40% 부분 착용 41.40% 미착용 17.20% 총계 100.0% (총 1,058,000건) 촬영 환경 분포 스튜디오 35.70% 실제상황(직접촬영-실내) 12.60% 실제상황(직접촬영-실외) 36.40% 실제상황(크라우드소싱) 15.30% 총계 100.0% (총 1,058,000건) -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드□ 활용 모델
1. RGB 기반 마스크 안면 인식 AI 모델
- 일반적인 얼굴 분류 환경에서는 ArcFace 기반 메트릭 러닝 구조를 사용하는 것이 정확도가 높으므로 triplet loss 기반의 네트워크를 후보 모델로 선정하고 ArcFace 기반 모델을 기본 모델로 선택함
- 하나의 클래스에는 동일인에 대한 마스크 착용 이미지, 마스크 미착용 이미지, 마스크 부분착용 이미지가 포함됨. 학습 종료 후 테스트 시에는 각 이미지를 네트워크를 통과시켜 추출한 특징 값을 서로 비교하여 그 거리 관계로 동일인 여부를 결정함
- 테스트셋 데이터에서 랜덤하게 동일인 pair와 다른 사람 pair를 1:1로 추출한 후 모델에 입력하여 동일인 여부를 판단하도록 함. 랜덤하게 추출하여 동일인 1,000쌍, 다른 사람 1,000쌍으로 구성된 2,000쌍에 대한 정확도를 측정하는 실험을 100회 반복하여 평균 정확도를 모델의 성능치로 정의함
2. RGB 이미지 기반 마스크 안면 복원 AI 모델
- 학습시 사용하는 구조는 얼굴 분석 AI모델의 결과값을 받아 이미지를 생성하는 모델과 생성된 이미지와 실제 이미지를 입력받아 생성 여부를 판단하는 판단 모델로 구성됨. 판단 모델은 학습 과정에서 생성 모델의 학습 방향을 가이드 하기 위해 사용됨. 학습이 끝난 후 복원을 위해 사용하는 경우에는 판단 모델은 사용하지 않고 생성 모델만 사용하여 복원 이미지 생성
- Test 이미지의 마스크 이미지를 모두 복원한 복원 셋과 테스트 이미지의 마스크 미 착용 이미지 셋 사이의 FID를 계산함. 마스크 이미지와 실제 이미지가 pair로 구축된 데이터를 이용함
3. IR 이미지 기반 마스크 안면 검출 AI 모델
- 얼굴 검출은 얼굴 이미지 분석의 필수 전처리 단계이므로, 높은 정확도를 보이는 RetinaFace를 모델로 채택함
- RetinaFace는 single-stage face detector이며, 일반적으로 face detection에서 사용되는 classification loss와 box regression loss만 쓰는 것이 아닌 facial landmark regression loss를 추가한 형태의 multi-task loss를 사용함
- Facial landmark 좌표로는 눈 중앙, 코끝, 입꼬리 양쪽 끝에 해당하는 5쌍의 좌표를 사용함
- RetinaFace는 Feature Pyramid Network (FPN)을 사용하여 영상 속 다양한 크기의 얼굴을 검출할 수 있도록 함
□ 서비스 활용 시나리오
- 마스크 착용 안면 인식 성능이 확보된 자동출입국 (Automated Boder Control) 시스템 공급: 변이 바이러스 상황에서 방역 효과 제고
- 다중이용 시설의 비접촉 출입통제장치: 감염병 예방을 위해서 마스크를 착용한 상태로 신원 인식을 처리함으로써 고객의 사용자 편의성 증대 및 방역 효과 극대화
- 고해상도 스마트 CCTV를 이용한 복면 착용 범죄자 신원 확인 솔루션 공급: 제한적인 얼굴 부위만으로 신원 확인 가능. 범죄 및 테러 예방을 위한 필수 신원 인식 시스템
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 안면인식 정확도 Face Recognition ArcFace Accuracy 96 % 99.31 % 2 안면검출 정확도 Face Recognition RetinaFace AP 90 % 98.76 % 3 안면복원 정확도 Reconstruction StyleGAN2 FID 25 점 7.94 점
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드1. 데이터 구축
- (수집) 스튜디오, 실제 상황 기반 촬영 환경에서 마스크 착용 여부, 거리, 카메라 각도 등 다양한 촬영 조건 하에서 촬영대상자 각각 1,000명, 4,000명 대상으로 안면 데이터 수집
- (정제) 중복 데이터 제거, 개인 정보 사용 허가를 득한 촬영 대상자 외의 안면 등 개인 정보 비식별화 작업 등 학습 데이터로 적합한 원천 이미지 선별
- (가공) iBUG 300-W 데이터셋에서 차용한 안면 랜드마크 68점을 기준으로, 촬영 대상자 안면에 키포인트 라벨링
- (검수) 라벨링 데이터의 JSON 구문 정확도, 키포인트 정확도, 모델을 통한 데이터 유효성 검증 등을 통해 데이터 수집, 정제, 라벨링을 최적화함
2. 촬영 대상자 인당 촬영 이미지 수
2. 촬영 대상자 인당 촬영 이미지 수 촬영 환경 인당 상세 내용 촬영이미지수 스튜디오 촬영 기반 데이터 (1,000명) 378장 마스크 미착용 54장 : 카메라 2종 x 각도 9개 x 거리 3개 마스크 부분 착용 162장 : 카메라 2종 x 각도 9개 x 거리 3개 x 마스크 색깔 3종 마스크 착용 162장 : 카메라 2종 x 각도 9개 x 거리 3개 x 마스크 색깔 3종 실제 상황 기반 데이터(4,000명) 직접 촬영 실내환경 133장 마스크 미착용 18장 : 카메라 각도 2개 x 카메라당 이미지 9장 (1,000명) 마스크 부분 착용 54장 : 카메라 각도 2개 x 마스크 색깔 3종 x 카메라당 이미지 9장 마스크 착용 54장 : 카메라 각도 2개 x 마스크 색깔 3종 x 카메라당 이미지 9장 스마트폰 기반 7장(미착용 1장 포함) : 마스크 착용 유형 2종 x 마스크 색깔 3종 실외환경 385장 마스크 미착용 54장 : 카메라 각도 6개 x 카메라당 이미지 9장 마스크 부분 착용 162장 : 카메라 각도 6개 x 마스크 색깔 3종 x 카메라당 이미지 9장 마스크 착용 162장 : 카메라 각도 6개 x 마스크 색깔 3종 x 카메라당 이미지 9장 스마트폰 기반 7장(미착용 1장 포함) : 마스크 착용 유형 2종 x 마스크 색깔 3종 크라우드소싱 수집 54장 눈뜬 상태 마스크 착용 9장, 부분착용 9장, 미착용 9장 (3,000명) 눈감은 상태 마스크 착용 9장, 부분착용 9장, 미착용 9장 * 실제 상황 기반 데이터 – 직접 촬영의 경우, 스튜디오 촬영 모델 1,000명과 동일한 모델로 촬영됨. 아울러, 이미지 검수 결과에 따라 인당 촬영이미지 수가 1~2장 내외 오차가 발생할 수도 있음
3. 대표도면
4. 라벨링데이터 구성
- 얼굴 랜드마크 좌표값 JSON 항목
얼굴 랜드마크 좌표값 JSON 항목 구분 항목명 타입 필수여부 설명 범위 1 additional object Information 1.1 s3Url string 원본이미지 저장경로 1.2 imageName string Y 원본이미지 파일명 2 figure array 2.1 id number Y 해당 얼굴부위에 대한 id값 0~100 2.2 type string Y 형태 관련 좌표값임을 명시 shape 2.3 label string Y 해당 라벨링부위 fline, leyebrow, reyebrow, nosebridge, nosebottom, leye, reye, mouthouterline,mouthinnerline 명시 2.4 attributes array 2.5 shape object 2.5.1 type string Y 라벨링 형태 polyline, polygon 2.5.2 coordinates array └$value$ number Y 해당 얼굴부위에 대한 안면랜드마크 (x.y) 좌표값 3 attributes array - 메타정보 JSON 항목
메타정보 JSON 항목 구분 항목명 타입 필수여부 설명 범위 비고 1 id string N 이미지 식별명칭 크라우드소싱 미해당 2 groundwork string Y 촬영환경 REI,REO,STD, CRS 3 person_id string N 촬영인원 고유번호 크라우드소싱 미해당 4 gender string Y 성별 M,F 5 age string Y 연령 6 glasses_yn string Y 안경 착용 유무 0,1 크라우드소싱 미해당 7 camera_type string Y 촬영장비 IR,RGB,SP 8 camera_degree_type string Y 촬영각도 1~9 크라우드소싱 미해당 9 camera_up_down_degree string Y 촬영상하각도 45,0,-45 10 camera_left_right_degree string Y 촬영좌우각도 45,0,-45 11 distance_type string Y 촬영거리 0000,0100,0300, 800 12 camera_shot_seq string N 촬영 시퀀스 1~9 크라우드소싱 미해당 13 shot_env string Y 촬영 상세환경 실제 실내 촬영, 크라우드소싱 미해당 실제 실외 촬영, 실제 실내 핸드폰, 실제 실외 핸드폰, 스튜디오 1M, 스튜디오 3M, 스튜디오 8M 14 indoor_oudoor string Y 실내외 여부 Outdoor,Indoor, 크라우드소싱 미해당 Studio, Crowdsourcing 15 mask_yn string Y 마스크 착용 유무 0,1 크라우드소싱 미해당 16 mask_use_type string Y 마스크 착용형태 01,02,03 17 mask_shape string Y 마스크 모양 00,2D,3D 크라우드소싱 미해당 18 mask_color string Y 마스크 색상 0,1,2,3 크라우드소싱 미해당 19 file_dir string N 파일경로 크라우드소싱 미해당 20 file_name string N 파일명 크라우드소싱 미해당 5. 라벨링데이터 실제예시
- 얼굴 랜드마크 좌표값 JSON
- 메타정보 JSON
-
데이터셋 구축 담당자
수행기관(주관) : ㈜씨유박스
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 박준석 02-6277-7835 [email protected] 데이터 설계, 데이터셋 품질 관리, 학습모델 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 에스큐아이소프트(주) 데이터 수집 및 정제(스튜디오 촬영, 실제상황 기반-실내외 직접 촬영) ㈜딥핑소스 데이터 수집 및 정제(실제상황 기반-크라우드소싱 촬영), 가공, 검수, 저작도구 개발 한국과학기술연구원(KIST) 데이터 설계 ㈜이스트소프트 학습모델 개발 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 한상훈 02-6277-7835 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.