AI-Hub

NEW 음성 기반 3D 발화 얼굴 데이터

분야영상이미지
유형 3D

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,072 다운로드 : 25 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-10-15	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-11-12	데이터 설명서 수정
2024-06-28	산출물 공개	Beta Version

소개

- 한국어의 음운학적 특성이 고려된 5,000문장에 대한 전문 발화자의 발화 영상을 기반으로 한, 한국어 음성 기반의 3D 발화 얼굴 데이터

구축목적

- 3D 메타휴먼의 한국어 기반 자연스러운 발화 얼굴 영상 생성을 위하여, 수집한 한국어 발화 영상 데이터를 바탕으로 오디오-3D 데이터 구축

메타데이터 구조표
데이터 영역	영상이미지	데이터 유형	3D
데이터 형식	원천데이터: WAV, PNG	데이터 출처	자체 수집
라벨링 유형	3D 데이터 합성(얼굴 랜드마크)	라벨링 형식	3D 메쉬: OBJ 메타데이터(랜드마크 포함): JSON
데이터 활용 서비스	한국어 음성을 입력하면 AI를 기반으로 3D 메타휴먼의 발화 얼굴을 생성하는 서비스	데이터 구축년도/ 데이터 구축량	2023년/오디오 5,000건, 정면 2D 이미지 578,242건, 3D 메쉬 578,242건, 메타데이터 578,242건, 텍스쳐 10건

- 데이터 구축 규모

데이터 구축 규모
구분	데이터 종류	총 구축 수량(개)
원천데이터	오디오	5,000
원천데이터	정면 2D 이미지	578,242
라벨링데이터	3D 메쉬	578,242
	메타 데이터	578,242
	텍스쳐	10

- 데이터 분포
- 발화 모델 분포

발화 모델 분포
성별	남	여
연령	남	여
20대	2	3
30대	3	2
계	10

- 발화 문장 분포

발화 문장 분포

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 활용 모델
- CodeTalker
- speech driven 3D facial animation 분야의 SOTA 모델.

- 학습
   - 사용 모델은 CodeTalker이며, speech driven 3D facial animation 분야의 SOTA 모델임.
   - 해당 Task 논문들은 주로 VOCASET과 BIWI 데이터셋을 사용하는데, 이는 모두 영어권 데이터이며, 각각 480문장, 560문장으로 구성됨.
   - 본 사업에서는 한국어로 된 문장 총 5,000문장을 구축하므로 최소 검증과 시험을 모두 각 500문장으로 구성할 것을 제안함.

AI 모델
구분	모델 정보	Training		Validation		Test
구분	모델 정보	79.73%		10.10%		10.17%
1	M01	18,443	400문장	2,305	50문장	2,306	50문장
2	M02	56,756	400문장	7,654	50문장	7,555	50문장
3	M03	50,310	400문장	6,687	50문장	6,500	50문장
4	M04	52,401	400문장	7,116	50문장	7,297	50문장
5	M05	56,340	400문장	6,449	50문장	6,551	50문장
6	M06	56,367	400문장	6,711	50문장	6,966	50문장
7	M07	49,641	400문장	6,009	50문장	6,054	50문장
8	M08	43,784	400문장	5,292	50문장	5,495	50문장
9	M09	42,326	400문장	5,802	50문장	5,710	50문장
10	M10	28,923	400문장	3,464	50문장	3,464	50문장

- 서비스 활용 시나리오
   - 구축한 모델은 음성 기반 가상인간 얼굴을 생성함으로써 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성에 활용될 수 있으며, 뿐만 아니라, 언어 학습이나 의사소통 기술을 향상시키는데 도움을 줄 수 있음
   - 영화나 게임 혹은 가상 비서의 말하는 얼굴 생성
   - 고급 특수 효과와 애니메이션에서 실제 인간의 표정을 디지털 캐릭터에게 전달하기 위해 사용될 수 있으며, 음성 인식과 결합되어 사용자와의 상호작용을 보다 인간적이고 자연스러운 방식으로 진행할 수 있음
   - 의사소통 기술 향상
   - 의사소통 장애가 있는 사람들을 위한 치료 도구로 사용될 수 있음

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 구성 및 포맷

데이터 구성 및 포맷
구분	데이터 종류	파일 포맷
원천데이터	오디오	WAV
원천데이터	정면 2D 이미지	PNG
라벨링데이터	3D 메쉬	OBJ
	메타 데이터	JSON
	텍스쳐	PNG

- 어노테이션 포맷

어노테이션 포맷
항목				항목 설명	Type	필수
info				데이터셋 정보	Object	Y
	description			데이터셋 설명	String	Y
	video_date			촬영일	String	Y
	contributor			데이터 수집 기관명	String	Y
subject				모델 정보	Object	Y
	subject_id			모델 ID	String	Y
	subject_gender			모델 성별	String	Y
	subject_age			모델 연령	Number	Y
script				대본 정보	Object	Y
	script_id			대본 문장 번호	Number	Y
	sentence			대본 문장	String	Y
	phoneme			관련 음운 또는 음운현상	Object	Y
		자음		대본 내 관련 자음	Obejct	Y
			ㄱ	자음 “ㄱ” 관련 음절	Array	N
			ㄴ	자음 “ㄴ” 관련 음절	Array	N
			...
		모음		대본 내 관련 모음	Object	N
			ㅏ	모음 “ㅏ” 관련 음절	Array	N
			ㅑ	모음 “ㅑ” 관련 음절	Array	N
			...
		음운현상		대본 내 관련 음운현상	Object	N
			받침발음	받침발음 관련 정보	Array	N
			음의동화	음의동화 관련 정보	Array	N
			경음화	경음화 관련 정보	Array	N
			음의첨가	음의첨가 관련 정보	Array	N
video				카메라 및 촬영 정보	Object	Y
	video_filename			비디오 파일명	String	Y
	video_length			영상 길이(초)	Number	Y
	take_num			촬영회차	Number	Y
	cam_info			카메라 모델명	String	Y
	cam_id			카메라 id	Number	Y
	frame_rate			영상 프레임레이트	Number	Y
	video_resolution			영상 해상도	String	Y
	sensor			이미지 센서	String	Y
	iso			감도	Number	Y
	iris			조리개	String	Y
	focal_length			초점거리	String	Y
	focus_type			초점 조절방식	String	Y
	shutter_speed			셔터스피드	String	Y
image				이미지 프레임 정보	Object	Y
	frame_num			이미지 프레임 번호	Number	Y
	image_resolution			이미지 해상도	String	Y
audio				오디오 정보	Object	Y
	audio_path			오디오 파일 경로	String	Y
	audio_length			오디오 길이(초)	Number	Y
3d_data				3D 데이터 정보	Object	Y
	mesh_path			3D mesh 파일 경로	String	Y
	texture_path			텍스쳐 파일 경로	String	Y
	vertices_num			Vertices 개수	Number	Y
	lip_vertices			lip vertex의 좌표	Object	Y
		“0”		vertex index 0번의 3D 위지 정보	Array	Y
		...
		“4409”		vertex index 4409번의 3D 위지 정보	Array	Y
	landmark			리토폴로지시 사용한 얼굴 랜드마크 정보	Object	Y
		“0”		랜드마크 index 0번의 3D 위치 정보	Array	Y
		...
		“67”		랜드마크 index 67번의 3D 위치 정보	Array	Y

- 3D메쉬 데이터 예시

3D메쉬 데이터 예시

- 메타데이터 예시

메타데이터 예시

데이터셋 구축 담당자

수행기관(주관) : 고양시청

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
안동수	031-8075-2570	[email protected]	사업 총괄

수행기관(참여)

수행기관(참여)
기관명	담당업무
고양산업진흥원	홍보
광운대학교 산학협력단	AI 모델 개발, 데이터 검수
㈜아이웹	응용서비스 개발
㈜오모션	데이터 수집, 정제, 가공
㈜엠비씨씨앤아이	홍보
㈜인사이터	데이터 가공, 데이터 검수

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
이희대	02-302-3535	[email protected]
한규훈	02-302-3535	[email protected]

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
김정우	02-940-8362	[email protected]
이학범	02-940-8362	[email protected]

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이희대	02-302-3535	[email protected]
한규훈	02-302-3535	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

비디오 요약 영상

의약품, 화장품 패키징 OCR 데이터

반려동물 안구 질환 데이터

한국인 얼굴 합성을 위한 발화 모습 이미지

행동 분류 및 상호작용 인식용 한국형 비전 데이터

객체 간 관계성 인지용 한국형 비전 데이터

스포츠 영상 데이터 (야구)

한국형 사물 이미지

NEW 음성 기반 3D 발화 얼굴 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : 고양시청

수행기관(참여)

데이터 관련 문의처

AI모델 관련 문의처

저작도구 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터