AI-Hub

#컴퓨터 비전 #자연어

NEW 한국어 GQA 데이터

분야영상이미지
유형 텍스트 , 이미지

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 2,111 다운로드 : 28 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-08-05	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-08-05	산출물 공개	Beta Version

소개

- 이미지와 Scene Graph 내에 나타나는 객체, 속성, 관계에 관련한 질문에 대한 복합적인 답변을 생하기 위한 VQA 데이터

구축목적

- ‘관계’ 구조에 특화된 Scene Graph 기반의 정보를 토대로 VQA 구축
- 약 1,000개의 객체에 대해 다양한 관계/질문 유형을 바탕의 대규모 데이터셋 구축
- 10만 개의 Scene Graph 구축을 통한 한국어 관계 모형 제시

메타데이터 구조표
데이터 영역	영상이미지	데이터 유형	텍스트 , 이미지
데이터 형식	TEXT, JPG, JPEG, PNG	데이터 출처	직접 수집, 온라인 수집
라벨링 유형	질의응답(자연어), 바운딩박스(이미지)	라벨링 형식	JSON
데이터 활용 서비스	챗봇 서비스, 거대모델, 로봇산업	데이터 구축년도/ 데이터 구축량	2023년/- 장면그래프 : 101,378건 / - 질의응답 : 1,013,780쌍 / - 서브라벨링(이미지캡션) : 20,535건

- 데이터 구축 규모
● 데이터 수량

데이터 구축 규모 - 데이터 수량
원시데이터 수량	원천데이터 수량	라벨링 데이터 수량
● 국내 일상 장면 이미지 92,302장	● 국내 일상 장면 이미지 92,302장	● 장면 그래프 101,378건 (Bounding Box 101,378set 포함) ● 질의응답 1,013,780쌍 ● 서브라벨링 (이미지캡션) 20,535건
● 한국적 이미지 9,076장	● 한국적 이미지 9,076장

● 데이터 구축 파일 수량

데이터 구축 규모 - 데이터 구축 파일 수량
구분		목표	구축실적	달성율
원천데이터	이미지데이터	100,000	101,378	101.40%
라벨링데이터	장면그래프	100,000	101,378	101.40%
라벨링데이터	질의응답 데이터	100,000	101,378	101.40%
서브라벨링	이미지 캡션	10,000	20,535	205.40%
모델	단답형 질의 응답 (Top-2 Accuracy)	55%	69.57%	126.50%
모델	장문형 질의 응답 (BLEU-1)	20%	26.55%	132.80%

● 최종데이터 S3 업로드 수량 설명

데이터 구축 규모 - 최종데이터 S3 업로드 수량 설명
구분	폴더명			파일 수량	설명
Traninig	원천데이터			81,102	TTA검증용 json과 AI Hub 업로드용 json을 분리하였음. 각 json의 내용은 완전히 동일하나, AI Hub 업로드용 json은 사용자 편의를 위하여 1개의 파일로 합쳐져 있으며, TTA검증용 파일은 원천데이터 단위로 나뉘어 있음.
	라벨링	장면그래프	TTA검증용	81,102
	데이터	장면그래프	AI Hub업로드	1
		질의응답	TTA검증용	81,102
		질의응답	AI Hub업로드	1
Validation	원천데이터			10,138
	라벨링	장면그래프	TTA검증용	10,138
	데이터	장면그래프	AI Hub업로드	1
		질의응답	TTA검증용	10,138
		질의응답	AI Hub업로드	1
Test	원천데이터			10,138
	라벨링	장면그래프	TTA검증용	10,138
	데이터	장면그래프	AI Hub업로드	1
		질의응답	TTA검증용	10,138
		질의응답	AI Hub업로드	1
Sample	원천데이터			200	Sample 데이터의 경우 랜덤하게 200건의 데이터로 구성하였으며, 장면그래프와 질의응답 json은 TTA검증용과 동일하게 원천데이터 단위로 슬라이스하였음.
	라벨링데이터		장면그래프	200
	라벨링데이터		질의응답	200
서브라벨링	원천데이터			20,535	서브라벨링 1만 건 이상 구축 완료.
서브라벨링	라벨링데이터			20,535	서브라벨링 1만 건 이상 구축 완료.

- 데이터 분포

데이터 분포
품질특성	검증유형	항목명	*측정 지표*		결과
다양성	통계	장소별 분포	구성비		측정 결과
					실내	71.50%
					실외	28.50%
		Relation 분포	구성비		측정 결과
					공간	44.00%
					관계	52.90%
					행동	3.10%
		Object 분포	구성비	목표 구성비
				필수 생활		의생활	9.30%
						식생활	39.30%
						주생활	29.40%
				여가 생활		문화생활	17.60%
				여가 생활		놀이생활	4.30%
		Attribute 분포	구성비		목표 구성비
					재질	33.20%
					형태	20.10%
					색상	24.20%
					기타	14.10%
					부피	5.00%
					패턴	3.10%
					밝기	0.30%
		질의문장 어절 수	최솟값		측정 결과
					3어절 이상	100%
					3어절 미만	0%
		답변 어절 수	수량		측정 결과
					1	87.20%
					2	2.50%
					3	0.30%
					4	0%
					5 이상	9.80%
		이미지 캡션 중복성	구성비		문장 집합 전체의 평균 코사인 유사도 : 0.27 (모든 문장 각각에 대하여 다른 모든 문장들과의 코사인 유사도를 계산함. 이후 각 문장의 유사도를 모두 합산한 후, 문장 수로 나누어 평균 유사도를 산출. 이 방법을 통해 문장 집합 전체의 평균적인 유사도를 확인.)
다양성	요건	Scene Graph 수	수량		101,378 건
		질의 카테고리 분포	구성비 중첩률		구성비 중첩률	96.2
					측정 결과
					relation	53.00%
					attribute	29.50%
					object	9.10%
					category	4.00%
					global	4.30%
		답변 유형 분포	구성비 중첩률		구성비 중첩률	100%
					측정 결과
					answer	90%
					full answer	10%
		수집 카테고리 분포	구성비 중첩률		구성비 중첩률	96%
				목표 구성비
				국내 일상 장면		90.00%	92,302
				한국적 이미지		10.00%	9,076
				총 계		100%	101,378
		이미지 당 객체 수	최소 수량		3개 이상 100% (101,378개)
		이미지 당 질의응답 수	최솟값		10개 이상 100% (이미지 101,378개)
		이미지 캡션 어절 수	최소 수량		7어절 이상 100% (20,535건)
		이미지 캡션 음절 수	최소 수량		20음절 이상 100% (20,535건)

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 모델학습
본 과제에서 구축된 데이터셋은 인공지능이 이미지 내의 객체들 사이의 ‘관계’를 이해할 수 있도록 설계됨

● 총 10만 개의 Scene Graph를 구축하고, 각 Scene Graph에 대해 9개의 단문형 질의응답과 1개의 장문형 질의응답을 제작함
● 데이터는 8:1:1 비율로 학습, 검증, 데이트 세트로 나누어 모델 개발에 활용함

모델학습
종류	학습 (Train)	검증 (Validation)	시험 (Test)
단답형 질의응답	약 72만 건	약 9만 건	약 9만 건
장문형 질의응답	약 8만 건	약 1만 건	약 1만 건

단답형, 장문형 질의응답 모델 개발 단계 도식 이미지

- 서비스 활용 시나리오
● 챗봇 서비스 : 시각적 정보를 활용한 챗봇 서비스를 제공할 수 있음, 예를 들어, 사용자가 쇼핑 중 촬영한 상품 이미지를 분석하여, 해당 상품과 연관된 다양한 질문에 대답할 수 있음
● 거대모델 : GPT-4와 같은 초거대모델은 이 데이터셋을 활용하여 미세조정 될 수 있음. 이를 통해 모델은 특정 분야의 전문 지식과 시각적 정보를 연결하는 방법을 배울 수 있음. 예를 들어, 의료 분야에서 의사들이 환자의 X-ray 이미지를 업로드하고, 모델에 질문을 하면, 관련 의학 지식과 결합하여 진단을 지원하거나 치료 옵션에 대한 조언을 제공할 수 있음
● 로봇산업 : 시각 및 음성 질의에 반응하는 로봇의 명령 제어 시스템을 개발할 수 있음. 예를 들어, 사용자가 “주방에서 가장 가까운 녹색 물체를 가져와”라고 요청하면 로봇은 주방 이미지의 녹색 물체를 식별하고, 그 위치를 파악한 뒤 해당 물체를 사용자에게 가져다줄 수 있음
● Scene Graph 기반의 데이터셋은 이러한 고급 기능들을 가능하게 하는 기반이 될 것임

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 데이터 구성
● 장면 그래프 JSON 정보구조 정의

데이터 구성 - 장면 그래프 JSON 정보구조 정의
항목				설명
Scene Graph ID				장면 그래프 고유 ID
	IMAGE_ACQUISITION_			이미지 생성 날짜
	DATE			이미지 생성 날짜
	hosting			이미지 가공 기관
	LICENSE			저작권 여부
	Image_Source			이미지 수집 출처
	Image_Url			이미지 수집 주소
	Image_Class			문화재 분류 정보
	Image_Name			문화재 이름 정보
	IMAGE_Key			이미지 촬영에 대한 정보
	width			이미지 너비
	height			이미지 높이
	GPS			이미지 GPS
	category			이미지 경로
	location			장면이 발생하는 위치
	weather			장면의 날씨
	Brightness			이미지 밝기 정보
	image_status			이미지 캡션
	Korean_Image			한국적 이미지 여부
	objects			장면 object
		object ID		Object ID
		name		Object의 이름
		h		Object 높이
		w		Object 너비
		y		Object y축
		x		Object x축
		relations		object 관계
			object	관계 object
			rel_category	relation 카테고리
			name	관계의 종류
		attributes		object의 attributes
			att_category	attribute 카테고리
			name	object 속성

● 질의응답 JSON 정보구조 정의

데이터 구성 - 질의응답 JSON 정보구조 정의
항목				설명
Scene_Graph_ID				장면 그래프 ID
QA_list				질의응답 리스트
	QA_ID			질의응답 고유 ID
	annotations			질의응답에 활용한 관계
		question		질문에 활용한 관계
			object_id	질문에 활용한 object ID
			name	질문에 활용한 object 이름
		answer		답변에 활용한 관계
			object_id	답변에 활용한 object ID
			name	답변에 활용한 object 이름
	question			질의
	answer			답변
	question_en			영문 질의
	answer_en			영문 답변
	question type			질의 유형
	answer type			답변 유형

- 어노테이션 포맷
● 장면 그래프 포맷

어노테이션 포맷 - 장면 그래프 포맷
구분			속성명	타입	필수구분	항목설명
1			Scene Graph ID	dictionary	Y	장면 그래프 고유 ID
2			IMAGE_ACQUISITION_DATE	string	Y	이미지 생성 날짜
3			hosting	integer	Y	이미지 가공 기관
4			LICENSE	string	Y	저작권 여부
5			Image_Source	string	N	이미지 수집 출처
6			Image_Url	string	N	이미지 수집 주소
7			Image_Class	string	N	문화재 분류 정보
8			Image_Name	string	N	문화재 이름 정보
9			IMAGE_Key	string	N	이미지 촬영에 대한 정보
10			width	string	Y	이미지 너비
11			height	string	Y	이미지 높이
12			GPS	string	N	이미지 GPS
13			category	string	Y	이미지 경로
14			location	string	Y	장면 위치
15			weather	string	N	장면 날씨
16			Brightness	string	N	이미지 밝기 정보
17			image_status	string	N	이미지 캡션
18			Korean_Image	string	N	한국적 이미지 여부
19			objects	dictionary	Y	장면 object
	19-1		object ID	dictionary	Y	object ID
	19-2		name	string	Y	object 이름
	19-3		h	integer	Y	object 높이
	19-4		w	integer	Y	object 너비
	19-5		y	integer	Y	object y축
	19-6		x	integer	Y	object x축
	19-7		relations	list	N	object 관계
		19-7-1	object	string	N	관계 object
		19-7-2	rel_category	string	N	relation 카테고리
		19-7-3	name	string	N	관계의 종류
	19-8		attributes	list	N	object의 attributes
		19-8-1	att_category	string	N	attribute 카테고리
		19-8-2	name	string	N	object 속성

● 질의응답 포맷

어노테이션 포맷 - 질의응답 포맷
구분				속성명	타입	필수구분	항목설명	예시
1				Scene Graph ID	string	Y	장면 그래프 ID
2				QA_list	list	Y	질의응답 리스트
	2-1			QA_ID	string	Y	질의응답 고유 ID
	2-2			annotations	dictionary	N	질의응답에 활용한 관계
		2-2-1		question	list	N	질문에 활용한 관계
			2-2-1-1	object_id	string	N	질문에 활용한 object ID
			2-2-1-2	name	string	N	질문에 활용한 object 이름
		2-2-2		answer	list	N	답변에 활용한 관계
			2-2-2-1	object_id	string	N	답변에 활용한 object ID
			2-2-2-2	name	string	N	답변에 활용한 object 이름
	2-3			question	string	Y	질의
	2-4			answer	string	Y	답변
	2-5			question_en	string	N	영문 질의
	2-6			answer_en	string	N	영문 답변
	2-7			question type	list	Y	질의 유형	global, object,
								relation, attribute,
								category
	2-8			answer type	string	Y	답변 유형	answer /
	2-8			answer type	string	Y	답변 유형	full answer

- 데이터 포맷

어노테이션 포맷 - 데이터 포맷
데이터명	원시데이터*^ 포맷**	원천데이터*^ 포맷**	라벨링 데이터 포맷
국내 일상 장면 이미지	JPG, JPEG, PNG	Text, JPG, JPEG, PNG	JSON
한국적 이미지	JPG, JPEG, PNG	Text, JPG, JPEG, PNG	JSON

- 실제 예시
● 장면 그래프

장면 그래프
{ "Scene_Graph_ID": "1010300210120230808115733", "IMAGE_ACQUISITION_DATE": "20230808115733", "hosting": 1, "LICENSE": "FREE", "Image_Source": "문화재청", "Image_Url": "https://www.heritage.go.kr/unisearch/images/register/2021032408424702.jpg", "Image_Class": "국가등록문화재", "Image_Name": "함양 구 임업시험장 하동·함양지장", "IMAGE_Key": "함양 구 임업시험장 하동·함양지장_산림정보관 (촬영년도 : 2015년)", "width": "4000", "height": "2667", "GPS": "null", "Category": "1.국내_일상_장면/01.필수생활/03.주생활/0021.문", "LOCATION": "Outdoor", "WEATHER": "Fine", "BRIGHTNESS": "Light", "IMAGE_STATUS": "글씨가 새겨진 현판 아래에 나무로 만들어진 문이 닫혀있다.", "KOREAN_IMAGE": "YES", "OBJECTS": [ { "OBJECT_ID": 608, "NAME": "문", "H": 1080.910417742914, "W": 951.4213156385683, "Y": 838.2343352676534, "X": 1562.9556811665439, "RELATIONS": [ { "object": 1083, "rel_category": "관계", "name": "낮은" }, { "object": 730, "rel_category": "관계", "name": "높은" }, { "object": 1083, "rel_category": "관계", "name": "큰" } ], "ATTRIBUTES": [ { "att_category": "형태", "name": "직사각형" } ] }, { "OBJECT_ID": 730, "NAME": "계단", "H": 526.315789473684, "W": 2708.556774792262, "Y": 2141.415839919287, "X": 729.1429057189207, "RELATIONS": [ { "object": 608, "rel_category": "관계", "name": "낮은" }, { "object": 1083, "rel_category": "관계", "name": "긴" }, { "object": 1083, "rel_category": "관계", "name": "큰" } ], "ATTRIBUTES": [ { "att_category": "형태", "name": "각진" } ] }, - 생략 - } ] } ] }

● 질의응답

질의응답
{ "Scene_Graph_ID": "1010300210120230808115733", "QA_list": [ { "QA_ID": "1010300210120230808115733-1", "annotations": { "question": [ { "object_id": "608", "name": "문" } ], "answer": [ { "object_id": "608", "name": "문" } ] }, "question": "이미지 속 문은 어떤 모양인가요?", "answer": "직사각형", "question_en": "What shape is the door in the image?", "answer_en": "Rectangle", "question_type": [ "Object", "Attributes" ], "answer_type": "answer" }, { "QA_ID": "1010300210120230808115733-2", "annotations": { "question": [ { "object_id": "608", "name": "문" } ], "answer": [ { "object_id": "608", "name": "문" } ] }, "question": "사진에서 문은 어떤 형태로 되어 있나요?", "answer": "직사각형", "question_en": "What shape is the door in the image?", "answer_en": "Rectangle", "question_type": [ "Object", "Attributes" ], "answer_type": "answer" }, - 생략 - ] }

데이터셋 구축 담당자

수행기관(주관) : 서울과학기술대학교 산학협력단

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
임경태	02-970-9750	[email protected]	설계 및 품질검증

수행기관(참여)

수행기관(참여)
기관명	담당업무
(주)엠에이치소프트	수집, 정제
(주)유클리드소프트	가공, 검수
(주)써로마인드	모델

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
황준원	042-5151-5583	[email protected]
조하랑	042-5151-1750	[email protected]

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
임경태	02-970-9750	[email protected]
김병희	02-872-5127	[email protected]

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
황준원	042-5151-5583	[email protected]
조하랑	042-5151-1750	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의