콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#KVQA # 시각지능 # RCNN # GQA

생활 및 거주환경 기반 VQA

생활 및 거주환경 기반 VQA
  • 분야한국어
  • 유형 텍스트 , 이미지
구축년도 : 2020 갱신년월 : 2021-06 조회수 : 6,331 다운로드 : 274 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2021-06-25 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-10-12 신규 샘플데이터 개방

    소개

    (대전시 유성구)국내 환경에 맞는 다양한 VQA 기반 AI서비스 개발을 위한 생활 및 거주환경 VQA AI데이터

    구축목적

    어린이, 노인, 개인의 일상생활을 촬영한 이미지에 대하여 시각정보에 대한 객관적인 상황이나 추론 가능한 질문에 대해 스스로 답변이 가능한 인공지능을 훈련하기 위한 데이터 셋
  • 구축 내용 및 제공 데이터량

    • 일상생활 속 이미지 1,063,340장(일반 촬영 961,068장 / 3D 공간 스캔 기반 추출 이미지 102,272장)
    • 이미지별 질의응답 텍스트 총 7,119,756건(이미지당 평균 7건)
       
      구축 내용 및 제공 데이터량 표
        어린이 생활 거주환경 개인 생활환경 노인 생활 거주환경 실내 가전 및 가구배치
      슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 3D이미지
      슈퍼헤더별
      수량
      번화가 8,902 번화가 11,272 번화가 23,936 사무공간 693 16,141
      골목 11,912 골목 26,993 골목 15,437 개인공간 8,876  
      차량 16,946 차량 19,127 차량 20,657 휴게공간 7,663  
      야외 16,977 야외 43,868 야외 23,002 가전 9,741  
      가전(가구) 7,591 가전(가구) 7,817 가전(가구) 16,918 가구 34,822  
      공공장소 42,997 공공장소 34,169 공공장소 31,994 공공장소 8,475  
      여가공간 7,995 여가공간 7,507 여가공간 7,541 여가공간 23,967  
      음식 6,893 음식 8,253 음식 7,518 음식 7,501  
      실내 43,576 실내 22,503 실내 23,825 실내 913 44,131
      생활 39,922 생활 20,931 생활 21,271 생활 45,635  
      물건 15,864 물건 23,693 물건 21,506 물건 1,622 42,000
      매장 38,258 매장 33,897 매장 37,134 매장 42,558  
      합계 257,833 합계 260,030 합계 250,739 합계 192,466 102,272
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • 데이터 성능 점수

    측정값 (%)
    기준값 (%)

    데이터 성능 지표

    데이터 성능 지표
    번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수
    1 질의응답 (YSE/NO 유형) Question Answering BERT + ResNet50 EM 51.13 % 54.69 %
    2 질의응답 (Number 유형) Question Answering BERT + ResNet50 EM 28.26 % 54.01 %
    3 질의응답 (Other 유형) Question Answering BERT + ResNet50 EM 37.69 % 50.11 %

    ※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.

    ※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2021.06.25 데이터 최초 개방  

    구축 목적

    • 어린이, 노인, 개인의 일상생활을 촬영한 이미지에 대하여 시각정보에 대한 객관적인 상황이나 추론 가능한 질문에 대해 스스로 답변이 가능한 인공지능을 훈련하기 위한 데이터 셋

    활용 분야

    • 시각 정보에 대한 인공지능 자유 묘사, 이미지를 통한 상황 유추 등이 가능한 한국형 AI 시각지능 모델 개발

    소개

    • 한국인의 실생활 속에서 다양한 이미지를 촬영하고, 연관된 질의응답 데이터를 생성하여 인공지능이 생활환경 속 물체나 위험요소 등에 대하여 답변할 수 있도록 훈련할 수 있는 데이터셋. 이미지에 대한 비식별화 및 정제 처리 후 가공, 검증을 진행하여 촬영된 사진에서 개인정보 침해 문제를 해결하고 가공을 수행하였음
       

    생활 및 거주환경 기반 VQA- 소개- 데이터 유효성 검증 및 피드백

    < 데이터 유효성 검증 및 피드백 >

     

    구축 내용 및 제공 데이터량

    • 일상생활 속 이미지 1,063,340장(일반 촬영 961,068장 / 3D 공간 스캔 기반 추출 이미지 102,272장)
    • 이미지별 질의응답 텍스트 총 7,119,756건(이미지당 평균 7건)
       
      구축 내용 및 제공 데이터량 표
        어린이 생활 거주환경 개인 생활환경 노인 생활 거주환경 실내 가전 및 가구배치
      슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 슈퍼헤더 수집이미지 3D이미지
      슈퍼헤더별
      수량
      번화가 8,902 번화가 11,272 번화가 23,936 사무공간 693 16,141
      골목 11,912 골목 26,993 골목 15,437 개인공간 8,876  
      차량 16,946 차량 19,127 차량 20,657 휴게공간 7,663  
      야외 16,977 야외 43,868 야외 23,002 가전 9,741  
      가전(가구) 7,591 가전(가구) 7,817 가전(가구) 16,918 가구 34,822  
      공공장소 42,997 공공장소 34,169 공공장소 31,994 공공장소 8,475  
      여가공간 7,995 여가공간 7,507 여가공간 7,541 여가공간 23,967  
      음식 6,893 음식 8,253 음식 7,518 음식 7,501  
      실내 43,576 실내 22,503 실내 23,825 실내 913 44,131
      생활 39,922 생활 20,931 생활 21,271 생활 45,635  
      물건 15,864 물건 23,693 물건 21,506 물건 1,622 42,000
      매장 38,258 매장 33,897 매장 37,134 매장 42,558  
      합계 257,833 합계 260,030 합계 250,739 합계 192,466 102,272

    대표도면

    생활 및 거주환경 기반 VQA- 대표도면

    생활 및 거주환경 기반 VQA- 대표도면- JSON 구조 예시 이미지

    필요성

    • 해외에서 활발하게 연구되고 있는 영어 기반의 시각정보 질의응답 데이터와 달리 한국형 데이터는 학습용 데이터가 거의 전무한 상황
    • 해외에서는 영어를 기반으로 시각정보 질의응답 데이터를 공개하고 매년 모델링 대회를 개최하고 있음. 영어로 된 데이터를 활용한 세계 대회에서 국내 기업이 선두를 달리고 있는 상황에도 한국형 질의응답 학습용 데이터는 거의 전무한 상황임
    • 기존 20년도 사업에서 시각정보 질의응답 데이터셋을 구축한 바가 있으나, 대부분의 원천 데이터를 해외 공개이미지로 사용하였기에 국내 환경에 맞지 않는 요소가 있었음
    • 이에 한국적인 사물과 상황을 이해하여 질문과 답변을 제시하며 새로운 가치를 창출할 수 있는 시각정보 질의응답 AI 기술개발을 위하여 검증된 학습용 데이터를 구축하고자 함

    데이터 구조

    • 1. 데이터 구성
    데이터 구성
    분류 세분류 데이터 타입 한글설명
    info   object  
      year int 연도
      version str 버전
      description str 상세설명
      contributor str 기여자
      url str 주소
      date_created datetime 생성일자
    data_type   str 이미지 소스
    data_subtype   str 데이터 하위 유형
    images   object 이미지 정보
      image_id int 이미지 식별키
      image string 슈퍼 헤더 카테고리
      category string 이미지 식별키
      weather string 날씨

     

    • 2. 어노테이션 포맷
    어노테이션 포맷
    분류 세분류 데이터 타입 한글설명
    question   object 질의응답 정보
      question_id int 질문 식별키
      image_id int 이미지 식별키
      description str 상세설명
      question string 질문 텍스트
      answer string 답변 텍스트
      answer_type string 답변 판별
  • 데이터셋 구축 담당자

    수행기관(주관) : 유클리드소프트
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    나현우 042-488-6589 [email protected] · 데이터구축 총괄 · 원천데이터 수집, 정제 · 질의응답 생성, 가공 · AI VQA 모델개발 수행기관(참여)
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    심스리얼리티 · 3D 공간 스캔 및 이미지 추출
    · 3D 기반 실내 가전 및 가구 가상 배치 서비스 개발
    공주대학교 · 결과물 검수 및 검증
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    나현우(유클리드소프트) 042-488-6589 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.