콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#인물 대화 영상 # 인물 대화 이미지 # 인물 행동 # 나이 인식 # 감정 인식

멀티모달

멀티모달
  • 분야영상이미지
  • 유형 오디오 , 비디오
구축년도 : 2018 갱신년월 : 2019-05 조회수 : 10,650 다운로드 : 3,619 용량 :

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2019-05-01 데이터 최초 개방

    소개

    감정, 사용자 의도 등 다양한 관점의 멀티모달 데이터와 영상/음성/텍스트 정보가 있는 멀티모달 원시 데이터를 구축한 영상 데이터 제공
  • 구축내용

    • 21시간 10분 분량의 데이터셋 구축
      - 구축 데이터 총 러닝 타임 : 21시간 10분 36초
      - 동영상클립
        최소 러닝타임 : 1분 49초
        최대 러닝타임 : 3분 47초
      - 총 클립수 : 1,943건
      - 총 이미지 수 : 158,383장
      - 대화 정보 : 10,961 pair
    • 16종의 의미 정보 부착 완료
      종류 항목 세부
      대화 화자 영상의 역할 이름으로 표기 (75명)
      대화내용 화자가 말하는 내용
      구간묘사 해당 구간에서 일어나는 상황에 대한 묘사 5개
      시각 등장인물 이름 영상의 역할 이름으로 표기
      인물 얼굴 추적 등장인물의 얼굴 좌표 (자동*)
      인물 전체 추적 등장인물의 전체(얼굴 + 몸통)좌표 (자동*)
      행동 UCF101 행동 항목 중 자주 출현하는 106개 항목
      감정 총 8개 항목
      성별 영상에서 보여지는 성별 총 5개 항목
      (남자, 여자, 여장남자, 남장여자, 모름)
      연령대 영상에서 언급되는 연령대 총 7개 항목
      인물 묘사 등장인물에 대한 국문 묘사 1개
      관련 객체 명 등장인물과 관련이 있는 객체, ImageNet 200개 항목
      관련 객체 좌표 관련 객체의 좌표
      일반 객체 명 등장인물과 관련이 없는 객체,ImageNet 200개 항목 (총 324종)
      일반 객체 좌표 객체의 좌표 값
      이미지 묘사 샷 구간 당 5개
    • 10년 결과물 공개 라이선스 확보(연구 개발용으로 제한)

    멀티모달- 구축내용- 멀티 모달 분야 데이터(동영상 + 이미지 + 메타정보) 예시

    <멀티 모달 분야 데이터(동영상 + 이미지 + 메타정보) 예시>

  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드

    데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2019.05.01 데이터 최초 개방  

    필요성

    • 영상처리용 데이터는 외국 공개 데이터를 활용하여 서비스 개발은 가능하지만, 국내 환경을 반영하지 못한 데이터를 통해 구축된 인공지능 기술은 편향성과 차별성을 보임
    • 감정, 사용자 의도 등 다양한 관점의 고차원 복합 지능 분석 연구를 위해서는 멀티모달 융합 정보 부착 데이터가 반드시 필요함
    • 영상/음성/텍스트 정보가 함께 있는 멀티모달 원시 데이터에 다양한 정보를 구축하는 융합 구축 방법론의 도출이 필요함

    구축내용

    • 21시간 10분 분량의 데이터셋 구축
      - 구축 데이터 총 러닝 타임 : 21시간 10분 36초
      - 동영상클립
        최소 러닝타임 : 1분 49초
        최대 러닝타임 : 3분 47초
      - 총 클립수 : 1,943건
      - 총 이미지 수 : 158,383장
      - 대화 정보 : 10,961 pair
    • 16종의 의미 정보 부착 완료
      종류 항목 세부
      대화 화자 영상의 역할 이름으로 표기 (75명)
      대화내용 화자가 말하는 내용
      구간묘사 해당 구간에서 일어나는 상황에 대한 묘사 5개
      시각 등장인물 이름 영상의 역할 이름으로 표기
      인물 얼굴 추적 등장인물의 얼굴 좌표 (자동*)
      인물 전체 추적 등장인물의 전체(얼굴 + 몸통)좌표 (자동*)
      행동 UCF101 행동 항목 중 자주 출현하는 106개 항목
      감정 총 8개 항목
      성별 영상에서 보여지는 성별 총 5개 항목
      (남자, 여자, 여장남자, 남장여자, 모름)
      연령대 영상에서 언급되는 연령대 총 7개 항목
      인물 묘사 등장인물에 대한 국문 묘사 1개
      관련 객체 명 등장인물과 관련이 있는 객체, ImageNet 200개 항목
      관련 객체 좌표 관련 객체의 좌표
      일반 객체 명 등장인물과 관련이 없는 객체,ImageNet 200개 항목 (총 324종)
      일반 객체 좌표 객체의 좌표 값
      이미지 묘사 샷 구간 당 5개
    • 10년 결과물 공개 라이선스 확보(연구 개발용으로 제한)

    멀티모달- 구축내용- 멀티 모달 분야 데이터(동영상 + 이미지 + 메타정보) 예시

    <멀티 모달 분야 데이터(동영상 + 이미지 + 메타정보) 예시>

     

    데이터 구조

    • 동영상 콘텐츠 파일을 분할 :
      - Annotation 목적에 맞는 길이의 비디오 클립단위로 분할 되어야함.
    • 동영상 클립의 단위 및 크기는 :
      - 비디오 클립은 대화의 의미를 포함하는 범위의 길이
      - 비디오 클립은 KETI_MULTIMODAL_00000000001.(확장자) 형식으로 표현됨
    • 동영상에 포함된 사람들의 감정 표시:
      - 사람의 감정 7가지로 구분하고, 감정 값은 0 ~ 100사이의 값으로 표현됨
      - 연속적인 표현방식을 고려함(ex: 기쁨(70), 슬픔(5), 불안(5), .....)
    • 데이터 특징
      - 대화 부분을 포함
      - 대화 의미를 이해하기 위한 데이터 범위를 포함해야함
    • 영상 내 객체 및 인물 및 객체에 대한 정보의 정의 및 구조화
      - 인물 별 감정 8종의 수치 1~10 사이 (기쁨, 슬픔, 분노, 놀람, 공포, 경멸, 혐오, 중립) 75명의 인물 정보 구축
      - 인물 별 성별: 2종 (남, 여) → 콘텐츠 상에 나타나는 복합적인 성별을 고려하여 5종의 성별 정보 구축
      - 인물 별 연령대: 7종 (10대 이하, 10대, 20대, 30대, 40대, 50대, 60대 이상)
      - 인물 별 발화 스크립트: 동영상의 인물 별 발화 내용
      - 상황 설명 정보: 클립 당 5문장 이하 (한국어)
      - 객체 정보: 324종의 객체 정보 및 구간 정보 구축
      - 행동 정보: 106종의 행동 정보 구축
    상식 데이터 구축내용 표 (구축년도,데이터종류,포함내용,제공방식)
    종류 항목 세부
    대화 화자 영상의 역할 이름으로 표기
    대화내용 화자가 말하는 내용
    구간묘사 해당 구간에서 일어나는 상황에 대한 묘사 5개
    시각 등장인물 이름 영상의 역할 이름으로 표기
    인물 얼굴 추적 등장인물의 얼굴 좌표
    인물 전체 추적 등장인물의 전체(얼굴 + 몸통)좌표
    행동 UCF101 행동 항목 중 자주 출현하는 106개 항목
    감정 총 8개 항목
    성별 영상에서 보여지는 성별 총 5개 항목
    연령대 영상에서 언급되는 연령대 총 7개 항목
    인물 묘사 등장인물에 대한 국문 묘사 1개
    관련 객체 명 등장인물과 관련이 있는 객체, ImageNet 200개 항목
    관련 객체 좌표 관련 객체의 좌표
    일반 객체 명 등장인물과 관련이 없는 객체,ImageNet 200개 항목
    일반 객체 좌표 객체의 좌표 값
    이미지 묘사 샷 구간 당 5개

    멀티모달- 데이터 구조- 멀티모달 분야 인공지능 데이터셋 부착 메타데이터 구조 이미지 예시

    <멀티모달 분야 인공지능 데이터셋 부착 메타데이터 구조 이미지 예시>

     

    활용예시

    • (다양한 인공지능 연구 활용화) 현재 국내 인공지능 공개 데이터의 한계를 극복하여 인공지능 연구 환경을 지원하고, 한국어 및 국내 인공지능 전문가의 지속적인 확대를 위해 정부 차원의 중장기적 인공지능 공개 데이터 확대와 공개 데이터의 질적 개선에 활용
      - 영상 기반 객체 인지
      - 영상 기반 이미지 설명 자동 생성 기술
      - 스토리텔링
      - 대화 모델
      - 성별 분류
      - 나이 인식
      - 감정 인식
  • 데이터셋 구축 담당자

    수행기관(주관) : 한국전자기술연구원
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    정혜동 (한국전자기술연구원) 031-789-7565 [email protected]
    정현주 (한국전자기술연구원) 031-789-7565 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.