콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#립리딩 # 입모양 # 음성인식 데이터 # 오디오 및 비주얼 데이터

립리딩(입모양) 음성인식 데이터

립리딩(입모양) 음성인식
  • 분야한국어
  • 유형 오디오 , 비디오 , 텍스트
구축년도 : 2021 갱신년월 : 2022-07 조회수 : 21,998 다운로드 : 5,742 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.0 2022-07-12 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2022-11-14 AI 모델 상세설명 업데이트
    2022-10-14 신규 샘플데이터 개방
    2022-07-12 콘텐츠 최초 등록

    소개

    다양한 환경에서 복잡한 음성인식 기반 서비스 제공을 위해 음향 외 시각 정보를 활용하여 입모양 인식을 위한 다양한 각도 및 소음환경에서 녹화된 오디오 및 비주얼 데이터로 구성된 융합 데이터

    구축목적

    영상 및 음성에 대한 노이즈가 심한 환경에서 음성인식 성능을 보완할 수 있는 립리딩(입모양) 인식이 가능한 형태의 오디오 및 비주얼 데이터로 구성된 융합 데이터 구축
  • 1. 데이터 구축 규모

    •  
      1. 데이터 구축 규모
      데이터 종류 데이터 형태 데이터 규모
      원천데이터 – 영상 mp4 5,750 시간
      원천데이터 - 음성 wav 1,150 시간
      라벨링데이터 – 텍스트 json 66,420 건

       

    2. 데이터 분포

    • 소음환경별 분포
      립리딩(입모양) 음성인식-데이터 분포_1_소음환경별 분포
      소음환경별 분포
      소음환경 구축량 (시간) 비율
      소음없음 1,648 29%
      생활소음 828 14%
      교통소음 801 14%
      산업소음 804 14%
      자연소음 834 14%
      기타소음 833 14%
      * 시간 단위 이하 반올림

       
    • 성별 분포
      립리딩(입모양) 음성인식-데이터 분포_2_성별 분포
      성별 분포
      성별 인원 (명) 비율
      여성 552 50%
      남성 555 50%

       
    • 발화자 특성별 분포
      립리딩(입모양) 음성인식-데이터 분포_3_발화자 특성별 분포
      발화자 특성별 분포
      특성 인원 (명) 비율
      일반인 831 75%
      전문가 276 25%

       
    • 연령대별 분포
      립리딩(입모양) 음성인식-데이터 분포_4_연령대별 분포
      연령대별 분포
      연령대 인원 (명) 비율
      10대 109 10%
      20대 286 26%
      30대 280 25%
      40대 259 23%
      50대 94 8%
      60대 79 7%

       
    • 주제별 분포
      립리딩(입모양) 음성인식-데이터 분포_5_주제별 분포
      주제별 분포
      발화 주제 구축량 (시간) 비율
      휴가 384 6.70%
      교통수단 379 6.60%
      사회/시사 357 6.20%
      건강/다이어트 497 8.70%
      문화/예술 388 6.70%
      스포츠/레저 406 7.10%
      음식 399 6.90%
      인간관계 413 7.20%
      경제/재테크 445 7.70%
      진학/학교 394 6.80%
      반려동물 409 7.10%
      일/직장/직업 480 8.40%
      일상생활 484 8.50%
      관혼상제 307 5.30%
      * 시간 단위 이하 반올림

       
    • 각도별 분포
      립리딩(입모양) 음성인식-데이터 분포_6_각도별 분포
      각도별 분포
      각도 구축량 (시간) 비율
      A(정면) 1,150 20%
      B(좌상) 576 10%
      C(좌) 574 10%
      D(좌하) 576 10%
      E(하) 574 10%
      F(우하) 576 10%
      G(우) 574 10%
      H(우상) 576 10%
      I(상) 574 10%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    1. 모델 학습

    • 학습 모델 연구
      • 검증 과정에서 사용한 모델은 Transformer이고, 2017년 Google이 발표한 논문인 “Attention is all you need”에서 소개된 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, 논문의 이름처럼 어텐션(Attention)만으로 구현한 모델
      • 해당 모델은 RNN을 사용하지 않고, 인코더-디코더 구조를 설계하였음에도 성능이 RNN보다 우수하다는 특징
      • 학습 모델의 코드 검증을 위해 Github에 공개된 Transformer 기반의 AIHub 한국어 음성인식 코드를 기반으로 하여 Audio-Visual 학습 모델 코드를 구현

     

    • 학습 모델 설계
      • Audio-Visual Encoder Layer
        • 오디오와 비디오를 입력으로 받아 디코더가 해석하기에 용이하도록 특징 벡터열들을 추출
        • 각각 비디오의 이미지 열들은 3차원 Convolution layer를 기반으로 하여 2차원의 이미지를 나타내는 1차원의 벡터로 바꿔 주고, 오디오는 Log-mel spectrogram으로 변환한 뒤, 비디오와 오디오의 특징열들을 Transformer Encoder Layer의 입력으로 하여 각 모달리티의 특징을 뽑도록 학습 진행

        • 립리딩(입모양) 음성인식-학습 모델 설계_1_Audio-Visual Encoder Layer
          [그림] Audio-Visual Encoder Layer
      • Audio-Visual Fusion Layer
        • 각 Encoder를 통해 얻어진 비디오와 오디오 특징 벡터열들을 하나의 data로 fusion하는 네트워크를 학습하는 과정
        • 비디오와 오디오를 하나의 벡터열로 연결한 이후 MLP layer와 normalization, 활성함수 등을 사용하여 Decoder가 해석하기 용이하도록 특징 벡터열로 만들어주는 모델을 학습

        • 립리딩(입모양) 음성인식-학습 모델 설계_2_Audio-Visual Fusion Layer
          [그림] Audio-Visual Fusion Layer
      • Audio-Visual Decoder Layer
        • 위 두 단계를 통해 얻은 특징 벡터열들과 Label token을 사용하여 Decoder를 통해 인식하는 네트워크를 학습
        • Decoder는 Transformer Decoder Layer를 사용하여 모델을 구성

        • 립리딩(입모양) 음성인식-학습 모델 설계_3_Audio-Visual Decoder Layer
          [그림] Audio-Visual Decoder Layer
        • 위 세 단계를 합쳐서 최종 학습 모델을 구성하며, 최종 학습 모델은 하나의 pair로 이루어진 비디오와 오디오 데이터를 입력으로 받아 해당 데이터가 어떠한 발화인지 인식

        • 립리딩(입모양) 음성인식-학습 모델 설계_4_		전체 학습 모델 블록도
          [그림] 전체 학습 모델 블록도
    • 모델 학습 세팅
      • Cross-Entropy loss, Adam optimizer 등을 사용하여 모델을 학습하는 데 구성
      • 잡음 환경과 오디오의 발화 길이가 다양한 분포를 갖고 있기 때문에, 모델 학습을 용이하게 하기 위해 Curriculum learning 방식을 시도
      • Curriculum learning을 통해 짧은 길이의 데이터부터 긴 길이의 데이터를 학습하고, 잡음이 없는 환경의 데이터부터 잡음이 존재하는 데이터를 학습하는 방향으로 진행
      • 이를 통해 학습이 용이한 데이터부터 점차 일반적인 데이터로 확장하여 모델의 학습이 빠르고 적절하게 이루어지도록 함
      • 음성인식 성능 평가를 진행하기 위해 음절오류율(CER)과 단어오류율(WER)을 통해 평가 진행
      • 전문가 데이터의 10% 만큼의 수량을 가지고 모델을 테스트했을 때 CER 25%와 WER 50%의 인식 성능을 내도록 하는 것이 목표 성능이고, 이 결과를 통해 학습 모델을 가지고 데이터의 유효성을 판단할 수 있는 근거로 제시

    2. 서비스 활용 시나리오

    • 구축한 모델은 AI 아바타, 청각장애인 인식용 서비스 개발 등에 활용할 수 있음
    • AI 아바타 : 해당 과제를 통해 구축한 립리딩 데이터셋을 활용하여 AI 아바타 모델을 학습할 수 있음. 이를 통해 보다 자연스러운 아바타의 립리딩(입모양) 발화가 가능함.
      립리딩(입모양) 음성인식-서비스 활용 시나리오_1_출처 : maum.ai 홈페이지
      [출처 : maum.ai 홈페이지]
    • 청각 장애인을 위한 발음 교정 서비스 : 최근 청각장애인들을 위한 발음 교정용 학습 시스템들이 많이 연구되고 있으며, 발성 뿐만 아니라 입의 모양이 올바른지 확인이 필요함. 따라서 본 과제의 데이터셋을 활용하여 한국어 립리딩(입모양) 시스템 개발에 활용할 수 있음. 
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    1. 데이터셋 구성
    립리딩(입모양) 음성인식-데이터셋 구성_1

     

    2. 라벨링데이터 구성

    1. 데이터셋 구성
    번호 항목 타입 필수여부
    영문명 한글명
    1 dataset 데이터셋 object Y
      1–1 description 데이터 정보 string Y
    1–2 url 데이터셋 url (AIHUB 홈페이지) string Y
    1–3 version 데이터 버전 number Y
    1–4 year 연도 string Y
    2 video_info 영상 정보 object Y
      2–1 video_name 영상 파일명 string Y
    2–2 video_format 영상 포맷 string Y
    2–3 video_duration 영상 길이 string Y
    2–4 FPS 프레임 number Y
    2–5 resolution 해상도 string Y
    3 audio_info 음성 정보 object Y
      3–1 audio_name 음성 파일명 string Y
    3–2 audio_format 음성 포맷 string Y
    3–3 audio_duration 음성 길이 string Y
    3–4 sampling_rate 오디오 샘플링레이트 string Y
    3–5 channel(s) 오디오 채널 수 number Y
    4 audio_env 음성 환경 object Y
      4–1 noise 소음환경 number Y
    5 video_env 영상 환경 object Y
      5–1 env 촬영환경 string  
    5–2 angle 촬영각도 string Y
    6 sentence_info 문장정보 array Y
      6–1 id 문장 ID string Y
    6–2 topic 발화주제 string Y
    6–3 sentence_text 발화내용 string Y
    6–4 start_time 발화 시작 시간 number Y
    6–5 end_time 발화 종료 시간 number Y
    7 speaker_info 발화자 정보 object Y
      7–1 speaker_ID 발화자 ID string Y
    7–2 specificity 특성 string Y
    7–3 gender 성별 string Y
    7–4 age 연령대 number Y
    7–5 accent 사투리 string Y
    8 bounding_box_info 바운딩박스 정보 object Y
      8–1 Face_bounding_box 얼굴 영역 바운딩박스 array Y
    8–1–1 xtl_ytl_xbr_ybr 얼굴 영역 좌표값 number Y
    8–2 Lip_bounding_box 입술 영역 바운딩박스 array Y
    8–2–1 xtl_ytl_xbr_ybr 입술 영역 좌표값 number Y

     

     

    3. 라벨링데이터 실제 예시
    립리딩(입모양) 음성인식-라벨링데이터 실제 예시_1

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜마인즈랩
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    송혜원 031-625-4349 [email protected] · 데이터 품질관리
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜크라우드웍스 · 데이터 수집, 정제, 가공
    서강대학교 산학협력단 · 학습 모델 개발
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    송혜원 031-625-4349 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.