콘텐츠로 건너뛰기 메뉴로 건너뛰기 푸터로 건너뛰기
데이터를 불러오고 있습니다
데이터를 저장하고 있습니다
#자연어

대규모 구매도서 기반 한국어 말뭉치 데이터

대규모 도서 한국어 말뭉치 데이터
  • 분야한국어
  • 유형 텍스트
구축년도 : 2021 갱신년월 : 2023-05 조회수 : 17,217 다운로드 : 1,910 용량 :
샘플 데이터 ?

샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

※ 내국인만 데이터 신청이 가능합니다.

  • 데이터 변경이력

    데이터 변경이력
    버전 일자 변경내용 비고
    1.2 2023-05-23 최종데이터 개방
    1.1 2023-01-04 데이터 재연결
    1.0 2022-07-29 데이터 최초 개방

    데이터 히스토리

    데이터 히스토리
    일자 변경내용 비고
    2024-05-23 AI모델 소스코드 수정
    2023-10-05 저작도구 소스코드, 저작도구 설명서, AI 모델 소스코드, AI 모델 환경 설치가이드 등록
    2023-04-25 샘플데이터 수정
    2022-07-29 콘텐츠 최초 등록

    소개

    인공지능 학습용 데이터를 수집하고 품질 평가 및 검증을 통하여 고품질의 학습용 데이터를 구축한다

    구축목적

    이용자와 수요자 누구나 사용 가능하고 공공분야 및 산업분야에서 데이터를 활용 및 사용서비스 발굴로 도서 말뭉치 분야 인공지능 활용 서비스를 활성화 하도록 제공한다
  • 분야 다양성 분포

    분야 다양성 분포
    주류 목표 실적 (메타 엑셀) JSON 파일 추출
    강목  어절  비중 강목 강목코드 어절 수 비중 어절 수 비중
    총류      

    강연집,

    수필집,

    연설문집

    040 843,618 0.08% 839,819 0.08%
         

    도서학,

    서지학

    010 1,494,650 0.14% 1,491,019 0.14%
          문헌정보학 020 7,444,373 0.70% 7,438,489 0.70%
          백과사전 030 1,690,848 0.16% 1,686,643 0.16%
         

    신문,

    언론,

    저널리즘

    070 4,026,624 0.38% 4,016,167 0.38%
         

    일반 전진,

    총서

    080 1,988,122 0.19% 1,984,374 0.19%
         

    일반 학회,

    단체,

    협회,

    기관,

    연구기관

    060 21,056 0.00% 21,055 0.00%
          총류 000 10,018,964 0.95% 9,730,287 0.92%
    총류 합계 35,104,128 3.51% 총류 합계   27,528,255 2.60% 27,207,853 2.59%
    철학       경학 140 3,339,077 0.32% 3,222,183 0.31%
          논리학 170 526,601 0.05% 525,257 0.05%
         

    동양철학,

    동양사상

    150 9,482,127 0.90% 9,451,312 0.90%
          서양철학 160 10,102,585 0.96% 10,020,682 0.95%
          심리학 180 42,432,396 4.01% 42,363,637 4.03%
         

    윤리학,

    도덕철학

    190 22,018,405 2.08% 22,000,679 2.09%
          철학 100 4,947,518 0.47% 4,936,719 0.47%
          철학의 체계 130 270,583 0.03% 268,048 0.03%
          형이상학 110 1,339,844 0.13% 1,336,914 0.13%
    철학 합계 69,003,228 6.90% 철학 합계   94,459,136 8.94% 94,125,431 8.95%
    종교 기독교 27,515,774 2.75% 기독교 230 38,986,746 3.69% 38,888,885 3.70%
    불교 외 8,232,741 0.82% 불교 외 소계   12,022,011 1.14% 11,999,802 1.14%
          불교 220 7,675,285 0.73% 7,665,386 0.73%
          비교종교 210 3,070,673 0.29% 3,062,202 0.29%
          종교 200 1,276,053 0.12% 1,272,214 0.12%
    종교 합계 35,748,515 3.57% 종교 합계   51,008,757 4.83% 50,888,687 4.84%
    사회과학 행정학 2,699,852 0.27% 행정학 350 8,266,967 0.78% 8,214,301 0.78%
    경제학 170,755,060 17.08% 경제학 320 155,304,676 14.69% 154,687,482 14.70%

    사회학,

    사회문제

    33,106,501 3.31%

    사회학,

    사회문제

    330 40,401,587 3.82% 40,295,311 3.83%
    정치학 20,345,653 2.03% 정치학 340 27,441,930 2.60% 27,286,887 2.59%
    그 외 54,758,895 5.48% 그 외 소계   69,002,397 6.53% 68,653,824 6.52%
          교육학 370 19,258,834 1.82% 19,193,009 1.82%
         

    국방,

    군사학

    390 3,654,885 0.35% 3,625,224 0.34%
         

    법률,

    법학

    360 30,852,985 2.92% 30,691,626 2.92%
          사회과학 300 10,055,947 0.95% 9,986,493 0.95%
          통계자료 310 190,982 0.02% 189,605 0.02%
         

    풍습,

    예절,

    민속학

    380 4,988,764 0.47% 4,967,867 0.47%
    사회과학 합계 281,665,961 28.17% 사회과학 합계   300,417,557 28.42% 299,137,805 28.43%
    자연과학       동물학 490 1,551,860 0.15% 1,548,160 0.15%
          물리학 420 3,767,389 0.36% 3,769,717 0.36%
          생명과학 470 4,254,560 0.40% 4,296,819 0.41%
          수학 410 2,298,085 0.22% 2,280,336 0.22%
          식물학 480 913,677 0.09% 895,853 0.09%
          자연과학 400 6,248,842 0.59% 6,167,781 0.59%
          지학 450 1,434,805 0.14% 1,427,789 0.14%
          천문학 440 2,198,308 0.21% 2,188,941 0.21%
          화학 430 738,219 0.07% 728,254 0.07%
    자연과학 합계 22,563,656 2.26% 자연과학 합계   23,405,745 2.21% 23,303,650 2.21%
    기술과학

    의학,

    농업,

    공학

    26,968,509 2.70%

    의학,

    농업,

    공학 소계

      23,830,005 2.25% 23,679,423 2.25%
          의학 510 17,909,214 1.69% 17,823,801 1.69%
         

    농업,

    농학

    520 2,699,783 0.26% 2,692,766 0.26%
         

    공학,

    공업일반,

    토목공학,

    환경공학

    530 3,221,008 0.30% 3,162,856 0.30%

    건축,

    기계,

    전기

    7,456,225 0.75%

    건축,

    기계,

    전기 소계

      5,539,915 0.52% 5,535,466 0.53%
         

    건축,

    건축학

    540 1,201,263 0.11% 1,200,176 0.11%
          기계공학 550 2,135,862 0.20% 2,119,778 0.20%
         

    전기공학,

    통신공학,

    전자공학

    560 1,075,295 0.10% 1,065,872 0.10%
          기술과학 500 1,127,495 0.11% 1,149,640 0.11%

    화학,

    제조,

    가정학

    29,006,022 2.90%

    화학,

    제조,

    가정학 소계

      24,691,122 2.34% 24,571,917 2.34%
          화학공학 570 1,490,793 0.14% 1,437,988 0.14%
          제조업 580 404,481 0.04% 403,632 0.04%
          생활과학 590 22,795,848 2.16% 22,730,297 2.16%
    기술과학 합계 63,430,756 6.34% 기술과학 합계   54,061,042 5.11% 53,786,806 5.11%
    예술       건축술 610 1,480,038 0.14% 1,477,093 0.14%
         

    공연예술,

    매체예술

    680 5,863,360 0.55% 5,827,526 0.55%
          공예 630 319,997 0.03% 319,448 0.03%
          사진예술 660 1,121,476 0.11% 1,117,252 0.11%
          서예 640 172,388 0.02% 172,166 0.02%
          예술 600 4,562,820 0.43% 4,551,096 0.43%
          오락,스포츠 690 6,397,160 0.61% 6,370,683 0.61%
          음악 670 5,726,700 0.54% 5,710,319 0.54%
         

    조각,

    조형미술

    620 146,087 0.01% 144,906 0.01%
         

    회화,

    도화,

    디자인

    650 4,750,161 0.45% 4,738,256 0.45%
    예술 합계 36,549,093 3.65% 예술 합계   30,540,187 2.89% 30,428,745 2.89%
    언어 한국어 7,317,409 0.73% 한국어 710 12,290,744 1.16% 11,995,147 1.14%
    언어                          -   언어 700 1,547,475 0.15% 1,537,949 0.15%
    언어 합계 7,317,409 0.73% 언어 합계   13,838,219 1.31% 13,533,096 1.2%
    문학 문학     문학 800 18,348,571 1.74% 18,320,309 1.74%
    한국문학     한국문학 810 365,037,741 34.53% 364,062,827 34.60%
    문학 합계 362,727,119 36.27% 문학 합계   383,386,312 36.27% 382,383,136 36.34%
    역사       남아메리카 950 184,298 0.02% 184,180 0.02%
          북아메리카 940 2,267,703 0.21% 2,240,892 0.21%
          아시아 910 41,213,084 3.90% 40,459,128 3.85%
          아프리카 930 321,835 0.03% 321,498 0.03%
          역사 900 9,244,962 0.87% 9,250,834 0.88%
          유럽 920 5,957,022 0.56% 5,936,833 0.56%
          전기 990 5,337,169 0.50% 5,296,601 0.50%
          지리 980 13,843,683 1.31% 13,703,469 1.30%
    역사 합계 86,345,134 8.63% 역사 합계   78,369,756 7.41% 77,393,435 7.36%
    합계   1,000,000,000 100.00%     1,057,014,966 100.00% 1,052,188,644 100.00%

     

    시대적 다양성 분포

    시대적 다양성 분포
     
    년도
    목표 실적 (메타 엑셀) JSON 파일 추출
    어절수 비중 어절수  비중  비중(sum) 어절수  비중  비중(sum)
    <1999 0 0 0               - 0                 - 0
    2000 40,000,000 4% 2,634,582 0.25% 5% 2,633,356 0.25% 5%
    2001 36,012,020 3.41% 35,999,672 3.42%
    2002 12,510,106 1.18% 12,528,224 1.19%
    2003 130,000,000 13% 24,617,092 2.33% 15% 24,574,816 2.34% 15%
    2004 59,063,956 5.59% 58,939,732 5.60%
    2005 77,315,989 7.31% 77,104,283 7.33%
    2006 130,000,000 13% 57,913,513 5.48% 12% 57,755,592 5.49% 13%
    2007 35,909,499 3.40% 35,825,672 3.40%
    2008 38,172,041 3.61% 38,122,210 3.62%
    2009 130,000,000 13% 4,792,947 0.45% 13% 4,784,903 0.45% 13%
    2010 17,656,547 1.67% 17,637,938 1.68%
    2011 27,925,508 2.64% 27,840,427 2.65%
    2012 38,475,299 3.64% 38,104,129 3.62%
    2013 44,082,655 4.17% 43,809,508 4.16%
    2014 300,000,000 30% 49,866,294 4.72% 29% 49,527,067 4.71% 29%
    2015 53,083,740 5.02% 52,731,343 5.01%
    2016 60,087,488 5.68% 59,650,029 5.67%
    2017 73,984,272 7.00% 73,200,609 6.96%
    2018 70,801,637 6.70% 70,521,841 6.70%
    2019 270,000,000 27% 82,038,513 7.76% 26% 81,613,981 7.76% 26%
    2020 104,981,815 9.93% 104,575,333 9.94%
    2021 85,089,453 8.05% 84,707,979 8.05%
    합계 1,000,000,000 100.0% 1,057,014,966 100.0% 100.0% 1,052,188,644 100.0% 100.0%
  • 저작도구 설명서 및 저작도구 다운로드

    저작도구 설명서 다운로드 저작도구 다운로드
  • AI 모델 상세 설명서 다운로드

    AI 모델 상세 설명서 다운로드 AI 모델 다운로드

    인공지능 데이터 활용 모델 개발 요약표

    인공지능 데이터 활용 모델 개발 요약표
    데이터명 AI 모델 모델 성능 지표 응용서비스(예시)
    대규모 구매도서 기반 한국어 말뭉치 데이터 KorBERT Exact Match(EM) - 주어진 문서의 내용을 토대로 질의응답이 가능한 검색엔진
    (형태소) F1 score - 사용자가 작성한 리뷰의 감정(긍정/부정)을 판단할 수 있는 시스템
    대규모 구매도서 기반 한국어 말뭉치 데이터 KorBERT Exact Match(EM) - PDF 문서의 텍스트를 원문대로 복원해주는 서비스
    (SPM) F1 score

     

    대규모 구매도서 기반 한국어 말뭉치 데이터

     

    • 인공지능 학습용 데이터 활용모델 개발 방안
      – 2018년, 구글에서 기존 자연어 임베딩 모델보다 성능이 우수한 BERT 모델을 발표한 이후, 자연어 처리의 품질은 비약적으로 높아졌으며, 최근에는 GPT 모델 버전 3까지 발표되면서 질의 응답, 문장 생성, 문서 요약 등의 자연어 처리 문제가 빠르게 해결되어 가고 있음.
      – 자연어 임베딩 모델을 구축하기 위해서는 대규모의 말뭉치가 필요한데, GPT와 BERT 모델 구축에서 사용된 말뭉치는 영문 도서 기반의 BookCorpus 데이터이며, 총 7천 4백만 문장, 9억 8천 어절로 구성되어 있음.
      – 도서 텍스트는 교정과 감수가 이루어진 양질의 데이터로서 자연어 임베딩 모델의 품질을 높이는 데 크게 기여할 수 있으며, BERT와 GPT 등의 임베딩 모델에서 그 우수성을 검증하였음.
      – BERT 모델의 발표 이후 한국에서도 KoBERT(SKT), KorBERT(ETRI) 등의 한국어 기반 BERT 모델이 나왔으나, 해외에서와는 다르게 양질의 한국어 도서 기반 말뭉치를 사용하지 못했음.
      – 본 사업으로 구축되는 대규모 도서 말뭉치 데이터를 한국어 임베딩 모델에 도입함로써, 품질 높은 인공지능 언어모델을 구축할 수 있음.
      – 해당 인공지능 언어 모델로 해결하고자 하는 자연어 처리 문제는 다음과 같음.
      (1) 형태소 분석이나 개체명 인식, 자동 띄어쓰기와 같은 문법 수준의 문제
      (2) 의미역 인식이나 의존구문 분석, 문서 주제 분류 등의 문맥 기반 분류 문제
      (3) 입력된 문서와 질문에 대해 정답을 제시하는 기계독해 등의 의미 인식 문제
      – 해당 인공지능 언어 모델을 활용하여 응용할 수 있는 분야의 예시는 다음과 같음.
      (1) 주어진 문서의 내용을 토대로 질의응답이 가능한 검색엔진
      (2) 사용자가 작성한 리뷰의 감정(긍정/부정)을 판단할 수 있는 시스템
      (3) PDF 문서의 텍스트를 원문대로 복원해주는 서비스
    • 인공지능 모델을 적용한 기술혁신 지원 방안
      – 대규모 도서 말뭉치를 이용하여 구축되는 최초의 한국어 BERT 모델(KorBERT)을 개방하여, 한국어 기반의 인공지능 기술 혁신을 도모하고자 함.
      – KorBERT 모델 구축에 대한 과정에 대한 자료와 성능 측정 결과를 공개함으로써, 대규모 도서 말뭉치를 활용한 자체적인 인공지능 모델의 개발을 촉진함.
      – 본 사업으로 구축된 KorBERT의 프리트레인된 모델을 기반으로, 기업이나 기관, 개인이 확보한  소규모의 도메인 데이터를 추가로 파인튜닝하는 방식(전이학습, Transfer Learning)으로, 손쉽게 고품질의 자연어 처리 태스크 수행이 가능하도록 지원함.
  • 설명서 및 활용가이드 다운로드

    데이터 설명서 다운로드 구축활용가이드 다운로드

    단계별 데이터 포맷

    단계별 데이터 포맷
    데이터 획득 데이터 정제 데이터 라벨링
    국제 전자책 표준인 ePUB TXT 포맷(UTF-8) JSON
    PDF 수급은 가급적 지양 보조적으로 CSV 이용 AI 모델구축 과정의 효율 고려

     

    데이터 속성

    • 라벨링 공통 메타정보
    데이터 속성 라벨링 공통 메타정보
    No. 속성명 속성 설명 데이터
    타입
    필수
    여부
    예시
    1 Dataset.identifier 데이터셋 식별자 string 필수 BOOK_CORPUS_100_110_00001
    2 Dataset.name 데이터셋 이름 string 필수 도서 텍스트 말뭉치
    3 Dataset.src_path 데이터셋 폴더 위치 string 사용안함 원시데이터는 저작권 문제로 공개할 수 없음
    4 Dataset.label_path 데이터셋 레이블 폴더 위치 string 필수 /dataSet/corpus/100/110
    5 Dataset.category 데이터셋 카테고리 string 필수 0: 말뭉치
    6 Dataset.type 데이터셋 타입 number 필수 0: 텍스트

     

    어노테이션 데이터 구조

    어노테이션 데이터 구조
    No. 속성명 속성 설명 데이터
    타입
    필수
    여부
    예시
    1 paragraphs[].id 단락 식별자 string 필수 BOOK_CORPUS_00001.1
    2 paragraphs[].info.kdc 도서 십진분류번호 number 필수 110: 철학-형이상학 등
    3 paragraphs[].info.class 도서 분류 number 선택 0: 국내도서, 1: 해외도서(번역서)
    4 paragraphs[].info.title 도서 제목 string 선택 이야기꾼 구연설화
    5 paragraphs[].info.author.name 저자 이름 string 선택 황인덕
    6 paragraphs[].info.author.birth_year 저자 생년 number 선택 1953
    7 paragraphs[].info.author.write_year 집필 나이 number 선택 48
    8 paragraphs[].info.author.jobs 저자 직업 array 선택 소설가
    9 paragraphs[].info.publisher 출판사 string 선택 박이정
    10 paragraphs[].info.published_year 출간연도 number 선택 2007
    11 paragraphs[].sentences[].id 문장 식별자 string 필수 BOOK_CORPUS_00001.1.1
    12 paragraphs[].sentences[].text 문장 텍스트 string 필수 아버지가 들어가신다.
    13 paragraphs[].sentences[].original_text 원문 텍스트 string 필수 아버지(Father)가 들어가신다.
    14 paragraphs[].sentences[].char_count 음절수 number 필수 12
    15 paragraphs[].sentences[].word_count 어절수 number 필수 3
    16 paragraphs[].sentences[].noise_ratio 노이즈 비율 number 필수 0.4
    17 objects[].id 오브젝트 식별자 string 필수 OBJECTS.1
    18 objects[].caption 캡션(설명) 텍스트 string 선택 그림 1. 아버지 사진
    19 statistics.paragraph_count 문단 개수 number 필수 812
    20 statistics.sentence_count 문장 개수 number 필수 3534
    21 statistics.average_sentence_count_per_paragraph 문단별 평균 문장 개수 number 필수 4.352
    22 statistics.sigma_sentence_count_per_paragraph 문단별 평균 문장 개수 표준편차 number 필수 1.342
    23 statistics.average_char_count_per_sentence 문장 평균 음절수 number 필수 28.4
    24 statistics.sigma_char_count_per_sentence 문장 평균 음절수 표준편차 number 필수 5.34
    25 statistics.average_word_count_per_sentence 문장 평균 어절수 number 필수 7.43
    26 statistics.sigma_word_count_per_sentence 문장 평균 어절수 표준편차 number 필수 2.341
    27 statistics.sigma_word_count_per_sentence 문장 평균 어절수 표준편차 number 필수 2.341

     

    데이터 예시

    대규모 구매도서 기반 한국어 말뭉치 데이터- 데이터 예시

  • 데이터셋 구축 담당자

    수행기관(주관) : ㈜웅진북센
    수행기관(주관)
    책임자명 전화번호 대표이메일 담당업무
    양상융 031-955-2840 [email protected] · 데이터 수집
    수행기관(참여)
    수행기관(참여)
    기관명 담당업무
    ㈜아스타리아 · 데이터 가공
    와이즈닷 · 데이터 정제
    데이터 관련 문의처
    데이터 관련 문의처
    담당자명 전화번호 이메일
    양상융 031-955-2840 [email protected]
보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청
  • 인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
    * 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
    * 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석

    1. AI 허브 접속
      신청자
    2. 안심존
      사용신청
      신청자신청서류 제출*
    3. 심사구축기관
    4. 승인구축기관
    5. 데이터 분석 활용신청자
    6. 분석모델반출신청자
  • 1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
    2. 기관생명윤리위원회(IRB) 승인된 연구계획서
    3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
    4. 안심존 이용 신청서 [다운로드]
    5. 보안서약서 [다운로드]
    ※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.

  • 신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.