AI-Hub

#자연어

대규모 구매도서 기반 한국어 말뭉치 데이터

분야한국어
유형 텍스트

구축년도 : 2021 갱신년월 : 2023-05 조회수 : 17,217 다운로드 : 1,910 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용
1.2	2023-05-23	최종데이터 개방
1.1	2023-01-04	데이터 재연결
1.0	2022-07-29	데이터 최초 개방

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-05-23	AI모델 소스코드 수정
2023-10-05	저작도구 소스코드, 저작도구 설명서, AI 모델 소스코드, AI 모델 환경 설치가이드 등록
2023-04-25	샘플데이터 수정
2022-07-29	콘텐츠 최초 등록

소개

인공지능 학습용 데이터를 수집하고 품질 평가 및 검증을 통하여 고품질의 학습용 데이터를 구축한다

구축목적

이용자와 수요자 누구나 사용 가능하고 공공분야 및 산업분야에서 데이터를 활용 및 사용서비스 발굴로 도서 말뭉치 분야 인공지능 활용 서비스를 활성화 하도록 제공한다

메타데이터 구조표
데이터 영역	한국어	데이터 유형	텍스트
데이터 형식	txt	데이터 출처	도서
라벨링 유형	문장(자연어)	라벨링 형식	JSON
데이터 활용 서비스	음성합성, 음성 인식 서비스	데이터 구축년도/ 데이터 구축량	2021년/10억 어절

분야 다양성 분포

분야 다양성 분포
주류	목표			실적 (메타 엑셀)				JSON 파일 추출
주류	강목	어절	비중	강목	강목코드	어절 수	비중	어절 수	비중
총류				강연집, 수필집, 연설문집	040	843,618	0.08%	839,819	0.08%
				도서학, 서지학	010	1,494,650	0.14%	1,491,019	0.14%
				문헌정보학	020	7,444,373	0.70%	7,438,489	0.70%
				백과사전	030	1,690,848	0.16%	1,686,643	0.16%
				신문, 언론, 저널리즘	070	4,026,624	0.38%	4,016,167	0.38%
				일반 전진, 총서	080	1,988,122	0.19%	1,984,374	0.19%
				일반 학회, 단체, 협회, 기관, 연구기관	060	21,056	0.00%	21,055	0.00%
				총류	000	10,018,964	0.95%	9,730,287	0.92%
	총류 합계	35,104,128	3.51%	총류 합계		27,528,255	2.60%	27,207,853	2.59%
철학				경학	140	3,339,077	0.32%	3,222,183	0.31%
				논리학	170	526,601	0.05%	525,257	0.05%
				동양철학, 동양사상	150	9,482,127	0.90%	9,451,312	0.90%
				서양철학	160	10,102,585	0.96%	10,020,682	0.95%
				심리학	180	42,432,396	4.01%	42,363,637	4.03%
				윤리학, 도덕철학	190	22,018,405	2.08%	22,000,679	2.09%
				철학	100	4,947,518	0.47%	4,936,719	0.47%
				철학의 체계	130	270,583	0.03%	268,048	0.03%
				형이상학	110	1,339,844	0.13%	1,336,914	0.13%
	철학 합계	69,003,228	6.90%	철학 합계		94,459,136	8.94%	94,125,431	8.95%
종교	기독교	27,515,774	2.75%	기독교	230	38,986,746	3.69%	38,888,885	3.70%
	불교 외	8,232,741	0.82%	불교 외 소계		12,022,011	1.14%	11,999,802	1.14%
				불교	220	7,675,285	0.73%	7,665,386	0.73%
				비교종교	210	3,070,673	0.29%	3,062,202	0.29%
				종교	200	1,276,053	0.12%	1,272,214	0.12%
	종교 합계	35,748,515	3.57%	종교 합계		51,008,757	4.83%	50,888,687	4.84%
사회과학	행정학	2,699,852	0.27%	행정학	350	8,266,967	0.78%	8,214,301	0.78%
	경제학	170,755,060	17.08%	경제학	320	155,304,676	14.69%	154,687,482	14.70%
	사회학, 사회문제	33,106,501	3.31%	사회학, 사회문제	330	40,401,587	3.82%	40,295,311	3.83%
	정치학	20,345,653	2.03%	정치학	340	27,441,930	2.60%	27,286,887	2.59%
	그 외	54,758,895	5.48%	그 외 소계		69,002,397	6.53%	68,653,824	6.52%
				교육학	370	19,258,834	1.82%	19,193,009	1.82%
				국방, 군사학	390	3,654,885	0.35%	3,625,224	0.34%
				법률, 법학	360	30,852,985	2.92%	30,691,626	2.92%
				사회과학	300	10,055,947	0.95%	9,986,493	0.95%
				통계자료	310	190,982	0.02%	189,605	0.02%
				풍습, 예절, 민속학	380	4,988,764	0.47%	4,967,867	0.47%
	사회과학 합계	281,665,961	28.17%	사회과학 합계		300,417,557	28.42%	299,137,805	28.43%
자연과학				동물학	490	1,551,860	0.15%	1,548,160	0.15%
				물리학	420	3,767,389	0.36%	3,769,717	0.36%
				생명과학	470	4,254,560	0.40%	4,296,819	0.41%
				수학	410	2,298,085	0.22%	2,280,336	0.22%
				식물학	480	913,677	0.09%	895,853	0.09%
				자연과학	400	6,248,842	0.59%	6,167,781	0.59%
				지학	450	1,434,805	0.14%	1,427,789	0.14%
				천문학	440	2,198,308	0.21%	2,188,941	0.21%
				화학	430	738,219	0.07%	728,254	0.07%
	자연과학 합계	22,563,656	2.26%	자연과학 합계		23,405,745	2.21%	23,303,650	2.21%
기술과학	의학, 농업, 공학	26,968,509	2.70%	의학, 농업, 공학 소계		23,830,005	2.25%	23,679,423	2.25%
				의학	510	17,909,214	1.69%	17,823,801	1.69%
				농업, 농학	520	2,699,783	0.26%	2,692,766	0.26%
				공학, 공업일반, 토목공학, 환경공학	530	3,221,008	0.30%	3,162,856	0.30%
	건축, 기계, 전기	7,456,225	0.75%	건축, 기계, 전기 소계		5,539,915	0.52%	5,535,466	0.53%
				건축, 건축학	540	1,201,263	0.11%	1,200,176	0.11%
				기계공학	550	2,135,862	0.20%	2,119,778	0.20%
				전기공학, 통신공학, 전자공학	560	1,075,295	0.10%	1,065,872	0.10%
				기술과학	500	1,127,495	0.11%	1,149,640	0.11%
	화학, 제조, 가정학	29,006,022	2.90%	화학, 제조, 가정학 소계		24,691,122	2.34%	24,571,917	2.34%
				화학공학	570	1,490,793	0.14%	1,437,988	0.14%
				제조업	580	404,481	0.04%	403,632	0.04%
				생활과학	590	22,795,848	2.16%	22,730,297	2.16%
	기술과학 합계	63,430,756	6.34%	기술과학 합계		54,061,042	5.11%	53,786,806	5.11%
예술				건축술	610	1,480,038	0.14%	1,477,093	0.14%
				공연예술, 매체예술	680	5,863,360	0.55%	5,827,526	0.55%
				공예	630	319,997	0.03%	319,448	0.03%
				사진예술	660	1,121,476	0.11%	1,117,252	0.11%
				서예	640	172,388	0.02%	172,166	0.02%
				예술	600	4,562,820	0.43%	4,551,096	0.43%
				오락,스포츠	690	6,397,160	0.61%	6,370,683	0.61%
				음악	670	5,726,700	0.54%	5,710,319	0.54%
				조각, 조형미술	620	146,087	0.01%	144,906	0.01%
				회화, 도화, 디자인	650	4,750,161	0.45%	4,738,256	0.45%
	예술 합계	36,549,093	3.65%	예술 합계		30,540,187	2.89%	30,428,745	2.89%
언어	한국어	7,317,409	0.73%	한국어	710	12,290,744	1.16%	11,995,147	1.14%
	언어	-		언어	700	1,547,475	0.15%	1,537,949	0.15%
	언어 합계	7,317,409	0.73%	언어 합계		13,838,219	1.31%	13,533,096	1.2%
문학	문학			문학	800	18,348,571	1.74%	18,320,309	1.74%
	한국문학			한국문학	810	365,037,741	34.53%	364,062,827	34.60%
	문학 합계	362,727,119	36.27%	문학 합계		383,386,312	36.27%	382,383,136	36.34%
역사				남아메리카	950	184,298	0.02%	184,180	0.02%
				북아메리카	940	2,267,703	0.21%	2,240,892	0.21%
				아시아	910	41,213,084	3.90%	40,459,128	3.85%
				아프리카	930	321,835	0.03%	321,498	0.03%
				역사	900	9,244,962	0.87%	9,250,834	0.88%
				유럽	920	5,957,022	0.56%	5,936,833	0.56%
				전기	990	5,337,169	0.50%	5,296,601	0.50%
				지리	980	13,843,683	1.31%	13,703,469	1.30%
	역사 합계	86,345,134	8.63%	역사 합계		78,369,756	7.41%	77,393,435	7.36%
합계		1,000,000,000	100.00%			1,057,014,966	100.00%	1,052,188,644	100.00%

시대적 다양성 분포

시대적 다양성 분포
년도	목표		실적 (메타 엑셀)			JSON 파일 추출
년도	어절수	비중	어절수	비중	비중(sum)	어절수	비중	비중(sum)
<1999	0	0	0	-	0		-	0
2000	40,000,000	4%	2,634,582	0.25%	5%	2,633,356	0.25%	5%
2001			36,012,020	3.41%		35,999,672	3.42%
2002			12,510,106	1.18%		12,528,224	1.19%
2003	130,000,000	13%	24,617,092	2.33%	15%	24,574,816	2.34%	15%
2004			59,063,956	5.59%		58,939,732	5.60%
2005			77,315,989	7.31%		77,104,283	7.33%
2006	130,000,000	13%	57,913,513	5.48%	12%	57,755,592	5.49%	13%
2007			35,909,499	3.40%		35,825,672	3.40%
2008			38,172,041	3.61%		38,122,210	3.62%
2009	130,000,000	13%	4,792,947	0.45%	13%	4,784,903	0.45%	13%
2010			17,656,547	1.67%		17,637,938	1.68%
2011			27,925,508	2.64%		27,840,427	2.65%
2012			38,475,299	3.64%		38,104,129	3.62%
2013			44,082,655	4.17%		43,809,508	4.16%
2014	300,000,000	30%	49,866,294	4.72%	29%	49,527,067	4.71%	29%
2015			53,083,740	5.02%		52,731,343	5.01%
2016			60,087,488	5.68%		59,650,029	5.67%
2017			73,984,272	7.00%		73,200,609	6.96%
2018			70,801,637	6.70%		70,521,841	6.70%
2019	270,000,000	27%	82,038,513	7.76%	26%	81,613,981	7.76%	26%
2020			104,981,815	9.93%		104,575,333	9.94%
2021			85,089,453	8.05%		84,707,979	8.05%
합계	1,000,000,000	100.0%	1,057,014,966	100.0%	100.0%	1,052,188,644	100.0%	100.0%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

인공지능 데이터 활용 모델 개발 요약표

인공지능 데이터 활용 모델 개발 요약표
데이터명	AI 모델	모델 성능 지표	응용서비스(예시)
대규모 구매도서 기반 한국어 말뭉치 데이터	KorBERT	Exact Match(EM)	- 주어진 문서의 내용을 토대로 질의응답이 가능한 검색엔진
대규모 구매도서 기반 한국어 말뭉치 데이터	(형태소)	F1 score	- 사용자가 작성한 리뷰의 감정(긍정/부정)을 판단할 수 있는 시스템
대규모 구매도서 기반 한국어 말뭉치 데이터	KorBERT	Exact Match(EM)	- PDF 문서의 텍스트를 원문대로 복원해주는 서비스
대규모 구매도서 기반 한국어 말뭉치 데이터	(SPM)	F1 score	- PDF 문서의 텍스트를 원문대로 복원해주는 서비스

대규모 구매도서 기반 한국어 말뭉치 데이터

인공지능 학습용 데이터 활용모델 개발 방안
– 2018년, 구글에서 기존 자연어 임베딩 모델보다 성능이 우수한 BERT 모델을 발표한 이후, 자연어 처리의 품질은 비약적으로 높아졌으며, 최근에는 GPT 모델 버전 3까지 발표되면서 질의 응답, 문장 생성, 문서 요약 등의 자연어 처리 문제가 빠르게 해결되어 가고 있음.
– 자연어 임베딩 모델을 구축하기 위해서는 대규모의 말뭉치가 필요한데, GPT와 BERT 모델 구축에서 사용된 말뭉치는 영문 도서 기반의 BookCorpus 데이터이며, 총 7천 4백만 문장, 9억 8천 어절로 구성되어 있음.
– 도서 텍스트는 교정과 감수가 이루어진 양질의 데이터로서 자연어 임베딩 모델의 품질을 높이는 데 크게 기여할 수 있으며, BERT와 GPT 등의 임베딩 모델에서 그 우수성을 검증하였음.
– BERT 모델의 발표 이후 한국에서도 KoBERT(SKT), KorBERT(ETRI) 등의 한국어 기반 BERT 모델이 나왔으나, 해외에서와는 다르게 양질의 한국어 도서 기반 말뭉치를 사용하지 못했음.
– 본 사업으로 구축되는 대규모 도서 말뭉치 데이터를 한국어 임베딩 모델에 도입함로써, 품질 높은 인공지능 언어모델을 구축할 수 있음.
– 해당 인공지능 언어 모델로 해결하고자 하는 자연어 처리 문제는 다음과 같음.
(1) 형태소 분석이나 개체명 인식, 자동 띄어쓰기와 같은 문법 수준의 문제
(2) 의미역 인식이나 의존구문 분석, 문서 주제 분류 등의 문맥 기반 분류 문제
(3) 입력된 문서와 질문에 대해 정답을 제시하는 기계독해 등의 의미 인식 문제
– 해당 인공지능 언어 모델을 활용하여 응용할 수 있는 분야의 예시는 다음과 같음.
(1) 주어진 문서의 내용을 토대로 질의응답이 가능한 검색엔진
(2) 사용자가 작성한 리뷰의 감정(긍정/부정)을 판단할 수 있는 시스템
(3) PDF 문서의 텍스트를 원문대로 복원해주는 서비스
인공지능 모델을 적용한 기술혁신 지원 방안
– 대규모 도서 말뭉치를 이용하여 구축되는 최초의 한국어 BERT 모델(KorBERT)을 개방하여, 한국어 기반의 인공지능 기술 혁신을 도모하고자 함.
– KorBERT 모델 구축에 대한 과정에 대한 자료와 성능 측정 결과를 공개함으로써, 대규모 도서 말뭉치를 활용한 자체적인 인공지능 모델의 개발을 촉진함.
– 본 사업으로 구축된 KorBERT의 프리트레인된 모델을 기반으로, 기업이나 기관, 개인이 확보한 소규모의 도메인 데이터를 추가로 파인튜닝하는 방식(전이학습, Transfer Learning)으로, 손쉽게 고품질의 자연어 처리 태스크 수행이 가능하도록 지원함.

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

단계별 데이터 포맷

단계별 데이터 포맷
데이터 획득	데이터 정제	데이터 라벨링
국제 전자책 표준인 ePUB	TXT 포맷(UTF-8)	JSON
PDF 수급은 가급적 지양	보조적으로 CSV 이용	AI 모델구축 과정의 효율 고려

데이터 속성

라벨링 공통 메타정보

데이터 속성 라벨링 공통 메타정보
No.	속성명	속성 설명	데이터 타입	필수 여부	예시
1	Dataset.identifier	데이터셋 식별자	string	필수	BOOK_CORPUS_100_110_00001
2	Dataset.name	데이터셋 이름	string	필수	도서 텍스트 말뭉치
3	Dataset.src_path	데이터셋 폴더 위치	string	사용안함	원시데이터는 저작권 문제로 공개할 수 없음
4	Dataset.label_path	데이터셋 레이블 폴더 위치	string	필수	/dataSet/corpus/100/110
5	Dataset.category	데이터셋 카테고리	string	필수	0: 말뭉치
6	Dataset.type	데이터셋 타입	number	필수	0: 텍스트

어노테이션 데이터 구조

어노테이션 데이터 구조
No.	속성명	속성 설명	데이터 타입	필수 여부	예시
1	paragraphs[].id	단락 식별자	string	필수	BOOK_CORPUS_00001.1
2	paragraphs[].info.kdc	도서 십진분류번호	number	필수	110: 철학-형이상학 등
3	paragraphs[].info.class	도서 분류	number	선택	0: 국내도서, 1: 해외도서(번역서)
4	paragraphs[].info.title	도서 제목	string	선택	이야기꾼 구연설화
5	paragraphs[].info.author.name	저자 이름	string	선택	황인덕
6	paragraphs[].info.author.birth_year	저자 생년	number	선택	1953
7	paragraphs[].info.author.write_year	집필 나이	number	선택	48
8	paragraphs[].info.author.jobs	저자 직업	array	선택	소설가
9	paragraphs[].info.publisher	출판사	string	선택	박이정
10	paragraphs[].info.published_year	출간연도	number	선택	2007
11	paragraphs[].sentences[].id	문장 식별자	string	필수	BOOK_CORPUS_00001.1.1
12	paragraphs[].sentences[].text	문장 텍스트	string	필수	아버지가 들어가신다.
13	paragraphs[].sentences[].original_text	원문 텍스트	string	필수	아버지(Father)가 들어가신다.
14	paragraphs[].sentences[].char_count	음절수	number	필수	12
15	paragraphs[].sentences[].word_count	어절수	number	필수	3
16	paragraphs[].sentences[].noise_ratio	노이즈 비율	number	필수	0.4
17	objects[].id	오브젝트 식별자	string	필수	OBJECTS.1
18	objects[].caption	캡션(설명) 텍스트	string	선택	그림 1. 아버지 사진
19	statistics.paragraph_count	문단 개수	number	필수	812
20	statistics.sentence_count	문장 개수	number	필수	3534
21	statistics.average_sentence_count_per_paragraph	문단별 평균 문장 개수	number	필수	4.352
22	statistics.sigma_sentence_count_per_paragraph	문단별 평균 문장 개수 표준편차	number	필수	1.342
23	statistics.average_char_count_per_sentence	문장 평균 음절수	number	필수	28.4
24	statistics.sigma_char_count_per_sentence	문장 평균 음절수 표준편차	number	필수	5.34
25	statistics.average_word_count_per_sentence	문장 평균 어절수	number	필수	7.43
26	statistics.sigma_word_count_per_sentence	문장 평균 어절수 표준편차	number	필수	2.341
27	statistics.sigma_word_count_per_sentence	문장 평균 어절수 표준편차	number	필수	2.341

데이터 예시

데이터셋 구축 담당자

수행기관(주관) : ㈜웅진북센

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
양상융	031-955-2840	[email protected]	· 데이터 수집

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜아스타리아	· 데이터 가공
와이즈닷	· 데이터 정제

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
양상융	031-955-2840	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의