AI-Hub

#판결문 # 법률번역 # 기계번역

NEW 생성형AI 국내 법률 대상 다국어 번역 데이터

분야법률
유형 텍스트

구축년도 : 2023 갱신년월 : 2024-10 조회수 : 11,090 다운로드 : 135 용량 :

샘플 데이터

※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며,
데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되어 있을 수 있습니다.

소개 파일 목록 (API 다운로드)

※ 내국인만 데이터 신청이 가능합니다.

문의하기 목록

데이터 변경이력

데이터 변경이력
버전	일자	변경내용	비고
1.1	2024-10-30	데이터 최종 개방
1.0	2024-06-28	데이터 개방	Beta Version

데이터 히스토리

데이터 히스토리
일자	변경내용	비고
2024-06-28	산출물 공개	Beta Version

소개

- 국내 거주 외국인 대상 다국어 법률 정보 내용 전달 목적으로 국내 법률 문서 30,205건 기준으로 영어, 중국어, 힌디어, 베트남어, 러시아어 번역 라벨링 데이터 법률 병렬 말뭉치 151,025건 구축 (언어별 421,019 문장, 총 2,105,095 문장 포함)
- 초거대 AI 말뭉치 데이터 해당 과제임에 따라 서브라벨링 데이터 16,600건 구축
- 학습용 데이터와 서브라벨링 데이터 포함하여 총 167,625건 데이터 구축

구축목적

- 다국어 번역을 통해 언어별 번역 격차 해소
- 기계번역의 번역 오류율을 줄이기 위한 목적
- 외국인을 위한 다국어 법률 정보 내용 전달 목적
- 법률정보에 따라 차이가 발생되는 번역, 특이사항을 일관성 있게 구성하기 위한 번역 DB 구축

메타데이터 구조표
데이터 영역	법률	데이터 유형	텍스트
데이터 형식	csv	데이터 출처	자체 수집 (국가법령정보센터, 국세법령정보시스템)
라벨링 유형	번역	라벨링 형식	json
데이터 활용 서비스	인공지능 법률번역 서비스	데이터 구축년도/ 데이터 구축량	2023년/원천데이터 30,205건 / 라벨링 데이터 151,025건 / 서브라벨링 데이터 16,600건

- 데이터 구축 규모
· 원천데이터
- 국내 법률문서 (판결문, 결정문, 조서)에 대해 법률 분야 9종으로 구분하여 원천데이터 30,205건 구축. 원천데이터에는 한국어 문장 421,019 문장 포함

데이터 구축 규모· 원천데이터
원천데이터 (.csv)
구분		수량	비율	비고
민사	일반민법	6,795	22%	한국어 421,019 문장 포함
	근로기준법	1,583	5%
	부동산 관련 법	1,211	4%
형사	형법	7,664	25%
	형사소송법	6,451	21%
	특별형법	1,772	6%
	근로기준법	308	1%
가사	친족법	1,321	4%
조세	종합소득세	3,100	10%
합계		30,205	100%

· 라벨링 데이터
- 국내 법률문서 (판결문, 결정문, 조서)에 대해 법률 분야 9종으로 구분하여 생성한 원천데이터 30,205건 기반 5개 언어별 다국어 번역 데이터 151,025건 구축. 라벨링 데이터에는 언어별 421,019 문장, 총 2,105,095 문장 포함

데이터 구축 규모· 라벨링 데이터
라벨링데이터 (.json)
구분		수량	비율	비고
민사	일반민법	33,975	22%	번역문 2,105,095 문장 포함
	근로기준법	7,915	5%
	부동산 관련 법	6,055	4%
형사	형법	38,320	25%
	형사소송법	32,255	21%
	특별형법	8,860	6%
	근로기준법	1,540	1%
가사	친족법	6,605	4%
조세	종합소득세	15,500	10%
합계		151,025	100%

· 서브 라벨링 데이터
- 초거대 AI 말뭉치 대상 과제에 해당하여 국내 법률문서 (판결문, 결정문, 조서)에 대해 법률 분야 9종으로 구분하여 원문을 텍스트화하여 서브라벨링데이터 16,600건 구축

서브 라벨링 데이터
서브라벨링 (.JSON)
구분		수량	비율	비고
민사	일반민법	3,400	20%
	근로기준법	500	3%
	부동산 관련 법	1,000	6%
형사	형법	3,400	20%
	형사소송법	3,000	18%
	특별형법	1,050	6%
	근로기준법	150	1%
가사	친족법	1,100	7%
조세	종합소득세	3,000	18%
합계		16,600	100%

저작도구 설명서 및 저작도구 다운로드
저작도구 설명서 다운로드 저작도구 다운로드

AI 모델 상세 설명서 다운로드

AI 모델 상세 설명서 다운로드 AI 모델 다운로드

- 활용 모델

□ 모델 학습
- 번역데이터를 활용한 BLEU Score을 추출하기 위한 Transformer기반의 mbart 학습 알고리즘 사용

모델 학습
	학습(Train)	검증(Validation)	시험(Test)
개요	- Transformer 기반의 mbart모델에 텍스트 기반 학습	- Transformer 기반의 mbart모델에 텍스트 기반 학습	- Transformer 기반의 mbart모델에 텍스트 기반 학습
비율	80%	10%	10%

학습 알고리즘 구조
학습 알고리즘 구조

mbart

□ 서비스 활용 시나리오
- 법률 정보에 대한 적절한 다국어 번역 정보 제공
· 인공지능 학습용 데이터는 이후 법률 정보 제공 시에 정확하고 자연스러운 외국어 정보 제공에 활용
· 인공지능이 새로운 법률 설명에 기존 데이터 번역데이터를 응용함으로써 학습용 데이터에서 연관 되어지는 새로운 정보, 다양한 상황에 맞는 적절한 번역을 제공
- 외국인 관점의 한국 법령 이해 및 활용 증대
· 학습데이터의 구축은 향후 인공지능을 이용한 법률 교육, 법률 정보 제공 등의 외국인 관점 국내 법에 대한 정보를 얻는 분야에서도 적극적으로 활용에 기여
· 인공지능 번역 정보의 경우는 외국인의 능력의 향상과 함께 한국어와 외국어에 대한 이해, 인공지능의 자연어 처리에 대한 이해 등으로 이어질 수 있어 법률 분야의 전문가의 양성에도 도움
· 실제로 사용 가능한 외국어 법률 정보 및 용어 실현
· 정보에 대한 이해도 향상을 통해 외국인 관점 한국어 법률(법령)에 대한 이해도 향상 도모

설명서 및 활용가이드 다운로드

데이터 설명서 다운로드 구축활용가이드 다운로드

- 원천데이터 구성
ㅇ 원천데이터 포맷
- 판결문 및 결정문은 고유 일련번호가 존재하여, 문서종류 및 클래스번호와 일련번호로 파일명을 구성하고, 각 파일은 연번으로 구분됨

원천데이터 구성 - 원천데이터 포맷
원천데이터 종류	포맷	파일명
텍스트 데이터	CSV	데이터 번호_문서종류_클래스번호_일련번호_연번(4자리) ex) 90-1_se_23843_0001.csv
텍스트 데이터	CSV	데이터 번호_문서종류_클래스번호_일련번호_연번(4자리) ex) 90-1_se_23843_0001.csv

원천데이터 구성 - 문서종류
문서종류	네이밍	클래스명		클래스번호
판결문/결정문/조서	se(판결) de(결정) re(조서)	민사	일반민법	1
			근로 기준법	2
			근로 기준법	2
			부동산 관련 법	3
		형사	형법	4
			형사 소송법	5
			형사 소송법	5
			특별 형법	6
			특별 형법	6
			근로 기준법	7
			근로 기준법	7
		가사	친족법	8
		조세	종합 소득세	9
		조세	종합 소득세	9

원천데이터 구성2
원천데이터 종류	포맷	수량(단위)	설명
텍스트 데이터	CSV	30,205 (건) (421,019 문장)	한국어 원문의 원천데이터를 CSV 포맷으로 구축
텍스트 데이터	CSV	30,205 (건) (421,019 문장)	한국어 원문의 원천데이터를 CSV 포맷으로 구축

ㅇ 원천데이터 예시
- 원시데이터에 대해 정의한 추출항목(판시사항, 판결요지, 이유)에 따라 문장단위 추출 및 개인정보 비식별화 후, CSV 포맷으로 저장

원천데이터 예시

- 라벨링데이터 구성
ㅇ 가공 타입
- 법률 문서인 원천데이터(.csv)를 통해 가공 타입인 ‘번역’을 수행 후 JSON 포맷으로 저장
- ‘번역’의 경우 5개 언어(영어, 중국어, 힌디어, 베트남어, 러시아어)로 기계번역
ㅇ 어노테이션 포맷
- 데이터셋 이름 및 메타 정보, 어노테이션 항목 및 값에 대한 범위와 예시

어노테이션 포맷
No.			항목명	항목 설명	타입	필수 구분	예시
1			Dataset		Object
	1-1		DataSetNum	데이터셋번호	string	Y	"90-1"
	1-2		original_lang	원어 국가	string	Y	“KOR”
	1-3		trans_lang	번역어 국가	string	Y	“eng”
	1-4		Sentence_cnt	문서 내 문장 갯수	Num	Y	20
2			info		Object
	2-1		DocType	판결유형	string	Y	"판례"
	2-2		Sentencing	법률 카테고리	Object	Y	“국세징수법”
	2-3		Precedent		Object
		2-3-1	PrecedentID	일련번호(판례)	Num	Y	234397
		2-3-2	PrecedentNum	사건번호	string	Y	“2021다223368”
		2-3-3	PrecedentLevel	심	string	Y
		2-3-4	PrecedentDate	선고일자	Date	Y	YYYYMMDD
		2-3-5	PrecedentName	사건명	string	Y	“대여금”, ...
		2-3-6	PrecedentKinds	소송유형	string	Y	"민사"
		2-3-7	PrecedentCourt	법원명	string	Y	“고등법원”
		2-3-8	PrecedentPlaintiff	원고, 상고인	string		“원고 (소송대리인 법무법인 담당변호사 외 2인)”, ...
		2-3-9	PrecedentDefendant	피고, 피상고	string		“피고 (소송대리인 변호사)”, ...
3			Annotations	어노테이션 정보	Array
	3-1		Annotation_type	어노테이션 유형	string	Y	“판시사항”, “판결요지”, “판결이유”, “조서”
	3-2		Unique_num	고유 문장 번호	Num	Y	1
	3-3		Origin_Sentence	판시사항 원어 내용	Str	Y	“국세징수법...”
	3-4		Trans_Sentence	판시사항 번역어 내용	Str	Y	“Whether the head of...”
	3-5		WordCnt	어절 수	Num	Y	24
4			Legal_info	법률용어정보	Array
	4-1		Legal_num	법률용어번호	Num	Y	1
	4-2		Origin_term	법률용어 단어	Str	Y	“추징”
	4-3		Trans_term	법률용어 번역어 단어	Str	Y	“Chargebacks”

ㅇ 라벨링데이터 예시
- 한국어 원문에 대해 5개 언어별 번역 문장 구축

라벨링데이터 예시

ㅇ 서브라벨링데이터 예시
- 국내 법률문서 원문 전체 텍스트화. 온점(.) 기준 ‘∖n’ 입력하여 문장단위 구분

서브라벨링데이터 예시

데이터셋 구축 담당자

수행기관(주관) : ㈜타임게이트

수행기관(주관)
책임자명	전화번호	대표이메일	담당업무
김민관	02-575-0409	[email protected]	품질관리

수행기관(참여)

수행기관(참여)
기관명	담당업무
㈜엠티데이타	수집, 모델링
아이티에스노아	정제
디그랩	가공
아이삭	품질관리
법률사무소 진선	데이터 설계, 법률 자문
법무법인 율촌	데이터 설계, 법률 자문

데이터 관련 문의처

데이터 관련 문의처
담당자명	전화번호	이메일
이정기	02-575-0409	[email protected]
김민관	02-575-0409	[email protected]

AI모델 관련 문의처

AI모델 관련 문의처
담당자명	전화번호	이메일
구균모	070-4280-5403	[email protected]
이승주	070-4280-5403	[email protected]

저작도구 관련 문의처

저작도구 관련 문의처
담당자명	전화번호	이메일
이승주	070-4280-5403	[email protected]
구균모	070-4280-5403	[email protected]

보건의료 데이터 개방 안내

보건의료 데이터는 온라인 및 오프라인 안심존을 통해 개방됩니다.

안심존이란 안심존 이용메뉴얼 안심존 이용신청

인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석
1. AI 허브 접속
  신청자
2. 안심존
  사용신청신청자신청서류 제출*
3. 심사구축기관
4. 승인구축기관
5. 데이터 분석 활용신청자
6. 분석모델반출신청자
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다.
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의

데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.

API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.

리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.

※ 파일 병합 리눅스 명령어

find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"

- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.

- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.

※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.

파일 목록

전체 다운로드 AI 허브 Shell 다운로드 AI 허브 오픈 API 이용안내

연관 데이터

법률/규정 텍스트 분석 데이터 (고도화)- 상황에 따른 판례 데이터

의료, 법률 전문 서적 말뭉치

법률 지식기반 관계 데이터

금융, 법률 문서 기계독해 데이터

NEW 생성형AI 국내 법률 대상 다국어 번역 데이터

데이터 개요

데이터 변경이력

데이터 히스토리

소개

구축목적

메타데이터 구조표

데이터 통계

교육활용 동영상

저작도구

저작도구 설명서 및 저작도구 다운로드

활용 AI 모델 및 코드

AI 모델 상세 설명서 다운로드

어노테이션 포맷 및 데이터 구조

설명서 및 활용가이드 다운로드

구축 업체

데이터셋 구축 담당자

수행기관(주관) : ㈜타임게이트

수행기관(참여)

데이터 관련 문의처

AI모델 관련 문의처

저작도구 관련 문의처

안심존 소개

안심존 이용절차

안심존사용신청서 및 첨부서류목록

안심존 이용문의

파일 목록

연관 데이터