전통식품 발효 융합 데이터
- 분야농축수산
- 유형 텍스트 , 이미지
-
데이터 변경이력
데이터 변경이력 버전 일자 변경내용 비고 1.1 2023-12-06 데이터 최종 개방 1.0 2023-06-28 데이터 개방(Beta Version) 데이터 히스토리
데이터 히스토리 일자 변경내용 비고 2023-12-15 산출물 전체 공개 소개
한국 전통 발효식품의 발효 단계별로 발효 현상을 나타내는 이미지 및 환경, 색도, 메타 정보가 융합된 데이터로 한국 전통 발효식품의 발효 단계를 예측하는 AI 모델 개발에 활용 가능한 양질의 학습용 데이터
구축목적
국내 전통 발효식품이 글로벌 식품으로 확장되기 위해서는 과학적 데이터 기반의 품질 표준화가 이루어져야 하며, 이를 위해서는 발효 공정 단계별 및 제품의 품질을 이미지만으로 예측이 가능한 AI 모델을 개발하기 위한 양질의 데이터 세트(이미지, 메타 정보 등) 제공을 목적으로 함
-
메타데이터 구조표 데이터 영역 농축수산 데이터 유형 텍스트 , 이미지 데이터 형식 jpg, csv 데이터 출처 자체 수집 라벨링 유형 바운딩박스(이미지), 세그멘테이션(이미지) 라벨링 형식 JSON 데이터 활용 서비스 전통 발효식품의 발효 단계 및 품질 제공 파일럿 프로그램 데이터 구축년도/
데이터 구축량2022년/이미지데이터(139,989장), 텍스트데이터(141,780건), 라벨링데이터(69,988건) -
● 데이터 통계
1. 데이터 구축 규모● 데이터 통계 1. 데이터 구축 규모 데이터 구분 수량 데이터 형식 용량 동영상 데이터 374,169시간 동영상(.mp4) - 이미지 데이터 139,979장 이미지(.jpg) 55.5 GB 텍스트 데이터 141,780건 텍스트(.csv) 6.88 MB 라벨링 데이터 69,988건 어노테이션(.json) 292 MB 2. 데이터 분포
● 데이터 통계 2. 데이터 분포 품질특성 항목명 정량 목표 지표 및 목표 설정 근거 다양성
(통계)발효 단계 분포 분포 확인 12개 세부 품목별 어노테이션 데이터에 포함된 발효 단계 정보(1~5단계)를 추출하여 통계치 산출 전통식품 종별 분포 분포 확인 12개 세부 품목별 어노테이션 데이터에 포함된 클래스 정보를 추출하여 통계치 산출 전통식품 종별
온도 분포식품 온도 비율 전통 발효식품 종별로 각각 온도 분포 구성비를 산출 김치류7종 4℃ 50% 10℃ 50% 고추장,된장,간장 20℃ 50% 30℃ 50% 청국장 35℃ 50% 40℃ 50% 탁주 35℃ 50% 40℃ 50% 다양성
(요건)전통식품
제조사 분포구성비
중첩률50% 12종의 전통 발효식품별5개 제조사와2가지 온도 조건으로 다양한 발효 과정에 대한 특징과 품질을 측정 목표 구성비 제조사A 20% 제조사B 20% 제조사C 20% 제조사D 20% 제조사E 20% -
-
AI 모델 상세 설명서 다운로드
AI 모델 상세 설명서 다운로드 AI 모델 다운로드● 기타 정보
1. 포괄성
❍ 전통 발효식품의 이미지 및 텍스트 데이터는 2022년 6월부터 2022년 12월까지 직접 촬영하여 수집된 데이터로써 AI 학습용 데이터는 수집된 전체의 전통 발효식품 데이터를 대상으로 함.
2. 독립성
❍ 전통 발효식품의 이미지 및 텍스트 데이터는 원시데이터에 의존하고 있으며, 민감 정보 및 법적 문제와는 관련이 없음.
3. 유의사항
❍ 전통 발효식품의 이미지 및 텍스트 데이터 배포 및 활용 시 고려해야 할 유의사항은 음.
4. 관련 연구
❍ 선행 연구 목록4. 관련 연구❍ 선행 연구 목록 ID Reference 1 F. Gruber, P. Wollmann, W. Grählert, and S. Kaskel, ‘Hyperspectral imaging using laser excitation for fast Raman and fluorescence hyperspectral imaging for sorting and quality control applications,’ J. Imag., vol. 4, no. 10, p. 110, 2018. 2 Region-Based Food Calorie Estimation for Multiple-Dish Meals. Proceedings of the 13th International Workshop on Multi media for Cooking and Eating Activities. August 2021 3 Food Calorie Estimation using Convolutional Neural Network. V.Balaji.Kaspar N.Jayapandian 2021 3rd International Conference on Signal Processing and Communication (ICPSC) | 13–14 May 2021 4 Recognition of food type and calorie estimation using neural network. R.Dinesh Kumar, E.Golden Julie.The Journal of Supercomputing. 77, 8172-8193 (2021) 5 Refined Image Segmentation for Calorie Estimation of Multiple-dish food items. Parth Poply, J.Angel Arul Jothi. 2021 International Conference on Computing, Communication and Intelligent systems (ICCCIS). 6 Weiqing Min, Shuqiang Jiang, Linhu Liu, Yong Rui, and Ramesh Jain. 2019. A Survey on Food Computing. ACM Computing Survey 52, 5 (2019) 7 Y. Lu, D. Allegra, M. Anthimopoulos, F. Stanco, G. M. Farinella, and S. G. Mougiakakou. 2018. A Multi-Task Learning Approach for Meal Assessment. In Proc. of International Workshop on Multimedia Assisted Dietary Management(MADiMa) 8 T. Ege and K. Yanai. 2019. A New Large-scale Food Image Segmentation Dataset and Its Application to Food Calorie Estimation Based on Grains of Rice. In Proc. of ACM MM Workshop on Multimedia Assisted Dietary Management 9 Jin G, Wang YJ, Li M, Li T, Huang WJ, Li L, Deng WW, Ning J. Rapid and real-time detection of black tea fermentation quality by using an inexpensive data fusion system. Food Chem. 2021 Oct 1;358:129815. doi: 10.1016/j.foodchem.2021.129815. Epub 2021 Apr 19. PMID: 33915424. 10 손동화,권오진,지원대,최웅규,권오준,이은정,조영제,차원섭,정영건.(2000).Bacillus sp. CS-17로 제조한 청국장 발효기간별 품질변화.Applied Biological Chemistry ,43(1),1-6. 11 박혜린,오지은and조미숙. (2019).초기 숙성 조건을 달리한 배추김치의 저장기간에 따른 품질 특성 비교.한국콘텐츠학회 논문지, 19(6), 160-167 12 Dong, C., Liang, G., Hu, B. et al. Prediction of Congou Black Tea Fermentation Quality Indices from Color Features Using Non-Linear Regression Methods. Sci Rep 8, 10535 (2018). https://doi.org/10.1038/s41598-018-28767-2 13 Korean journal of food science and technology v.32 no.5 , 2000년, pp.1149–1157김문숙(전북대학교 응용생물공학부(식품공학전공,농업과학기술연구소) ) ;안용선(전북대학교 응용생물공학부(식품공학전공,농업과학기술연구소) ) ;신동화(전북대학교 응용생물공학부(식품공학전공,농업과학기술연구소)) 14 발효조건과 저장기간에 따른 김치의 품질특성 및 속성 묵은 김치 제조를 위한 최적발효조건2014. 허성원(이화여자대학교 대학원 식품영양학과 국내석사) 15 Kaimu Okamoto and Kento Adachi . Region-Based Food calorie Estimation for Multiple-Dish Meals. Session 1: Long Oral Session CEA 21 Taipei Taiwan 2021 16 Huang, Shih-Cheng, et al. "Multimodal fusion with deep neural networks for leveraging CT imaging and electronic health record: a case-study in pulmonary embolism detection." Scientific reports 10.1 (2020): 1-9. ❍ 선행 연구 요약
✓ 발효가 진행됨에 따라 성분 물질의 변화가 발생하고 이로 인해 발효 물체 표면의 색상도 변화, 발효 진행에 따른 색상 변화는 RGB보다는 Lab 색 공간을 사용했을 때 유의미한 변화 관찰됨.
✓ LeNet-5 : CNN을 적용, 깊은 네트워크(4 Layer) 학습하여 성능 향상
✓ AlexNet : GPU, ReLU함수를 사용, 깊은 네트워크(8 Layer) 학습하여 성능 향상
✓ ZFNet : 하이퍼파라미터를 최적화, 깊은 네트워크(8 Layer) 학습하여 성능 향상
✓ VGGNet : 작은 필터 수(3x3)로 규칙적으로 적용, 깊은 네트워크(19 Layer) 학습하여 성능 향상
✓ GoogLeNet: Inception module 개념을 적용, Asymmetric 네트워크를 구성하여 성능 향상
✓ ResNet : Skip connection을 적용하여 기울기 소실 문제를 해결, 매우 깊은 네트워크(152 Layer) 학습하여 성능 향상
✓ DenseNet : 진화된 Skip connection과 Bottleneck Layers를 적용, 매우 깊은 네트워크(152 Layer)를 학습하여 성능 향상
✓ 객체의 위치 검출 알고리즘의 발전 : R-CNN → Fast R-CNN → Faster R-CNN → YOLO
✓ 단일 모델로는 정확한 다중 탐지 및 분류가 어려워 멀티 모달(Multi-modal) 모델이 최근 개발
✓ 멀티 모달 학습은 정보 획득을 위한 분석에 다양한 양식의 데이터가 관여할 때 도움이 됨.● 활용 모델
1. 인공지능 데이터 학습모델 개요• 전통 발효식품 12품목(김치류 7종, 장류 4종, 주류 1종)의 탐지와 발효 단계를 분류할 수 있는 학습모델 개발
• 인공지능 데이터 학습모델 요약표● 활용 모델 1. 인공지능 데이터 학습모델 개요• 인공지능 데이터 학습모델 요약표 AI 모델 데이터 속성 목표 유형 학습 알고리즘 모델 목표성능 지표 모델 평가성능 지표 전통식품 탐지모델 이미지, 바운딩박스 객체 탐지 Yolo v7 mAP 60% mAP 99% 발효단계 예측모델 이미지, 폴리곤, 환경 데이터, 색도 데이터 분류 Resnet 기반 멀티모달,
Mask-RCNN 기반 세그멘테이션F1-score 85% F1-score 94% 2. 인공지능 학습모델 개발
1) 전통식품 탐지모델
• 입력 이미지에서 전통식품의 품목을 구분하고 배경을 제외한 식품의 위치를 탐지
• Yolo 계열 모델 중 최신 모델인 Yolov7을 활용하여 탐지모델을 개발하였으며 전통 발효식품 데이터를 전처리(바운딩박스 좌표를 Yolo 입력 포맷에 맞게 변경) 및 증강(색상, 명도, 회전 조절 등)하여 학습함
• 사전 학습된 가중치와 약 70,000개의 이미지, 바운딩박스 데이터 세트를 8:1:1 비율로 분할하여 학습/검증/평가에 활용
• 학습된 탐지모델로 전통식품의 품목과 위치를 탐지하여 발효단계 예측모델에 입력으로 사용함Yolov7 탐지모델 학습 과정 예시
2) 발효단계 예측모델
• 전통 발효식품은 품목별로 5개의 발효단계가 있으며 발효단계를 예측하기 위해 Resnet 기반의 멀티모달 모델과 Mask-RCNN 기반의 세그멘테이션 모델을 개발함
• 멀티모달 모델은 발효단계 예측 성능을 높이기 위해 이미지뿐만 아니라 환경(온도, 습도), 색도(Lightness, Redness, Yellowness) 수치 데이터를 입력으로 받아 각 데이터 유형별 특징을 추출하고 발효단계 예측에 활용함
• 탐지모델에서 예측한 품목과 바운딩박스 좌표를 활용하여 이미지에서 배경을 제외한 품목만 잘라내어(Crop) 노이즈를 제거함
• 또한, 학습 데이터 입력 시 모델의 일반화 성능을 높이기 위해 이미지 데이터 증강(크기, 밝기, 회전, 좌우 반전 등) 및 수치 데이터를 전처리(정규화, 표준화)하여 학습함
• Resnet으로 시각적 특징과 다층 퍼셉트론(MLP)에서 수치적 특징을 추출하고 두 특징을 결합하여 품목별 발효단계를 학습 및 예측함Resnet 기반의 멀티모달 모델 학습 과정 예시
• 세그멘테이션 모델은 전통식품의 세부 부위(잎, 줄기 등)에서 발효 단계별 특징을 추출하여 발효단계 예측에 활용함
• 총각김치, 갓김치, 동치미, 파김치 품목의 폴리곤으로 라벨링된 세부 부위를 Mask-RCNN 모델로 학습함
• 학습된 세그멘테이션 모델로 이미지에서 품목의 세부 부위를 검출하면 검출된 부위 중 분류 정확도(confidence score) 값이 가장 큰 항목의 발효단계를 예측값으로 활용함Mask-RCNN 기반 세그멘테이션 모델 학습 과정 예시
• 배추김치, 맛김치, 총각김치, 깍두기, 파김치, 갓김치, 간장, 된장, 고추장 품목은 6,000개의 이미지, 환경, 색도 데이터 세트를 8:1:1 비율로 분할하여 학습/검증/평가에 활용
• 청국장, 탁주 품목은 5,000개의 이미지, 환경, 색도 데이터 세트를 8:1:1 비율로 분할하여 학습/검증/평가에 활용
3. 인공지능 학습모델 발효단계 예측
• 발효단계 예측 성능을 향상시키기 위해 전통식품 12품목별 분류모델을 학습하였으며 멀티모달 모델로 전통 발효식품 전체 품목을 학습하고 세그멘테이션 모델로 총각김치, 갓김치, 동치미, 파김치 품목을 학습함
• 학습된 전통식품 탐지모델과 발효단계 예측모델(멀티모달, 세그멘테이션)을 연결하여 입력 이미지에서 전통식품을 탐지하면 해당 품목의 분류모델을 통해 발효단계를 예측발효단계 예측 결과 예시
-
데이터 성능 점수
측정값 (%)기준값 (%)데이터 성능 지표
데이터 성능 지표 번호 측정항목 AI TASK 학습모델 지표명 기준값 점수 측정값 점수 1 멀티모달 기반 발효단계 분류 성능 Image Classification Restnet F1-Score 0.85 점 0.948 점 2 바운딩박스 객체 탐지 성능 Object Detection YOLO v7 mAP 60 % 99.68 %
※ 데이터 성능 지표가 여러 개일 경우 각 항목을 클릭하면 해당 지표의 값이 그래프에 표기됩니다.
※ AI모델 평가 지표에 따라 측정값의 범위, 판단 기준이 달라질 수 있습니다. (ex. 오류율의 경우, 낮을수록 좋은 성능을 내는 것으로 평가됩니다)
-
설명서 및 활용가이드 다운로드
데이터 설명서 다운로드 구축활용가이드 다운로드● 데이터 포맷
● 데이터 포맷 품목 데이터 예시 데이터 항목 2D이미지
(배추김치)배추김치_전체_발효단계 배추김치_효모_발효단계
(산막효모발생시)2D이미지
(총각김치)총각김치_전체_발효단계 총각김치_잎_발효단계 총각김치_무_발효단계 총각김치_효모_발효단계
(산막효모발생시)2D이미지
(맛김치)맛김치_전체_발효단계 맛김치_효모_발효단계
(산막효모발생시)2D이미지
(깍두기)깍두기_전체_발효단계 깍두기_무_발효단계 깍두기_효모_발효단계
(산막효모발생시)2D이미지
(동치미)동치미_전체_발효단계 동치미_무_발효단계 동치미_국물_발효단계 동치미_효모_발효단계
(산막효모발생시)2D이미지
(갓김치)갓김치_전체_발효단계 갓김치_줄기_발효단계 갓김치_잎_발효단계 갓김치_효모_발효단계
(산막효모발생시)2D이미지
(파김치)파김치_전체_발효단계 파김치_줄기_발효단계 파김치_잎_발효단계 파김치_효모_발효단계
(산막효모발생시)2D이미지
(간장)간장_전체_발효단계 간장_곰팡이_발효단계
(곰팡이 발생시)2D이미지
(된장)된장_전체_발효단계 된장_곰팡이_발효단계
(곰팡이 발생시)2D이미지
(고추장)고추장_전체_발효단계 고추장_곰팡이_발효단계
(곰팡이 발생시)2D이미지
(청국장)청국장_전체_발효단계 2D이미지
(탁주)탁주_전체_발효단계 ● 데이터 구성
1. 폴더 구조● 데이터 구성 1. 폴더 구조 품목 분류 Level 1 Level 2 Level 3 Level 4 발효단계 제조조건 구분(rgb/lab/qc) qc (env/lab/meta) 배추김치(baechu) 발효1단계 d0 a4 rgb lab qc env lab meta a10 상동 상동 b4 상동 상동 b10 상동 상동 c4 상동 상동 c10 상동 상동 d4 상동 상동 d10 상동 상동 e4 상동 상동 e10 상동 상동 발효2단계 d14 상동 상동 상동 발효3단계 d28 상동 상동 상동 발효4단계 d40 상동 상동 상동 발효4단계 d90 상동 상동 상동 총각김치(chonggak) 발효1단계 d0 상동 상동 상동 발효2단계 d14 상동 상동 상동 발효3단계 d28 상동 상동 상동 발효4단계 d60 상동 상동 상동 발효5단계 d90 상동 상동 상동 맛김치(mat) 발효1단계 d0 상동 상동 상동 발효2단계 d10 상동 상동 상동 발효3단계 d20 상동 상동 상동 발효4단계 d60 상동 상동 상동 발효5단계 d90 상동 상동 상동 깍두기(kakdugi) 발효1단계 d0 상동 상동 상동 발효2단계 d10 상동 상동 상동 발효3단계 d50 상동 상동 상동 발효4단계 d80 상동 상동 상동 발효5단계 d110 상동 상동 상동 동치미(dongchimi) 발효1단계 d0 상동 상동 상동 발효2단계 d7 상동 상동 상동 발효3단계 d15 상동 상동 상동 발효4단계 d35 상동 상동 상동 발효5단계 d60 상동 상동 상동 갓김치(gat) 발효1단계 d0 상동 상동 상동 발효2단계 d20 상동 상동 상동 발효3단계 d50 상동 상동 상동 발효4단계 d70 상동 상동 상동 발효5단계 d90 상동 상동 상동 파김치(pakimchi) 발효1단계 d0 상동 상동 상동 발효2단계 d10 상동 상동 상동 발효3단계 d30 상동 상동 상동 발효4단계 d50 상동 상동 상동 발효5단계 d90 상동 상동 상동 간장(ganjang) 발효1단계 d0 a20 rgb lab qc env lab meta a30 상동 상동 b20 상동 상동 b30 상동 상동 c20 상동 상동 c30 상동 상동 d20 상동 상동 d30 상동 상동 e20 상동 상동 e30 상동 상동 발효2단계 d10 상동 상동 상동 발효3단계 d30 상동 상동 상동 발효4단계 d60 상동 상동 상동 발효5단계 d90 상동 상동 상동 된장(doenjang) 발효1단계 d0 상동 상동 상동 발효2단계 d5 상동 상동 상동 발효3단계 d15 상동 상동 상동 발효4단계 d60 상동 상동 상동 발효5단계 d90 상동 상동 상동 고추장(gochujang) 발효1단계 d0 상동 상동 상동 발효2단계 d20 상동 상동 상동 발효3단계 d40 상동 상동 상동 발효4단계 d60 상동 상동 상동 발효5단계 d90 상동 상동 상동 청국장(cheonggukjang) 발효1단계 h0 a35 rgb lab qc env lab meta a40 상동 상동 b35 상동 상동 b40 상동 상동 c35 상동 상동 c40 상동 상동 d35 상동 상동 d40 상동 상동 e35 상동 상동 e40 상동 상동 발효2단계 h6 상동 상동 상동 발효3단계 h12 상동 상동 상동 발효4단계 h24 상동 상동 상동 발효5단계 h48 상동 상동 상동 탁주(takju) 발효1단계 h0 a20 rgb lab qc env lab meta a25 상동 상동 b20 상동 상동 b25 상동 상동 c20 상동 상동 c25 상동 상동 d20 상동 상동 d25 상동 상동 e20 상동 상동 e25 상동 상동 발효2단계 h6 상동 상동 상동 발효3단계 h12 상동 상동 상동 발효4단계 h24 상동 상동 상동 발효5단계 h48 상동 상동 상동 2. 코드 정의
2. 코드 정의 분류 구분 항목명 코드명 영문명 비고 품목코드 김치류 배추김치 baechu baechu kimchi 맛김치 mat mat kimchi 총각김치 chonggak chonggak kimchi 깍두기 kakdugi kakdugi 갓김치 gat gat kimchi 파김치 pakimchi pa kimchi 동치미 dongchimi dongchimi 장류 청국장 cheongguk cheonggukjang 고추장 gochujang gochujang 된장 doenjang doenjang 간장 ganjang ganjang 주류 탁주 takju takju 제조사코드 김치류 제조사1 a 제조사2 b 제조사3 c 제조사4 d 제조사5 e 장류 제조사6 a 제조사7 b 제조사8 c 제조사9 d 제조사10 e 주류 제조사11 a 제조사12 b 제조사13 c 제조사14 d 제조사15 e 온도 김치류 4도 4 김치류7종 10도 10 장류 20도 20 고추장,된장,간장 30도 30 35도 35 청국장 40도 40 주류 20도 20 탁주 25도 25 3. 발효 공정
3. 발효 공정 구분 품목 발효 단계 구분 발효1단계 발효2단계 발효3단계 발효4단계 발효5단계 김치류 배추김치 d0 d14 d28 d40 d90 총각김치 d0 d14 d28 d60 d90 맛김치 d0 d10 d20 d60 d90 깍두기 d0 d10 d50 d80 d110 동치미 d0 d7 d15 d35 d60 갓김치 d0 d20 d50 d70 d90 파김치 d0 d10 d30 d50 d90 장류 간장 d0 d10 d30 d60 d90 된장 d0 d5 d15 d60 d90 고추장 d0 d20 d40 d60 d90 청국장 d0 d6 d12 d24 d48 주류 탁주 d0 d1 d2 d4 d8 4. 파일 유형 및 포맷
● 동영상 데이터4. 파일 유형 및 포맷● 동영상 데이터 구분 규칙 비고 명명 품목코드+ "_" +공정일+ "_" +제조조건+ "_" +일련번호.mp4 1)품목코드:품목코드표(4.2코드 정의)참조 2)공정일:품목별 정의된 공정일(0일, 7일, 14일 등) - 표기 규칙 : "d" + “일자"로 표기 - 예) 0일 => d0, 60일 => d60 3)제조조건:품목별 제조사 코드+온도 조건 - 표기 규칙 : 제조사 영문 약어 + 온도 조건(숫자) - 예) 제조사 a 온도 조건 4도 => a4 4)일련번호 - 표기 규칙 : 촬영 카메라 12대의 촬영물 순서대로 1 단위로 부여 - 예) camera 001번 => 1 - 공정별 카메라 수가 12대이므로 1~12까지만 부여 - 카메라 1대에서 동영상이 1개 이상으로 촬영된 경우 => 일련번호 + 영문 소문자로 명명 => 예) 2번째 카메라에서 동영상이 3개 촬영이 된 경우 . xx_2a.mp4, xx_2b.mp4, xx_2c.mp4로 명명 포맷 mp4 1) FHD 규격의 mpeg4 영상 시간 품목 촬영 시간 재생 시간 1)재생 시간: 30x배속 촬영 결과
2)촬영 시간+ 10분 정도 더 촬영김치류 45h 90분 된장,간장,고추장 68h 136분 청국장 84h 168분 탁주 24h, 27h 48분, 54분 비고 공통 1)영문자는 모두 소문자 사용 2)특수문자 비사용 사용 예 1) baechu_d0_a4_1.mp4 - 배추김치 "0일"공정 제조사a 온도4도 첫번째 영상 파일 2) baechu_d120_c10_12.mp4 - 배추김치 “120일"공정 제조사c 온도10도 12번째 영상 파일 ● 이미지 데이터
4. 파일 유형 및 포맷● 이미지 데이터 구분 규칙 비고 명명 영상파일명+ "_" +일련번호.jpg 1)영상파일명:이미지를 추출한 영상파일명을 사용 2)일련번호: - 표기 규칙 : 영상 파일에서 시계열 규칙에 의거 추출되는 원시 이미지 파일의 일련의 순번을 부여 1 단위로 일련번호 1, 2... 순으로 부여 - 영상파일명 단위로 1부터 유니크한 일련번호를 부여 포맷 jpg 1) FHD규격의 원시 이미지 파일(RGB) 비고 공통 1)영문자는 모두 소문자 사용 2)특수문자 비사용 사용 예 1) baechu_d0_a4_1_1.jpg - 하나의 영상파일(baechu_d0_a4_1)에서 첫 번째로 추출된 이미지 파일명 2) baechu_d7_a4_4_2.jpg - 하나의 영상파일(baechu_d7_a4_4)에서 두 번째로 추출된 이미지 파일명 ● 텍스트 데이터
4. 파일 유형 및 포맷● 텍스트 데이터 구분 규칙 비고 명명 품목코드+ "_" +공정일+ "_" +제조조건+ "_" + "_" +확장명.csv 1)이미지 파일명에 메타 데이터 타입의 확장명을 사용 2)확장명 - 환경 데이터 파일 : env - 색도 데이터 파일 : lab - 메타 데이터 파일 : meta 포맷 csv 1)구분자‘,‘(콤마)로 구분되는csv파일 비고 공통 1)영문자는 모두 소문자 사용 2)특수문자 비사용 사용 예 1) baechu_d0_a4_env.csv - ‘baechu_d0_a4’ 영상파일과 관련된 이미지의 환경 데이터(csv) 2) baechu_d7_a4_lab.csv - ‘baechu_d7_a4’ 영상파일과 관련된 이미지의 색도 데이터(csv) ● 라벨링 데이터
4. 파일 유형 및 포맷● 라벨링 데이터 구분 규칙 비고 명명 품목코드+ "_" +공정일+ "_" +제조조건+일련번호.json 1)이미지 파일명과 동일하게 사용 2)일련번호: - 표기 규칙 : 영상파일에서 시계열 규칙에 의거 추출되는 원시 이미지 파일의 일련의 순번을 부여 - 1 단위로 일련번호 1, 2... 순으로 부여 - 영상파일명 단위로 1부터 유니크한 일련번호를 부여 포맷 json 이미지 데이터,텍스트 데이터(환경/색도/메타),라벨링 데이터 등의 원천 데이터의 정보를 통합 비고 공통 1)영문자는 모두 소문자 사용 2)특수문자 비사용 사용 예 1) baechu_d0_a4_1.json - ‘baechu_d0_a4_1’ 영상파일과 관련된 이미지에 대한 통합된 데이터 정보 ● 어노테이션 포맷
1. 김치류 라벨 구성요소● 어노테이션 포맷 1. 김치류 라벨 구성요소 구분 속성명 타입 필수여부 설명 범위 비고 1 info object Y 데이터셋 정보 1-1 item_name string Y 품목명 1-2 process_step string Y 품목의 공정단계 1-3 production_brand string Y 품목의 제조사 a, b, c, d, e 1-4 production_temperature number Y 측정환경의 온도조건 4, 10 1-5 measurement_sequence number Y 메타 데이터 측정 회차 1-6 location string N 수집 데이터의 위치정보 1-7 total_fermentation_day number Y 품목의 목표 발효일수 1-8 fermentation_day number Y 품목의 발효일수 1-9 fermentation_fungi string N 스타터 미생물 1-10 maturity string N 숙성정도 미숙, 적숙, 과숙 1-11 start_time string N 촬영 시작 시간 1-12 end_time string N 촬영 종료 시간 1-13 recipe string N 품목의 제조 레시피 1-14 fermentation_phase number Y 품목의 발효단계 0~4 1:발효1단계 ... 2 envdata object Y 품목별 환경 데이터 정보 2-1 env_date string Y 환경 데이터 측정 일자 2-2 env_time string N 환경 데이터 측정 시간 2-3 temperature number Y 측정 온도 2-4 humidity number Y 측정 습도 2-5 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 3 labdata object Y 품목별 색도 데이터 정보 3-1 lab_date string Y 색도 데이터 측정 일자 3-2 lab_time string N 색도 데이터 측정 시간 3-3 lightness number Y 밝기 좌표 3-4 redness number Y Red좌표 3-5 yellowness number Y Yellow좌표 3-6 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 4 metadata object Y 품목별 메타 데이터 정보 4-1 measurement_date string Y 메타 데이터 측정 일자 4-2 illumination number Y 측정환경의 촬영조도 4-3 pH number Y 품목의pH농도 4-4 saltness number Y 품목의 염도 4-5 acidness number Y 품목의 산도 4-6 sugar_content number Y 품목의 당도 4-7 total_aerobic_bacteria number Y 품목의 총균수 4-8 lactic_acid_bacteria number Y 품목의 유산균수 5 images object Y 이미지 정보 5-1 file_name string Y 이미지 파일명 5-2 width number Y 이미지 너비 5-3 height number Y 이미지 높이 6 annotations object Y 라벨링 정보 6-1 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 6-2 bbox object Y 바운딩박스 정보 6-2-1 coordinates array Y 품목의 바운딩박스 좌표 [xmin, ymin, xmax, ymax] 바운딩박스 카테고리 식별자 Y number category_id 6-2-2 바운딩박스 카테고리명 Y string category_name 6-2-3 품목의 세부 부위 폴리곤 정보 Y object segmentation 6-3 [x1, y1, x2, y2 ...] 품목의 세부 부위 폴리곤 좌표 Y array coordinates 6-3-1 폴리곤 카테고리 식별자 Y number category_id 6-3-2 폴리곤 카테고리명 Y string category_name 6-3-3 폴리곤 넓이 Y number polygon_area 6-3-4 3-2. 간장 라벨 구성요소
● 어노테이션 포맷3-2. 간장 라벨 구성요소 구분 속성명 타입 필수여부 설명 범위 비고 1 info object Y 데이터셋 정보 1-1 item_name string Y 품목명 1-2 process_step string Y 품목의 공정단계 1-3 production_brand string Y 품목의 제조사 a, b, c, d, e 1-4 production_temperature number Y 측정환경의 온도조건 4, 10 1-5 measurement_sequence number Y 메타 데이터 측정 회차 1-6 location string N 수집 데이터의 위치정보 1-7 total_fermentation_day number Y 품목의 목표 발효일수 1-8 fermentation_day number Y 품목의 발효일수 1-9 fermentation_fungi string N 스타터 미생물 1-10 maturity string N 숙성정도 미숙, 적숙, 과숙 1-11 start_time string N 촬영 시작 시간 1-12 end_time string N 촬영 종료 시간 1-13 recipe string N 품목의 제조 레시피 1-14 fermentation_phase number Y 품목의 발효단계 0~4 1:발효1단계 ... 2 envdata object Y 품목별 환경 데이터 정보 2-1 env_date string Y 환경 데이터 측정 일자 2-2 env_time string N 환경 데이터 측정 시간 2-3 temperature number Y 측정 온도 2-4 humidity number Y 측정 습도 2-5 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 3 labdata object Y 품목별 색도 데이터 정보 3-1 lab_date string Y 색도 데이터 측정 일자 3-2 lab_time string N 색도 데이터 측정 시간 3-3 lightness number Y 밝기 좌표 3-4 redness number Y Red좌표 3-5 yellowness number Y Yellow좌표 3-6 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 4 metadata object Y 품목별 메타 데이터 정보 4-1 measurement_date string Y 메타 데이터 측정 일자 4-2 illumination number Y 측정환경의 촬영조도 4-3 bacteria_enumeration number Y 품목의 총 생균수 4-4 amino_nitrogen number Y 품목의 아미노태질소 함량 4-5 microbiome number Y 품목의 미생물군집 4-6 saltness number Y 품목의 염도 4-7 total_nitrogen number Y 품목의 질소 총량 5 images object Y 이미지 정보 5-1 file_name string Y 이미지 파일명 5-2 width number Y 이미지 너비 5-3 height number Y 이미지 높이 6 annotations object Y 라벨링 정보 6-1 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 6-2 bbox object Y 바운딩박스 정보 6-2-1 coordinates array Y 품목의 바운딩박스 좌표 [xmin, ymin, xmax, ymax] 바운딩박스 카테고리 식별자 Y number category_id 6-2-2 바운딩박스 카테고리명 Y string category_name 6-2-3 품목의 세부 부위 폴리곤 정보 Y object segmentation 6-3 [x1, y1, x2, y2 ...] 품목의 세부 부위 폴리곤 좌표 Y array coordinates 6-3-1 폴리곤 카테고리 식별자 Y number category_id 6-3-2 폴리곤 카테고리명 Y string category_name 6-3-3 폴리곤 넓이 Y number polygon_area 6-3-4 3-3. 된장 라벨 구성요소
● 어노테이션 포맷3-3. 된장 라벨 구성요소 구분 속성명 타입 필수여부 설명 범위 비고 1 info object Y 데이터셋 정보 1-1 item_name string Y 품목명 1-2 process_step string Y 품목의 공정단계 1-3 production_brand string Y 품목의 제조사 a, b, c, d, e 1-4 production_temperature number Y 측정환경의 온도조건 4, 10 1-5 measurement_sequence number Y 메타 데이터 측정 회차 1-6 location string N 수집 데이터의 위치정보 1-7 total_fermentation_day number Y 품목의 목표 발효일수 1-8 fermentation_day number Y 품목의 발효일수 1-9 fermentation_fungi string N 스타터 미생물 1-10 maturity string N 숙성정도 미숙, 적숙, 과숙 1-11 start_time string N 촬영 시작 시간 1-12 end_time string N 촬영 종료 시간 1-13 recipe string N 품목의 제조 레시피 1-14 fermentation_phase number Y 품목의 발효단계 0~4 1:발효1단계 ... 2 envdata object Y 품목별 환경 데이터 정보 2-1 env_date string Y 환경 데이터 측정 일자 2-2 env_time string N 환경 데이터 측정 시간 2-3 temperature number Y 측정 온도 2-4 humidity number Y 측정 습도 2-5 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 3 labdata object Y 품목별 색도 데이터 정보 3-1 lab_date string Y 색도 데이터 측정 일자 3-2 lab_time string N 색도 데이터 측정 시간 3-3 lightness number Y 밝기 좌표 3-4 redness number Y Red좌표 3-5 yellowness number Y Yellow좌표 3-6 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 4 metadata object Y 품목별 메타 데이터 정보 4-1 measurement_date string Y 메타 데이터 측정 일자 4-2 illumination number Y 측정환경의 촬영조도 4-3 bacteria_enumeration number Y 품목의 총 생균수 4-4 amino_nitrogen number Y 품목의 아미노태질소 함량 4-5 microbiome number Y 품목의 미생물군집 4-6 saltness number Y 품목의 염도 5 images object Y 이미지 정보 5-1 file_name string Y 이미지 파일명 5-2 width number Y 이미지 너비 5-3 height number Y 이미지 높이 6 annotations object Y 라벨링 정보 6-1 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 6-2 bbox object Y 바운딩박스 정보 6-2-1 coordinates array Y 품목의 바운딩박스 좌표 [xmin, ymin, xmax, ymax] 바운딩박스 카테고리 식별자 Y number category_id 6-2-2 바운딩박스 카테고리명 Y string category_name 6-2-3 품목의 세부 부위 폴리곤 정보 Y object segmentation 6-3 [x1, y1, x2, y2 ...] 품목의 세부 부위 폴리곤 좌표 Y array coordinates 6-3-1 폴리곤 카테고리 식별자 Y number category_id 6-3-2 폴리곤 카테고리명 Y string category_name 6-3-3 폴리곤 넓이 Y number polygon_area 6-3-4 3-4. 고추장 라벨 구성요소
● 어노테이션 포맷3-4. 고추장 라벨 구성요소 구분 속성명 타입 필수여부 설명 범위 비고 1 info object Y 데이터셋 정보 1-1 item_name string Y 품목명 1-2 process_step string Y 품목의 공정단계 1-3 production_brand string Y 품목의 제조사 a, b, c, d, e 1-4 production_temperature number Y 측정환경의 온도조건 4, 10 1-5 measurement_sequence number Y 메타 데이터 측정 회차 1-6 location string N 수집 데이터의 위치정보 1-7 total_fermentation_day number Y 품목의 목표 발효일수 1-8 fermentation_day number Y 품목의 발효일수 1-9 fermentation_fungi string N 스타터 미생물 1-10 maturity string N 숙성정도 미숙, 적숙, 과숙 1-11 start_time string N 촬영 시작 시간 1-12 end_time string N 촬영 종료 시간 1-13 recipe string N 품목의 제조 레시피 1-14 fermentation_phase number Y 품목의 발효단계 0~4 1:발효1단계 ... 2 envdata object Y 품목별 환경 데이터 정보 2-1 env_date string Y 환경 데이터 측정 일자 2-2 env_time string N 환경 데이터 측정 시간 2-3 temperature number Y 측정 온도 2-4 humidity number Y 측정 습도 2-5 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 3 labdata object Y 품목별 색도 데이터 정보 3-1 lab_date string Y 색도 데이터 측정 일자 3-2 lab_time string N 색도 데이터 측정 시간 3-3 lightness number Y 밝기 좌표 3-4 redness number Y Red좌표 3-5 yellowness number Y Yellow좌표 3-6 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 4 metadata object Y 품목별 메타 데이터 정보 4-1 measurement_date string Y 메타 데이터 측정 일자 4-2 illumination number Y 측정환경의 촬영조도 4-3 bacteria_enumeration number Y 품목의 총 생균수 4-4 amino_nitrogen number Y 품목의 아미노태질소 함량 4-5 microbiome number Y 품목의 미생물군집 4-6 sugar_content number Y 품목의 당도 4-7 moisture number Y 품목의 수분량 5 images object Y 이미지 정보 5-1 file_name string Y 이미지 파일명 5-2 width number Y 이미지 너비 5-3 height number Y 이미지 높이 6 annotations object Y 라벨링 정보 6-1 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 6-2 bbox object Y 바운딩박스 정보 6-2-1 coordinates array Y 품목의 바운딩박스 좌표 [xmin, ymin, xmax, ymax] 바운딩박스 카테고리 식별자 Y number category_id 6-2-2 바운딩박스 카테고리명 Y string category_name 6-2-3 품목의 세부 부위 폴리곤 정보 Y object segmentation 6-3 [x1, y1, x2, y2 ...] 품목의 세부 부위 폴리곤 좌표 Y array coordinates 6-3-1 폴리곤 카테고리 식별자 Y number category_id 6-3-2 폴리곤 카테고리명 Y string category_name 6-3-3 폴리곤 넓이 Y number polygon_area 6-3-4 3-5. 청국장 라벨 구성요소
● 어노테이션 포맷3-5. 청국장 라벨 구성요소 구분 속성명 타입 필수여부 설명 범위 비고 1 info object Y 데이터셋 정보 1-1 item_name string Y 품목명 1-2 process_step string Y 품목의 공정단계 1-3 production_brand string Y 품목의 제조사 a, b, c, d, e 1-4 production_temperature number Y 측정환경의 온도조건 4, 10 1-5 measurement_sequence number Y 메타 데이터 측정 회차 1-6 location string N 수집 데이터의 위치정보 1-7 total_fermentation_hour number Y 품목의 목표 발효일수 1-8 fermentation_hour number Y 품목의 발효일수 1-9 fermentation_fungi string N 스타터 미생물 1-10 maturity string N 숙성정도 미숙, 적숙, 과숙 1-11 start_time string N 촬영 시작 시간 1-12 end_time string N 촬영 종료 시간 1-13 recipe string N 품목의 제조 레시피 1-14 fermentation_phase number Y 품목의 발효단계 0~4 1:발효1단계 ... 2 envdata object Y 품목별 환경 데이터 정보 2-1 env_date string Y 환경 데이터 측정 일자 2-2 env_time string N 환경 데이터 측정 시간 2-3 temperature number Y 측정 온도 2-4 humidity number Y 측정 습도 2-5 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 3 labdata object Y 품목별 색도 데이터 정보 3-1 lab_date string Y 색도 데이터 측정 일자 3-2 lab_time string N 색도 데이터 측정 시간 3-3 lightness number Y 밝기 좌표 3-4 redness number Y Red좌표 3-5 yellowness number Y Yellow좌표 3-6 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 4 metadata object Y 품목별 메타 데이터 정보 4-1 measurement_date string Y 메타 데이터 측정 일자 4-2 illumination number Y 측정환경의 촬영조도 4-3 bacteria_enumeration number Y 품목의 총 생균수 4-4 amino_nitrogen number Y 품목의 아미노태질소 함량 4-5 microbiome number Y 품목의 미생물군집 4-6 moisture number Y 품목의 수분량 5 images object Y 이미지 정보 5-1 file_name string Y 이미지 파일명 5-2 width number Y 이미지 너비 5-3 height number Y 이미지 높이 6 annotations object Y 라벨링 정보 6-1 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 6-2 bbox object Y 바운딩박스 정보 6-2-1 coordinates array Y 품목의 바운딩박스 좌표 [xmin, ymin, xmax, ymax] 바운딩박스 카테고리 식별자 Y number category_id 6-2-2 바운딩박스 카테고리명 Y string category_name 6-2-3 품목의 세부 부위 폴리곤 정보 Y object segmentation 6-3 [x1, y1, x2, y2 ...] 품목의 세부 부위 폴리곤 좌표 Y array coordinates 6-3-1 폴리곤 카테고리 식별자 Y number category_id 6-3-2 폴리곤 카테고리명 Y string category_name 6-3-3 폴리곤 넓이 Y number polygon_area 6-3-4 3-6. 탁주 라벨 구성요소
● 어노테이션 포맷3-6. 탁주 라벨 구성요소 구분 속성명 타입 필수여부 설명 범위 비고 1 info object Y 데이터셋 정보 1-1 item_name string Y 품목명 1-2 process_step string Y 품목의 공정단계 1-3 production_brand string Y 품목의 제조사 a, b, c, d, e 1-4 production_temperature number Y 측정환경의 온도조건 4, 10 1-5 measurement_sequence number Y 메타 데이터 측정 회차 1-6 location string N 수집 데이터의 위치정보 1-7 total_fermentation_day number Y 품목의 목표 발효일수 1-8 fermentation_day number Y 품목의 발효일수 1-9 fermentation_fungi string N 스타터 미생물 1-10 maturity string N 숙성정도 미숙, 적숙, 과숙 1-11 start_time string N 촬영 시작 시간 1-12 end_time string N 촬영 종료 시간 1-13 recipe string N 품목의 제조 레시피 1-14 fermentation_phase number Y 품목의 발효단계 0~4 1:발효1단계 ... 2 envdata object Y 품목별 환경 데이터 정보 2-1 env_date string Y 환경 데이터 측정 일자 2-2 env_time string N 환경 데이터 측정 시간 2-3 temperature number Y 측정 온도 2-4 humidity number Y 측정 습도 2-5 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 3 labdata object Y 품목별 색도 데이터 정보 3-1 lab_date string Y 색도 데이터 측정 일자 3-2 lab_time string N 색도 데이터 측정 시간 3-3 lightness number Y 밝기 좌표 3-4 redness number Y Red좌표 3-5 yellowness number Y Yellow좌표 3-6 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 4 metadata object Y 품목별 메타 데이터 정보 4-1 measurement_date string Y 메타 데이터 측정 일자 4-2 illumination number Y 측정환경의 촬영조도 4-3 bacteria_enumeration number Y 품목의 총 생균수 4-4 alcohol number Y 품목의 알코올 함량 4-5 acidness number Y 품목의 산도 4-6 sugar_content number Y 품목의 당도 5 images object Y 이미지 정보 5-1 file_name string Y 이미지 파일명 5-2 width number Y 이미지 너비 5-3 height number Y 이미지 높이 6 annotations object Y 라벨링 정보 6-1 image_id string Y 이미지 식별자 품목코드_공정일_ 제조조건_ 이미지순번 6-2 bbox object Y 바운딩박스 정보 6-2-1 coordinates array Y 품목의 바운딩박스 좌표 [xmin, ymin, xmax, ymax] 바운딩박스 카테고리 식별자 Y number category_id 6-2-2 바운딩박스 카테고리명 Y string category_name 6-2-3 품목의 세부 부위 폴리곤 정보 Y object segmentation 6-3 [x1, y1, x2, y2 ...] 품목의 세부 부위 폴리곤 좌표 Y array coordinates 6-3-1 폴리곤 카테고리 식별자 Y number category_id 6-3-2 폴리곤 카테고리명 Y string category_name 6-3-3 폴리곤 넓이 Y number polygon_area 6-3-4 ● 어노테이션 데이터 실제 예시
데이터 예시
(json)• 라벨링 데이터
-
데이터셋 구축 담당자
수행기관(주관) : ㈜에이아이더뉴트리진
수행기관(주관) 책임자명 전화번호 대표이메일 담당업무 이동훈 031-715-5950 [email protected] 데이터 구축 및 모델, 서비스 개발 수행기관(참여)
수행기관(참여) 기관명 담당업무 세계김치연구소 김치류 데이터 구축 재단법인 발효미생물산업진흥원 장류 데이터 구축 조선대학교 산학협력단 김치류 데이터 구축 데이터 관련 문의처
데이터 관련 문의처 담당자명 전화번호 이메일 이동훈 031-715-5950 [email protected]
-
인터넷과 물리적으로 분리된 온라인·오프라인 공간으로 의료 데이터를 포함하여 보안 조치가 요구되는 데이터를 다운로드 없이 접근하고 분석 가능
* 온라인 안심존 : 보안이 보장된 온라인 네트워크를 통해 집, 연구실, 사무실 등 어디서나 접속하여 데이터에 접근하고 분석
* 오프라인 안심존 : 추가적인 보안이 필요한 데이터를 대상으로 지정된 물리적 공간에서만 접속하여 데이터에 접근하고 분석 -
- AI 허브 접속
신청자 - 안심존
사용신청신청자신청서류 제출* - 심사구축기관
- 승인구축기관
- 데이터 분석 활용신청자
- 분석모델반출신청자
- AI 허브 접속
-
1. 기관생명윤리위원회(IRB) 심의 결과 통지서 [IRB 알아보기] [공용IRB 심의신청 가이드라인]
2. 기관생명윤리위원회(IRB) 승인된 연구계획서
3. 신청자 소속 증빙 서류 (재직증명서, 재학증명서, 근로계약서 등 택1)
4. 안심존 이용 신청서 [다운로드]
5. 보안서약서 [다운로드]
※ 상기 신청서 및 첨부 서류를 완비한 후 신청을 진행하셔야 정상적으로 절차가 이루어집니다. -
신청 및 이용관련 문의는 [email protected] 또는 02-525-7708, 7709로 문의
데이터셋 다운로드 승인이 완료 된 후 API 다운로드 서비스를 이용하실 수 있습니다.
API 다운로드 파일은 분할 압축되어 다운로드 됩니다. 분할 압축 해제를 위해서는 분할 압축 파일들의 병합이 필요하며 리눅스 명령어 사용이 필요합니다.
리눅스 OS 계열에서 다운로드 받으시길 권장하며 윈도우에서 파일 다운로드 시 wsl(리눅스용 윈도우 하위 시스템) 설치가 필요합니다.
※ 파일 병합 리눅스 명령어
find "폴더경로" -name "파일명.zip.part*" -print0 | sort -zt'.' -k2V | xargs -0 cat > "파일명.zip"
- 해당 명령어 실행 시, 실행 경로 위치에 병합 압축 파일이 생성됩니다.
- 병합된 파일 용량이 0일 경우, 제대로 병합이 되지 않은 상태이니 "폴더경로"가 제대로 입력되었는지 확인 부탁드립니다.
※ 데이터셋 소개 페이지에서 다운로드 버튼 클릭하여 승인이 필요합니다.