Skip to content

Dataset

자료 집합 또는 데이터 세트(data set)는 자료의 모임이다.

일반적으로 자료 집합은 하나의 데이터베이스 테이블의 내용이나 하나의 통계적 자료 행렬과 일치하며 여기에서 테이블의 모든 컬럼은 특정한 변수를 대표하며 각 로우는 제기된 자료 집합의 주어진 멤버와 일치한다. 이 자료 집합은 변수 개개의 값들을 나열하는데, 이를테면 자료 집합의 각 멤버에 대한 물체의 높이와 무게를 들 수 있다. 각각의 값은 자료라고 부른다. 자료 집합은 하나 이상의 멤버에 대한 데이터를 이루며, 로우의 수와 일치한다.

자료 집합이라는 용어는 또한 특정한 실험이나 이벤트에 상응하는, 밀접히 관계된 테이블의 모임 안의 데이터를 가리킬 수도 있다. 이러한 종류의 예는 우주 탐사체의 장비로 실험을 수행하는 항공 우주국에 의해 수집된 데이터 집합을 들 수 있다.

in Machine Learning

Dataset-training_validation_testing.png

Validation vs Test

  • Machine Learning에서 validation set을 사용하는 이유
  • Test set은 모델의 '최종 성능' 을 평가하기 위해서 쓰이며, training의 과정에 관여하지 않는 차이가 있습니다.
  • 반면 Validation set은 여러 모델 중에서 최종 모델을 선정하기 위한 성능 평가에 관여한다 보시면됩니다.
  • 따라서 Validation set은 Training과정에 관여하게 됩니다.

즉, validation set은 training 과정에 관여를 하며, training이 된 여러가지 모델 중 가장 좋은 하나의 모델을 고르기 위한 셋입니다. test set은 모든 training 과정이 완료된 후에 최종적으로 모델의 성능을 평가하기 위한 셋입니다. 만약 test set이 모델을 개선하는데 쓰인다면, 그건 test set이 아니라 validation set입니다. 만약 여러 모델을 성능 평가하여 그 중에서 가장 좋은 모델을 선택하고 싶지 않은 경우에는 validation set을 만들지 않아도 됩니다. 하지만 이 경우에는문제가 생길 것입니다. (test accuracy를 예측할 수도 없고, 모델 튜닝을 통해 overfitting을 방지할 수도 없습니다.)

Data pools

또한 머신 러닝 (Machine learning)을 위한 샘플 데이터셋을 정리한다.

종합

  • AI Hub (과학기술정보통신부)
  • Data.gov - 미국 연방 공공 데이터 16TB 규모의 30만개 데이터셋 포함

Image

Image (OCR)

Video

Regression

Tracking

License Plate Recognition

Pedestrian detection

Face recognition

Car

Korean

  • KorQuAD: KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia article 전체에서 답을 찾아야 합니다. 매우 긴 문서들이 있기 때문에 탐색 시간에 대한 고려가 필요할 것 입니다. 또한 표와 리스트도 포함되어 있기 때문에 HTML tag를 통한 문서의 구조 이해도 필요합니다. 이 데이터셋을 통해서 다양한 형태와 길이의 문서들에서도 기계독해가 가능해질 것 입니다.

NLP

Fire

Fall detection (Activity Recognition)

Human Pose

Injured civilians

Road accident

자연어

The General Index - 백만개 저널의 n-gram 인덱스를 무료로 공개
https://archive.org/details/GeneralIndex
연구자 Carl Malamud가 유료 논문을 포함한 107,233,728개의 저널에서 SpaCy로 추출한 n-gram 인덱스를 공개
전체 텍스트가 아닌 1단어부터 최대 5단어 길이의 문장 스니펫만 포함한 인덱스라서 저작권 제한을 회피
다양한 연구 분야에 사용할 수 있게 웹 아카이브에 무료로 공개
  • 예) 특정 화학 물질이 논문에 몇 번이나 사용되었는가
3개의 테이블로 구성
  • 3500억 개의 n-gram 과 저널 id
  • 197억 개의 키워드 와 저널 id
  • 저널 id 와 메타 데이터 : 논문제목, 저자, DOI(논문 고유 식별 번호)
카탈로그는 5TB의 압축파일로 해제시 38TB

ETC

See also

Favorite site

References


  1. Handong1587-2015-09-24-Computer_Vision_Datasets.md.zip