Data mining
데이터마이닝을 한마디로 요약하면 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것1으로 정의된다.
About
좀더 상세히 정의하면, 다음과 같다.2
데이터마이닝의 또다른 정의로서 가트너그룹은 다음과 같이 정의하고 있다.3
데이터마이닝은 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용하여 데이터 저장소에 저장된 대용량의 데이터를 조사함으로써 의미있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이다.
Data mining process
- Problem definition
- Data acquisition and selection
- Data exploration
- Data preprocessing
- Train and evaluate data mining model
- Interpret results
Data set
Partition.png
Training set
a set of examples used for learning: to fit the parameters of the classifier In the MLP case, we would use the training set to find the “optimal” weights with the back-prop rule
Validation set
a set of examples used to tune the parameters of a classifier In the MLP case, we would use the validation set to find the “optimal” number of hidden units or determine a stopping point for the back-propagation algorithm
Test set
a set of examples used only to assess the performance of a fully-trained classifier In the MLP case, we would use the test to estimate the error rate after we have chosen the final model (MLP size and actual weights) After assessing the final model on the test set, YOU MUST NOT tune the model any further!
Why separate test and validation sets?
The error rate estimate of the final model on validation data will be biased (smaller than the true error rate) since the validation set is used to select the final model After assessing the final model on the test set, YOU MUST NOT tune the model any further!
See also
Favorite site
- Multiple linear regression - Data mining process
- 데이터마이닝의 개요
- 머신러닝(Machine Learning) 10장 - Training-Testing data set -
- 머신 러닝의 모델 평가와 모델 선택, 알고리즘 선택 – 3장. 크로스밸리데이션과 하이퍼파라미터 튜닝
- 18. Training-Testing 데이타 셋 (lec 07-2)
- [추천] What is the difference between test set and validation set?
- 과적합(Over-fitting)을 피할 수 있는 방법은? (Training vs. Validation vs. Test set)