Statistics

통계학(統計學)은 수량적 비교를 기초로 하여 많은 사실을 통계적으로 관찰하고 처리하는 방법을 연구하는 학문이다. 근대과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 ‘국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)’과 영국의 ‘정치산술(Political Arithmetic, 정치사회에 대한 수량적 연구방법)’을 자연과학의 ‘확률이론’과 결합하여 수립한 학문에서 발전되었다.

Robust Parameter Estimation

중앙값 절대 편차 (Median absolute deviation) (MAD)
Random sample consensus (RANSAC)
평균 절대 편차
최소 절대 편차 (least absolute deviation)

Outlier Detection

Outlier (이상치/이상값/특이값/특이치) 탐지 방법들

Standard score (표준 점수, 표준값, Z값, Z-value, Z 점수, Z score)
Isolation forest

Clustering

클러스터링 작업을 수행하는 다양한 접근 방식과 알고리즘이 있는데 다음과 같이 큰 3가지 분류로 구분할 수 있다.

파티션 기반(Partition-based) 클러스터링 : 예 : k-means, k-median
계층적(Hierarchical) 클러스터링 : 예 : Agglomerative, Divisive
밀도 기반(Density-based) 클러스터링 : 예 : DBSCAN

표본평균과 표본분산

표본평균(標本平均)이란 모평균에 대비되는 개념으로서 이산확률분포와 연속확률분포에서 다루었던 확률변수에 대해서 반(反)하여 표본들을 추출하여 그 표본들의 평균을 구하고 그 평균의 집단을 대표하는 값을 일컫는다. 그 확률의 값을 계산하는 의미로서는 쿼타(quota)함수가 들어가며 모집단의 비율과 반대(反對)성을 의미하는 Partionism함수인 P(x)가 쓰이게 된다. Standing 가설에 의하여 증명하게 되면 논리적인 오류가 나올 수 있게 되므로 그 오류를 정정하여 쓰이게 된다.