Terriermon - Digimon

ADsP 3-1. 데이터 마트

2024. 11. 9. 13:46자격증/ADsP

데이터 마트

: 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스

(ETL: 데이터 웨어하우스 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스(DW)에 적재하는 모든 과정)

 

데이터 전처리(preprocessing)

: 정제와 변수 처리를 포함한 광의의 개념. 

  데이터를 분석하기 위해 데이터를 가공하는 작업

▷ 요약변수 : 원래의 데이터로부터 기본적인 통계 자료를 추출한 변수. 재활용성이 높다.

파생변수 : 파생변수는 범용으로 활용되는 기본적인 통계자료가 아닌, 특정한 목적을 갖고 조건을 만족하는 변수들을 새롭게 생성한 것을 의미한다. 예컨대 단순하게 합계를 구해 새로운 변수로 만들었다면 그것은 요약변수지만, 특정한 매장의 월별 합계 혹은 특정 기간 남성 고객의 구매 총액 등과 같이 목적 및 조건을 만족하는 변수를 생성했다면 그것은 파생변수다. 따라서 파생변수에는 목적에 따른 특정한 의미가 부여된다. 그래서 파생변수는 주관적일 수 있으므로 논리적 타당성을 갖추어야 한다.

 

탐색적 데이터 분석(EDA)

: 데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악.

EDA의 4가지 주제

: 저항성, 잔차해석, 자료변수의 재표현,그래프를 통한 현시성

 

결측값

: 존재 하지 않는 데이터

NA,NULL,공백,-1 등

 

결측값 대치 방법

1. 단순 대치법

: 결측값이 존재하는 데이터를 삭제하는 방법.

가장 쉬운 결측값 처리 방법이지만 결측값이 많은 경우 대량의 데이터 손실이 발생할 수 있다.

complete.cases는 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE 를 반환

 

2. 평균 대치법

: 데이터를 대표할 수 있는 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법

1) 비조건부 평균 대치법

: 데이터의 평균값으로 결측값을 대치

2) 조건부 평균 대치법

: 실제 값들을 분석하여 회귀 분석을 활용하는 대치

 

3. 단순 확률 대치법

: 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법

K-Neares Neighbor 방법

: K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법

 

4. 다중 대치법

: 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법. 결측값 대치, 분석, 결합의 세 단계로 구성

 

이상값

: 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은 값

 

이상값 판단

1. ESD

: 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법.

전체 데이터의 약 0.3 퍼센트를 이상값으로 구분

 

2. 사분위수

25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3) 을 화용하여 이상치 판단.

가장 작은 하한 사분위수를 Q1이라고 하고, 가장 큰 사분위수인 상한 사분위수는 Q3라고 함

IQR이란 사분위의 정상 범위인 Q1과 Q3 사이를 의미하며, 사분범위 라고 함

 

반응형

'자격증 > ADsP' 카테고리의 다른 글

2025년 adsp 시험 일정  (0) 2024.12.05
adsp 43회 불합격 후기  (0) 2024.12.03
ADsP 제43회 시험 후기  (2) 2024.11.10
2024 ADsP 시험 일정 및 배점  (0) 2024.08.06