OFMY (Ony for me and you)

[EDA] 데이터프레임으로 피쳐 특성 살펴보기 본문

머신러닝/코드 뜯어보기

[EDA] 데이터프레임으로 피쳐 특성 살펴보기

선뭉 2023. 9. 12. 15:46

모든 feature의 타입, 결측치, 고유값들을 정리해서 데이터프레임을 재가공 시키는 코드 

# show dataframe for each features that we have
dataFeatures = []
dataType     = []
null         = []
nullPCT      = []
unique       = []
minValue     = []
maxValue     = []
uniqueSample = []


for item in list(train):
    dataFeatures.append(item)

#데이터 타입 
for item in dataFeatures:
    dataType.append(train[item].dtype.name)
 
#결측치 개수 
for item in dataFeatures:
    null.append(len(train[train[item].isnull() == True]))

#결측치 비율 
for item in dataFeatures:
    nullPCT.append(round(len(train[train[item].isnull() == True])/len(train[item])*100,2))
    
    
#가장 작은 값 
for item in dataFeatures:
    minValue.append(train[item].min())
    

#가장 큰 값
for item in dataFeatures:
    maxValue.append(train[item].max())
    

#고유값 개수
for item in dataFeatures:
    unique.append(train[item].nunique())
    

#고유값 샘플
for item in dataFeatures:
    uniqueSample.append(train[item].unique()[0:2])
    

#데이터프레임 재생성
train_info = pd.DataFrame({
    'dataFeatures' : dataFeatures,
    'dataType' : dataType,
    'null' : null,
    'nullPCT':nullPCT,
    'unique' : unique,
    'minValue' : minValue,
    'maxValue' : maxValue,
    'uniqueSample':uniqueSample
})
train_info

결과: 

'머신러닝 > 코드 뜯어보기' 카테고리의 다른 글

[EDA] Feature 시각화  (0) 2023.09.12
[EDA] 타깃 분포 살펴보기 - pie차트  (0) 2023.09.12
[EDA] 이상치 확인하기  (0) 2023.09.12