Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- 영어표현
- 의대정원
- 영어뉴스기사
- 영어뉴스
- 미국석사
- 영어신문읽기
- 토플준비
- sql
- 파이썬
- 코린이
- 파이썬코딩
- 의대확장
- 파이썬코딩테스트
- 토플공부법
- SQL코딩테스트
- 영어신문
- 코딩테스트
- 토플독학
- 영어기사읽기
- 프로그래머스SQL
- SQL쿼리
- 의대정원확장
- 프로그래머스
- 프로그래머스파이썬
- 프로그래머스코딩테스트
- 영어
- 영어공부
- 영문법
- 영어뉴스읽기
- 영어기사
Archives
- Today
- Total
OFMY (Ony for me and you)
[EDA] 데이터프레임으로 피쳐 특성 살펴보기 본문
모든 feature의 타입, 결측치, 고유값들을 정리해서 데이터프레임을 재가공 시키는 코드
# show dataframe for each features that we have
dataFeatures = []
dataType = []
null = []
nullPCT = []
unique = []
minValue = []
maxValue = []
uniqueSample = []
for item in list(train):
dataFeatures.append(item)
#데이터 타입
for item in dataFeatures:
dataType.append(train[item].dtype.name)
#결측치 개수
for item in dataFeatures:
null.append(len(train[train[item].isnull() == True]))
#결측치 비율
for item in dataFeatures:
nullPCT.append(round(len(train[train[item].isnull() == True])/len(train[item])*100,2))
#가장 작은 값
for item in dataFeatures:
minValue.append(train[item].min())
#가장 큰 값
for item in dataFeatures:
maxValue.append(train[item].max())
#고유값 개수
for item in dataFeatures:
unique.append(train[item].nunique())
#고유값 샘플
for item in dataFeatures:
uniqueSample.append(train[item].unique()[0:2])
#데이터프레임 재생성
train_info = pd.DataFrame({
'dataFeatures' : dataFeatures,
'dataType' : dataType,
'null' : null,
'nullPCT':nullPCT,
'unique' : unique,
'minValue' : minValue,
'maxValue' : maxValue,
'uniqueSample':uniqueSample
})
train_info
결과:
'머신러닝 > 코드 뜯어보기' 카테고리의 다른 글
[EDA] Feature 시각화 (0) | 2023.09.12 |
---|---|
[EDA] 타깃 분포 살펴보기 - pie차트 (0) | 2023.09.12 |
[EDA] 이상치 확인하기 (0) | 2023.09.12 |