1. 파일조회
import pandas as pd
file_path = './파일경로'
df = pd.read_csv(file_path) # 오류 발생시 encoding 확인
2. 결측치 확인
- info()
- 행의 개수와 각 컬럼별 개수가 동일한지 확인
df.info()
- isnull()
- null값이 True 인 boolean 형태로 출력
df.isnull()
- isnull().sum()
- null값을 가진 행의 개수를 알고자 할때 사용
df.isnull().sum()
- isnull().sum(axis=1)
- null값을 가진 열의 개수를 알고자 할때 사용
df.isnull().sum(axis=1)
- notnull()
- null값이 False인 boolean 형태로 출력
df.notnull()
3. 결측치 처리
- 삭제
- dropna()
- null값을 가진 행 모두 삭제
- dropna(axis=1)
- null값을 가진 열 모두 삭제
- dropna()
- 대체
- fillna()
- 0, 평균값, 문자열 등
- fillna()
df.fillna(0
df.fillna("missing")
df.fillna(df.mean())
'Python > 데이터분석' 카테고리의 다른 글
04_판다스_파일 저장 및 열기 (0) | 2022.07.04 |
---|---|
03_판다스_Index (0) | 2022.07.04 |
02_판다스_데이터프레임 (0) | 2022.06.15 |
01_판다스_Series (0) | 2022.06.15 |
시계열 데이터 탐색하기 (0) | 2022.06.14 |