판다스 데이터 전처리 - 결측치 제거

1. 파일조회

import pandas as pd
file_path = './파일경로'
df = pd.read_csv(file_path) # 오류 발생시 encoding 확인

 

2. 결측치 확인

  • info() 
    • 행의 개수와 각 컬럼별 개수가 동일한지 확인
df.info()
  • isnull()
    • null값이 True 인 boolean 형태로 출력
df.isnull()
  • isnull().sum()
    • null값을 가진 행의 개수를 알고자 할때 사용
df.isnull().sum()
  • isnull().sum(axis=1)
    • null값을 가진 열의 개수를 알고자 할때 사용
df.isnull().sum(axis=1)
  •  notnull()
    • null값이 False인 boolean 형태로 출력
df.notnull()

 

3. 결측치 처리

  • 삭제
    • dropna()
      • null값을 가진 행 모두 삭제
    • dropna(axis=1)
      • null값을 가진 열 모두 삭제
  • 대체
    • fillna()
      • 0, 평균값, 문자열 등
df.fillna(0
df.fillna("missing")
df.fillna(df.mean())

 

'Python > 데이터분석' 카테고리의 다른 글

04_판다스_파일 저장 및 열기  (0) 2022.07.04
03_판다스_Index  (0) 2022.07.04
02_판다스_데이터프레임  (0) 2022.06.15
01_판다스_Series  (0) 2022.06.15
시계열 데이터 탐색하기  (0) 2022.06.14