2. DataFrame 2차원 데이터(Series들의 모음) Data 준비 예) 슬램덩크 주요 인물 8명에 대한 데이터 data = { '이름':['채치수','정대만','송대섭','서태훈','김백호','변덕규','황태산','윤대협'], '학교':['북산고','북산고','북산고','북산고','북산고','능남고','능남고','능남고'], '키':[197,184,168,187,188,202,188,190], '국어':[90,40,80,40,15,80,55,100], '영어':[85,35,75,60,20,100,65,85], '수학':[100,50,70,70,10,95,45,90], '과학':[95,55,80,75,35,85,40,95], '사회':[85,25,75,80,10,80,35,95], 'SW특기':[..
Pandas 파이썬에서 사용하는 데이터 분석 라이브러리 import pandas as pd 1. Series 1차원 데이터(정수, 실수, 문자열 등) Series 객체 생성 예) 1월부터 4월까지 평균 온도 데이터(-20,-10,10,20) temp = pd.Series([-20, -10, 10, 20]) series 값 인덱스 번호로 출력 temp[0] # -20 출력 temp[2] # 10 출력 Series 객체 생성(Index 지정) temp = pd.Series([-20,-10,10,20], index=['Jan','Feb','Mar','Apr']) """출력값 Jan -20 Feb -10 Mar 10 Apr 20 dtype: int64""" temp['Jan'] #-20 출력 temp['Apr'..
Datetime 형태로 변환하기 pd.to_datetime() import pandas as pd dates = ["2020-01-01", "2020-03-01", "2020-09-01"] ts_dates = pd.to_datetime(dates) # 리스트형태의 변수만 가능 Datetime 기간 설정 pd.period_range() timestamp_df = pd.date_range(start = "2020-01-01", end = None, periods = 6, freq = "Y", tz = 'Asia/Seoul') freq에 가능한 설정 : Y, M, D, H, MIN, S 문자형 데이터에서 년,월,일 추출하여 새로운 칼럼에 넣기 date_df split() 함수 사용 date_df['년'] = ..
1. 파일조회 import pandas as pd file_path = './파일경로' df = pd.read_csv(file_path) # 오류 발생시 encoding 확인 2. 결측치 확인 info() 행의 개수와 각 컬럼별 개수가 동일한지 확인 df.info() isnull() null값이 True 인 boolean 형태로 출력 df.isnull() isnull().sum() null값을 가진 행의 개수를 알고자 할때 사용 df.isnull().sum() isnull().sum(axis=1) null값을 가진 열의 개수를 알고자 할때 사용 df.isnull().sum(axis=1) notnull() null값이 False인 boolean 형태로 출력 df.notnull() 3. 결측치 처리 삭제 d..