타이타닉 생존율 예측import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspath=r'./train_final.csv'train_final = pd.read_csv(path)path=r'./test_final.csv'test_final = pd.read_csv(path)train_final.columnsfeature_names = ['Age_s', 'Fare_s', 'Pclass_2', 'Pclass_3', 'Sex_male', 'Embarked_Q', 'Embarked_S', 'Name_c_Master', 'Name_c_Mr', 'Name_c_W..
데이터 시각화import pandas as pdpath = './학군연습.xlsx'school_df = pd.read_excel( path )import matplotlib.pyplot as pltimport seaborn as sns# 시각화 기본 폼plt.figure() # 시작점# 핵심적인 데이터 시각화# 다양한 옵션들plt.show() # 종료, 마침표# 시각화의 내용은 ChatGPT를 활용하여 구체화가 가능함 데이터 시각화 목표우리가 데이터를 분석할 때, 이 데이터를 이해하기 위해서 시각화가 필요함현미경데이터 종류에 따라서 어떻게 시각화하여 데이터를 살펴볼지 정리!한글 폰트 설정import matplotlib.pyplot as pltfrom matplotlib import font_mana..
Jupyter NotebookCellCommand mode셀 자체에 영향, 셀을 추가, 삭제, 이동, ...셀 바깥쪽 클릭, ESC 누르기a(bove) : 현재 셀 위에 셀 추가b(elow) : 현재 셀 아래에 셀 추가x : 현재 셀 자르기, 삭제 대응으로 사용 가능Edit mode셀 안에다가 무언가 입력(에디트)shift + enter : 현재 셀 실행셀 단위로 실행맨 마지막 줄 코드의 결과는 자동으로 출력해 줌.Markdown : 문서 작업 가능(#으로 대, 소제목 구분)주피터 노트북에서 [View] - [Table of contents]를 통해 전체 항목을 확인 가능vscode에서 노트 목록 확인 시 왼쪽 하단에 OUTLINE을 활성화하여 확인 가능파이썬 기본 문법변수데이터에 이름을 만들어 주고 재..
import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') Column 수정 replace() df['학교'].replace({'북산고':'상북고', '능남고':'무슨고'}) *) 저장하려면 inplace = True 시행 lower() df['SW특기'] = df['SW특기'].str.lower() upper() df['SW특기'] = df['SW특기'].str.upper() 문자열 추가 df['학교'] = df['학교'] + '등학교' Column 추가 df['총합'] = df['국어'] + df['영어'] + df['수학'] + df['과학'] + df['사회'] df['결과'] = 'Fail' # 결과 Column 추가하고 전체 ..
import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') df.sort_values('키') # 키 기준으로 오름차순 정렬 df.sort_values('키', ascending=False) # 키 기준으로 내림차순 # 수학 점수는 오름차순, 영어 점수는 내림차순 df.sort_values(['수학', '영어'], ascending=[True, False]) df['키'].sort_values() df.sort_index(ascending=False) # 인덱스 내림차순 정렬
import pandas as pd df = pd.read_excel('score.xlsx', index_col='지원번호') fillna df.fillna('') # NaN 데이터를 빈 칸으로 채움 df.fillna('없음') # NaN 값을 '없음'으로 채움 --> 저장시 inplace=True 또는 변수로 다시 설정 df['SW특기'].fillna('확인중', inplace=True) # SW특기 데이터 중에서 NaN에 대해서 채움 데이터 제외하기 dropna df.dropna(inplace=True) # 전체 데이터 중에서 NaN을 포함하는 데이터 삭제 - dropna 조건 : axis, how -- axis : index or columns -- how : any or all df.dropna(..