1. 문자열 데이터 수집사내 데이터를 기반으로 진행한 프로젝트로, 데이터는 공유할 수 없음.2. 텍스트 전처리1) 한국어와 영어 분리re 활용# 한글과 영어를 분리korean_text = re.findall(r"[가-힣]+", text)english_text = re.findall(r"[a-zA-Z]+", text)print("Korean:", korean_text)print("English:", english_text) 한국어는 konlpy 라이브러리를 활용하여 불용어 처리, 토큰화를 진행한다.한국어의 경우, 띄어쓰기만으로는 형태소 분리가 어렵고, 단순하게 문맥을 파악하기 쉽지 않다.konlpy는 JAVA의 패키지를 사용하므로 jdk 설치 후 사용 가능, 불용어 처리 시 Okt 라이브러리를 사용대용량 ..
Streamlit에서 echart를 활용하여 데이터 시각화 하기Apache ECharts는 직관적이고 대화형이며 사용자 정의가 가능한 차트를 상용 제품에 쉽게 추가할 수 있는 강력한 무료 차트 및 시각화 라이브러리입니다. https://echarts.apache.org/examples/en/index.html Examples - Apache ECharts echarts.apache.org 1. streamlit-echarts 설치pip install streamlit-echarts 2. 간단한 예제 - bar 그래프import streamlit as stfrom streamlit_echarts import st_echartsoption = { 'xAxis': { 'type': 'category',..
AIP, DRM 보안 정책 모두 가능한 것으로 확인하였습니다.회사의 보안 정책으로, 분석을 진행할 Excel 파일이 잠겨있는 경우,아래의 코드를 사용하여 Pandas DataFrame으로 파일을 확인할 수 있습니다.pip install xlwings import xlwings as xwdata = xw.Book('파일경로')df_sheet1 = data.sheets(1).used_range.options(pd.DataFrame).value 위의 경우 엑셀 파일이 열리면서 데이터를 읽어온다엑셀 파일을 열지 않으면서 데이터를 읽으려면 app을 먼저 선언해야한다app 선언 후 visible을 False로 적용app = xw.App(visible=False)data = xw.Book('파일 경로')df = da..
타이타닉 생존율 예측import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snspath=r'./train_final.csv'train_final = pd.read_csv(path)path=r'./test_final.csv'test_final = pd.read_csv(path)train_final.columnsfeature_names = ['Age_s', 'Fare_s', 'Pclass_2', 'Pclass_3', 'Sex_male', 'Embarked_Q', 'Embarked_S', 'Name_c_Master', 'Name_c_Mr', 'Name_c_W..
데이터 시각화import pandas as pdpath = './학군연습.xlsx'school_df = pd.read_excel( path )import matplotlib.pyplot as pltimport seaborn as sns# 시각화 기본 폼plt.figure() # 시작점# 핵심적인 데이터 시각화# 다양한 옵션들plt.show() # 종료, 마침표# 시각화의 내용은 ChatGPT를 활용하여 구체화가 가능함 데이터 시각화 목표우리가 데이터를 분석할 때, 이 데이터를 이해하기 위해서 시각화가 필요함현미경데이터 종류에 따라서 어떻게 시각화하여 데이터를 살펴볼지 정리!한글 폰트 설정import matplotlib.pyplot as pltfrom matplotlib import font_mana..
Jupyter NotebookCellCommand mode셀 자체에 영향, 셀을 추가, 삭제, 이동, ...셀 바깥쪽 클릭, ESC 누르기a(bove) : 현재 셀 위에 셀 추가b(elow) : 현재 셀 아래에 셀 추가x : 현재 셀 자르기, 삭제 대응으로 사용 가능Edit mode셀 안에다가 무언가 입력(에디트)shift + enter : 현재 셀 실행셀 단위로 실행맨 마지막 줄 코드의 결과는 자동으로 출력해 줌.Markdown : 문서 작업 가능(#으로 대, 소제목 구분)주피터 노트북에서 [View] - [Table of contents]를 통해 전체 항목을 확인 가능vscode에서 노트 목록 확인 시 왼쪽 하단에 OUTLINE을 활성화하여 확인 가능파이썬 기본 문법변수데이터에 이름을 만들어 주고 재..