728x90
728x90
데이터 분석 표현 복습 1. Steamlit 데이터 과학 및 머신러닝 모델을 구축하고 웹 애플리케이션으로 쉽게 공유할 수 있도록 도와주는 파이썬 라이브러리 # 실행 # 주피터랩 - 터미널 - streamlit run streamlit\test.py 2. Text elements import streamlit as st # 애플리케이션의 제목 설정 st.title("My Streamlit App") # 대제목 추가 st.header("This is a Header") # 소제목 추가 st.subheader("This is a Subheader") # 텍스트 추가 st.text("This is some text.") # 다양한 유형의 객체를 표시 (문자열, 숫자, 리스트, 딕셔너리, 데이터프레임 등) st...
데이터 수집 복습 1. Web Server & Client Architecture -------------------- request --------------------> Client Internet Server 확인하는 방법 : response.text # headers 추가 headers = { 'User-Agent' : '__', 'Referer' : '__', # ,를 찍어주는 것이 후에 에러 처리할 때 용이 } response = requests.get(url, headers = headers) response 4. REST API Representational State Transfer Client와 Server가 통신하기 위한 URL 구조에 대한 정의 및 디자인 인코딩 디코딩 변환 사이트 ..
데이터 분석 복습 6. 가설검정 가설검정(hypothesis test) 수집한 데이터로 가설에 대해 타당성을 입증하는 것 모집단과 표본 모집단: 알고 싶은 대상 전체 데이터 표본: 그 대상의 일부 데이터 귀무가설(null hypothesis) 현재까지 알려진 사실을 기준으로 설정한 가설 차이가 없다 대립가설(alternative hypothesis) 새롭게 주장하고자 하는 가설 차이가 있다 통계적 검정 표본으로부터 대립가설을 확인하고, 모집단에서도 맞을 것이라 주장 분포 + 판단 기준 필요 p-value 계산(차이 값이 클 수록 p-value 작아 짐) 0.05 보다는 p-value가 작아야, 차이가 있다고 판단 단측검정 ex) A매장과 B매장 중 어디의 수요량이 더 큰가? 양측검정(주로 사용) ex) ..
데이터 분석 복습 1. 데이터 분석 방법론 CRISP-DM(Cross-Industry Standard Process for Data Mining) 1) 비즈니스 이해(Business Understanding) 문제를 정의하고 요인을 파악하기 위한 가설 수립 비즈니스 이해하는 단계 업무 목적 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 2) 데이터 이해(Data Understanding) 데이터 수집 및 속성 이해 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 데이터 분석 도구 EDA(Exploratory Data Analysis) 개별 데이터의 분포, 가설이 맞는지 파악 NA, 이상치 파악 CDA(Confirmatory Data Analysis) 탐색으로 파악하기 애매한..
데이터 다듬기 복습 5. 판다스(Pandas) 데이터 프레임 변경 열 이름 변경 1) 일부 열 이름 변경 rename() 메서드를 사용해 변경 전후의 열 이름을 딕셔너리 형태로 나열 inplace=True 옵션을 설정해야 변경 사항이 실제로 반영 # rename() 함수로 열 이름 변경 tip.rename(columns = {'total_bill_amount': 'total_bill', 'male_female' : 'sex', 'dinner_lunch' : 'time'}, inplace =True) 2) 모든 열이름 변경 모든 열 이름을 변경할 때는 columns 속성을 변경 변경이 필요없는 열은기존 이름 부여 # 모든 열 이름 변경 tip.columns = ['total_bill', 'sex', 'ti..
데이터 다듬기 복습 1. 넘파이(Numpy) 배열 확인 및 연산 # 배열 정보 확인 ndim # 차원 확인 shape # 형태(크기) 확인 dtype # 요소 자료형 확인 # 배열 연산 np.add(x, y) # 배열 더하기 np.subtract(x, y) # 배열 빼기 np.multiply(x, y) # 배열 곱하기 np.divide(x, y) # 배열 나누기 np.power(x, y) # 배열 제곱 2. 판다스(Pandas) 데이터 프레임 함수 head() # 상위 데이터 확인 tail() # 하위 데이터 확인 shape # 데이터프레임 크기 index # 인덱스 정보 확인 values # 값 정보 확인 columns # 열 정보 확인 dtypes # 열 자료형 확인 info() # 각 열에 대한 요..