728x90
728x90
데이터 분석 복습 1. 데이터 분석 방법론 CRISP-DM(Cross-Industry Standard Process for Data Mining) 1) 비즈니스 이해(Business Understanding) 문제를 정의하고 요인을 파악하기 위한 가설 수립 비즈니스 이해하는 단계 업무 목적 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 2) 데이터 이해(Data Understanding) 데이터 수집 및 속성 이해 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 데이터 분석 도구 EDA(Exploratory Data Analysis) 개별 데이터의 분포, 가설이 맞는지 파악 NA, 이상치 파악 CDA(Confirmatory Data Analysis) 탐색으로 파악하기 애매한..
데이터 다듬기 복습 5. 판다스(Pandas) 데이터 프레임 변경 열 이름 변경 1) 일부 열 이름 변경 rename() 메서드를 사용해 변경 전후의 열 이름을 딕셔너리 형태로 나열 inplace=True 옵션을 설정해야 변경 사항이 실제로 반영 # rename() 함수로 열 이름 변경 tip.rename(columns = {'total_bill_amount': 'total_bill', 'male_female' : 'sex', 'dinner_lunch' : 'time'}, inplace =True) 2) 모든 열이름 변경 모든 열 이름을 변경할 때는 columns 속성을 변경 변경이 필요없는 열은기존 이름 부여 # 모든 열 이름 변경 tip.columns = ['total_bill', 'sex', 'ti..
데이터 다듬기 복습 1. 넘파이(Numpy) 배열 확인 및 연산 # 배열 정보 확인 ndim # 차원 확인 shape # 형태(크기) 확인 dtype # 요소 자료형 확인 # 배열 연산 np.add(x, y) # 배열 더하기 np.subtract(x, y) # 배열 빼기 np.multiply(x, y) # 배열 곱하기 np.divide(x, y) # 배열 나누기 np.power(x, y) # 배열 제곱 2. 판다스(Pandas) 데이터 프레임 함수 head() # 상위 데이터 확인 tail() # 하위 데이터 확인 shape # 데이터프레임 크기 index # 인덱스 정보 확인 values # 값 정보 확인 columns # 열 정보 확인 dtypes # 열 자료형 확인 info() # 각 열에 대한 요..
3주차 (3월 4일 ~ 8일)데이터 다듬기(3월 4일 ~ 6일 )2주차에 이어서 데이터 다듬기 수업이 계속되었습니다! 데이터 다듬기 수업에서는 csv 파일을 불러와 데이터 프레임을 조회, 탐색, 집계, 변경 등 전처리의 전반적인 과정을 배웠습니다. 이론 후 실습 과정으로 진행되었으며 크게 이해가 어려운 부분은 없었지만 개인적으로 '.'이나 '[]' 같이 판다스 객체에서 데이터에 접근하고 조작하는 데 사용되는 문법을 언제 사용해야 하는지와 merge 부분에서 어떤 방법으로 조인(inner, left, outer)하는지에 대해서 조금 헷갈렸습니다. 나름 SQL 공부도 했는데 여전히 헷갈리네요ㅠ 수업 마지막 날(3월6일)에는 강사님께서 초미니테스트라고 부르시는 종합실습을 진행하며 복습할 수 있는 시간을 가졌습..
데이터 다루기 복습 enumerate() 반복 가능한 객체(리스트, 튜플, 문자열 등)를 입력으로 받아 인덱스와 해당 요소를 포함하는 enumerate 객체를 반환하는 함수 # enumerate() 형식 enumerate(iterable, start=0)# 순회할 수 있는(iterable) 객체 #인덱스의 시작값을 설정할 수 있으며 기본값은 0 # 리스트의 각 요소와 인덱스를 함께 출력하는 예시 fruits = ['apple', 'banana', 'cherry'] for index, fruit in enumerate(fruits): print(index, fruit, end = ' ')# 결과 0 apple 1 banana 2 cherry items 딕셔너리를 반복문에 사용할 때 각 (키, 값) 쌍을 반..
2주차 (2월 26일 ~ 29일) 데이터 다루기 (2월 26일~28일) 1주차에 이어서 데이터 다루기 수업이 계속되었습니다! 제어문, 함수, 정규 표현식 등에 대해서 학습하고 파이썬을 활용하여 파일을 다루는 방법과 이메일 보내보기 등을 실습했습니다. 나름 파이썬 기초 지식은 알고 있다고 생각했는데 막상 들어보니 헷갈리는 것도 많고 처음 접하는 부분도 있어서 집중해서 들을 수 있었습니다. 헷갈리는 것 위주로 따로 복습하면서 정리하려고 합니다! 데이터 다루기 수업 완강 후 셀프 테스트를 진행했습니다! 셀프 테스트는 각 과목이 끝날 때마다 15분 정도 진행되는 시험이며 셀프 테스트인 만큼 본인의 이해 상태와 부족한 점을 체크할 수 있었던 것 같습니다. 난이도는 수업을 잘 수강하고 복습했다면 충분히 풀 수 있는..