Colab으로 데이터 분석하기 (1)
스프레드 시트를 활용한 데이터 분석이 아닌 Colab을 활용하여 파이썬으로 데이터를 분석하였다.
이 게시물에서는 Colab과 파이썬에 대한 간단한 개요를 이야기할 것이다.
Colab을 사용하기에 먼저 파이썬의 라이브러리가 여러가지가 있는데, pandas, matplotlib, numpy, seaborn은 자주 등장할 것 같아 미리 정의하고자 한다.
pandas는 파이썬 라이브러리, matplotlib은 시각화 해주는 라이브러리, numpy는 수식을 계산해주는 라이브러리, seaborn은 matplotlib와 같이 시각화를 해주는 라이브러리다.
파이썬에는 리스트, 인덱스, 딕셔너리가 있다.
-리스트란 순서가 있는 데이터의 모음집으로 list_exercise = [3,4,[5,6],7]의 형태를 가진다.
-인덱스는 리스트 안의 데이터들의 번호를 말하며 가장 처음에 있는 데이터는 0번이다.
-딕셔너리는 이름과 이름에 해당하는 값이 쌍으로 이뤄진 데이터들의 모음집으로 김철수 = {'height':183,'weight':68,'eyesight':2.0}의 형태를 가진다.
파이썬을 통해 데이터를 분석하기 위해서는 흐름을 이해하여야 한다.
문제 정의 및 가설 설정 -> 데이터 분석 기본 세팅 -> 데이터 분석 -> 분석 결과 시각화 -> 결론순이다.
사용선언 상관계수
데이터 가져오기
데이터 확인
공백 및 결측치 제거