-
미니 프로젝트 도전! (1)[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2023. 12. 21. 19:39
스파르타 캠프를 시작하고 처음 주어진 과제인 미니 프로젝트!
기초 지식으로 팀 프로젝트를 진행하라고 하셨는데, 아무런 지식이 없던 나에게는 처음부터 고난이었다.
다행히도 좋은 팀원들을 만나, 프로젝트의 가닥을 잡게 되었고, 필요한 전처리를 알 수 있었다.
우리는 캐글에서 음식 배달 서비스 데이터 분석 - • NYC Restaurants Data - Food Ordering and Delivery 라는 데이터를 얻었다. 그리고 이 데이터를 분석하기 위해 '등급과 음식준비시간, 배달시간, 비용이 상관관계가 있을까'라는 가설로 데이터 전처리하기 시작했다.
데이터를 보는데 rating에 nothing이라고 되어있는 부분이 있어 이 부분은 데이터에서 제외하고, 새로운 파일을 저장해 사용하였다.
스파르타 캠프에서 제공했던 데이터 분석 강의를 보았는데, 그 강의를 통해 이해했던 상관관계 분석을 중점으로 데이터 전처리하였다.
rating과의 상관관계를 분석하기 위해 아래와 같이 입력하였다.
상관관계는 -1~1 사이 숫자로 나온다고 했는데, 아래의 그래프는 -0.03이라는 수치가 나왔다. 이는 큰 상관관계가 없음을 보여준다.
다음은 cost_of_the_order을 기준으로 상관관계를 분석해보았다.
cost_of_the_order도 rating과 같이 큰 상관관계가 있는 데이터 없어보였다.
다른 데이터들 역시 큰 상관관계가 나오지 않았다. 다른 팀원들도 비슷한 양상일 것이라고 생각해 회의 시간에 새로운 주제를 이야기하기 위해 캐글에서 '스타벅스'와 관련된 새로운 데이터를 찾아 전처리 해보았다.
데이터를 보고 칼로리가 높으면 당도 높을까?라는 가설과 많이 구매한 beverage_category와 카페인과의 상관관계를 찾고 싶었다
우선, 칼로리와의 상관관계를 분석해보았다.
공백, 결측치에는 1개의 데이터가 존재하였다.
상관관계 그래프를 통해 칼로리와 당은 큰 상관관계가 있어보였다.
두번째로, 많이 구매한 beverage_category와 카페인과의 상관관계를 찾아보려했다.
이를 분석하기 위해 가장 먼저 한 것은 beverage_category의 최빈값을 찾아보았다.
이를 활용해서 카페인과의 상관관계를 찾고 싶었으나, 지식과 응용이 부족해 더 나아가지 못했다.
이를 응용할 수 있는 지식을 배우거나 다음에 또 이러한 분석 시간이 있다면, 이를 활용한 데이터를 추후 정리하고 싶었다.
나만의 가설로 데이터 전처리를 조원들에게 발표하였고, 조원들은 나처럼 다른 데이터를 찾지 않고 음식 배달 서비스 데이터에서 다양한 측면으로 분석하였다.
분석 결과를 토대로 우리는 '효율적인 서비스 제공을 위한 해결안 마련'이라는 목적을 중심으로 다시 데이터를 분석하였다.
'[스파르타코딩클럽]데이터분석 과정 > TIL,WIL' 카테고리의 다른 글
KDT 실무형 데이터 분석가 양성과정 1주차 (1) 2023.12.22 AttributeError 해결하기 (1) 2023.12.22 미니 프로젝트 끝! (1) 2023.12.22 미니 프로젝트 도전! (2) (1) 2023.12.21 SQL 첫 도전 (2) 2023.12.19