[스파르타코딩클럽]데이터분석 과정
-
코드카타/태블로[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 21. 20:58
SQL 코드카타 보호소에서 중성화한 동물 보호소에서 중성화 수술을 거친 동물 정보를 알아보려 합니다. 보호소에 들어올 당시에는 중성화되지 않았지만, 보호소를 나갈 당시에는 중성화된 동물의 아이디와 생물 종, 이름을 조회하는 아이디 순으로 조회하는 SQL 문 보호소, 유형 테이블 : 조인 중성화 : intact% SELECT i.ANIMAL_ID,i.ANIMAL_TYPE,i.NAME FROM ANIMAL_INS i JOIN ANIMAL_OUTS o ON i.ANIMAL_ID = o.ANIMAL_ID WHERE i.SEX_UPON_INTAKE LIKE "Intact%" and o.SEX_UPON_OUTCOME NOT LIKE "Intact%" ORDER BY i.ANIMAL_ID Count Salary Ca..
-
심화 프로젝트[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 20. 09:56
팀 회고록 Keep - 현재 만족하고 있는 부분 - 계속 이어갔으면 하는 부분 유연한 일정, 팀원들의 의견을 전반적으로 수용하려 함 시간 약속을 잘 지키는 것 좋은 팀원분들과 함께한 프로젝트의 높은 완성도 편안한 팀 분위기, 분담이 아닌 같이 진행해서 좋은 방법 채택하기 Problem - 불편하게 느끼는 부분 - 개선이 필요하다고 생각되는 부분 다양한 의견의 교류 개인적으로 데이터 분석 숙련도가 상대적으로 낮다고 판단해서, 프로젝트 기간동안 한계를 느꼈다 참여가 저조한 팀원에 대한 제재가 딱히 없음 데이터 이해가 느렸다고 생각함 Try - Problem에 대한 해결책 - 다음 회고 때 판별 가능한 것 - 당장 실행 가능한 것 참여가 적은 팀원을 조금만 독려하기 데이터를 이해하고 EDA를 분석해보는 시간을..
-
코드카타[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 20. 08:39
SQL 코드카타 있었는데요 없었습니다 관리자의 실수로 일부 동물의 입양일이 잘못 입력 보호 시작일보다 입양일이 더 빠른 동물의 아이디와 이름을 조회하는 SQL문을 작성 보호 시작일이 빠른 순으로 조회 입양일, 보호시작일 : 조인 보호 시작일이 빠름 : '2019-08-16' UNION ALL SELECT P.product_id, P.new_price as price FROM Products P INNER JOIN ( SELECT product_id, MAX(change_date) as max_date FROM Products WHERE change_date
-
코드카타 / 프로젝트[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 14. 21:38
SQL 코드카타 상품 별 오프라인 매출 구하기 상품코드 별 매출액 합게를 출력하는 SQL문을 작성 결과는 매출액을 기준으로 내림차순 정렬 매출액이 같다면 상품코드를 기준으로 오름차순 정렬 매출액 합계 : sum(가격 * 판매량) 테이블 조인 상품코드별 : group by 정렬 order by SELECT P.PRODUCT_CODE, SUM(P.PRICE * O.SALES_AMOUNT) AS 'SALES' FROM PRODUCT AS P INNER JOIN OFFLINE_SALE AS O ON P.PRODUCT_ID = O.PRODUCT_ID GROUP BY P.PRODUCT_CODE ORDER BY `SALES` DESC, P.PRODUCT_CODE ASC; Consecutive Numbers 연속해서 ..
-
심화프로젝트2[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 8. 21:10
어제 튜터님께 피드백 받았던 부분을 4가지로 나누어서 진행했다. 1) 명목변수-X변수 관계 2) 타겟과 X변수간의 관계, 방향, 비율 확인하기 3) X끼리 상관계수 4) unknown 관련 나는 이 중 2번을 진행했는데 numeric_col은 boxplot으로 시각화해서 이상치들을 확인했다. import seaborn as sns import matplotlib.pyplot as plt # 수치형 변수와 타겟 간의 관계 시각화 for column in numeric_col: plt.figure(figsize=(10, 6)) sns.boxplot(x='대출등급', y=column, data=df) plt.title(f'대출등급과 {column} 간의 관계') plt.show() '대출금액', '연간소득',..
-
심화프로젝트[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 7. 22:11
오늘 한 일 1. 전처리 방식 결정하기 1) 이상치 제거 부채_대비_소득_비율, 연간소득, 총상환원금, 총상환이자, 총계좌수 -> 4분위수 사용해서 이상치 제거하기 columns_to_clean = ['부채_대비_소득_비율', '연간소득', '총상환원금', '총상환이자', '총계좌수'] for col in columns_to_clean: Q1 = df[col].quantile(0.25) Q3 = df[col].quantile(0.75) IQR = Q3 - Q1 lower_limit = Q1 - 1.5 * IQR upper_limit = Q3 + 1.5 * IQR cleaned_df = df[(df[col] >= lower_limit) & (df[col]
-
코드카타/심화프로젝트[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 2. 6. 21:24
SQL 코드카타 인기있는 아이스크림 상반기에 판매된 아이스크림의 맛을 총주문량을 기준으로 내림차순 정렬하고 총주문량이 같다면 출하 번호를 기준으로 오름차순 정렬 내림차순 : desc 오름차순 : asc SELECT FLAVOR FROM FIRST_HALF ORDER BY TOTAL_ORDER DESC, SHIPMENT_ID ASC; Customers Who Bought All Products 모든 제품을 구매한 테이블의 고객 ID 고객 ID : group by 모든 제품 구매 -> count(product_key) select customer_id from Customer group by customer_id having count(distinct product_key) in ( select count(..