-
코드카타 / 스파크[스파르타코딩클럽]데이터분석 과정/TIL,WIL 2024. 3. 19. 21:28
코드카타
없어진 기록 찾기
천재지변으로 인해 일부 데이터가 유실되었습니다. 입양을 간 기록은 있는데,
보호소에 들어온 기록이 없는 동물의 ID와 이름을 ID 순으로 조회하는 SQL문을 작성해주세요.- 테이블 2개 : join
- 정렬 : id
SELECT o.ANIMAL_ID, o.NAME FROM ANIMAL_OUTS o LEFT JOIN ANIMAL_INS i ON o.ANIMAL_ID = i.ANIMAL_ID WHERE i.ANIMAL_ID IS NULL ORDER BY o.ANIMAL_ID
SQL Project Planning
End_Date가 연속적인 경우 해당 작업은 동일한 프로젝트의 일부
Samantha는 완료된 다양한 프로젝트의 총 개수를 찾는 데 관심
프로젝트를 완료하는 데 걸린 일수를 기준으로 프로젝트 시작일과 종료일을 오름차순으로 출력하는 쿼리를 작성
완료 일수가 동일한 프로젝트가 두 개 이상인 경우 프로젝트 시작 날짜를 기준으로 정렬- 다른 프로젝트의 종료일이 아닌 시작일 선택 , 마감일 선
SELECT Start_Date FROM Projects WHERE Start_Date NOT IN (SELECT End_Date FROM Projects SELECT end_date FROM PROJECTS WHERE end_date NOT IN (SELECT start_date FROM PROJECTS
- 시작날짜 이후의 종료 날짜만 선택하고 특정 start_date에 대해서 최솟
SELECT Start_Date, MIN(End_Date) FROM where start_date < end_date GROUP BY start_date ORDER BY datediff(start_date, MIN(end_date)) DESC, start_date
SELECT Start_Date, MIN(End_Date) FROM (SELECT Start_Date FROM Projects WHERE Start_Date NOT IN (SELECT End_Date FROM Projects)) a, (SELECT end_date FROM PROJECTS WHERE end_date NOT IN (SELECT start_date FROM PROJECTS)) b where start_date < end_date GROUP BY start_date ORDER BY datediff(start_date, MIN(end_date)) DESC, start_date
스파크
분산처리 vs 병렬처리
- 병렬처리는 주로 단일 머신 내의 여러 코어나 프로세서를 사용하여 작업을 동시에 수행
- 분산처리는 네트워크를 통해 여러 대의 컴퓨터가 각각의 작업을 수행하는 것
CPU vs GPU
프로세스 vs 스레드
- 프로세스 : 독립된 메모리 공간을 가짐
- 스레드 : 같은 메모리 공간을 가짐
Samping
- Random sampling : 표본이 우연히 편향될 수도 있고, 매법 결과가 달라짐
- Stratified sampling : 특정 집단으로의 편향을 줄이기 위한 층화추출, 매번 결과가 달라짐
- Systematic sampling : ID와 같이 패턴이 없거나 순서의 영향을 받지 않는 칼럼을 기준
'[스파르타코딩클럽]데이터분석 과정 > TIL,WIL' 카테고리의 다른 글
코드카타 / 파이썬 / 태블로 (0) 2024.03.21 코드카타 / SQL (0) 2024.03.21 코드카타 / 스파크 (0) 2024.03.18 코드카타 / 통계 (0) 2024.03.15 코드카타 (2) 2024.03.14