[알고리즘][X] 상품을 구매한 회원 비율 구하기

2023. 10. 6. 14:09알고리즘 풀이/SQL

문제 설명
다음은 어느 의류 쇼핑몰에 가입한 회원 정보를 담은 USER_INFO 테이블과 온라인 상품 판매 정보를 담은 ONLINE_SALE 테이블 입니다. USER_INFO 테이블은 아래와 같은 구조로 되어있으며 USER_ID, GENDER, AGE, JOINED는 각각 회원 ID, 성별, 나이, 가입일을 나타냅니다.

Column name	Type	Nullable
USER_ID	INTEGER	FALSE
GENDER	TINYINT(1)	TRUE
AGE	INTEGER	TRUE
JOINED	DATE	FALSE
GENDER 컬럼은 비어있거나 0 또는 1의 값을 가지며 0인 경우 남자를, 1인 경우는 여자를 나타냅니다.

ONLINE_SALE 테이블은 아래와 같은 구조로 되어있으며 ONLINE_SALE_ID, USER_ID, PRODUCT_ID, SALES_AMOUNT, SALES_DATE는 각각 온라인 상품 판매 ID, 회원 ID, 상품 ID, 판매량, 판매일을 나타냅니다.

Column name	Type	Nullable
ONLINE_SALE_ID	INTEGER	FALSE
USER_ID	INTEGER	FALSE
PRODUCT_ID	INTEGER	FALSE
SALES_AMOUNT	INTEGER	FALSE
SALES_DATE	DATE	FALSE
동일한 날짜, 회원 ID, 상품 ID 조합에 대해서는 하나의 판매 데이터만 존재합니다.

문제
USER_INFO 테이블과 ONLINE_SALE 테이블에서 2021년에 가입한 전체 회원들 중 상품을 구매한 회원수와 상품을 구매한 회원의 비율(=2021년에 가입한 회원 중 상품을 구매한 회원수 / 2021년에 가입한 전체 회원 수)을 년, 월 별로 출력하는 SQL문을 작성해주세요. 상품을 구매한 회원의 비율은 소수점 두번째자리에서 반올림하고, 전체 결과는 년을 기준으로 오름차순 정렬해주시고 년이 같다면 월을 기준으로 오름차순 정렬해주세요.

예시
예를 들어 USER_INFO 테이블이 다음과 같고

USER_ID	GENDER	AGE	JOINED
1	1	26	2021-06-01
2	NULL	NULL	2021-06-25
3	0	NULL	2021-06-30
4	0	31	2021-07-03
5	1	25	2022-01-09
6	1	33	2022-02-14
ONLINE_SALE 이 다음과 같다면

ONLINE_SALE_ID	USER_ID	PRODUCT_ID	SALES_AMOUNT	SALES_DATE
1	1	54	1	2022-01-01
2	1	3	2	2022-01-25
3	4	34	1	2022-01-30
4	6	253	3	2022-02-03
5	2	31	2	2022-02-09
6	5	35	1	2022-02-14
7	5	57	1	2022-02-18
2021년에 가입한 회원은 USER_ID가 1, 2, 3, 4 인 회원들로 총 4명 입니다. ONLINE_SALE 테이블에서 해당 회원들에 대한 판매 데이터는 다음과 같습니다.

ONLINE_SALE_ID	USER_ID	PRODUCT_ID	SALES_AMOUNT	SALES_DATE
1	1	54	1	2022-01-01
2	1	3	2	2022-01-25
3	4	34	1	2022-01-30
5	2	31	2	2022-02-09
그러므로 년, 월 별로 상품을 구매한 회원수와 상품을 구매한 회원의 비율을 구하고 결과를 정렬하면 다음과 같아야 합니다.

YEAR	MONTH	PUCHASED_USERS	PUCHASED_RATIO
2022	1	2	0.5
2022	2	1	0.3

나의 풀이

- distinct를 안해줘서 틀렸다. 이번 기회에 count에 대해 배우게 되었다.

- count는 그 열에 대한 행들의 개수를 찾아주는 것이다. 중복이 있어도 말이다.

- 나는 중복은 자동으로 제거해 줄 거라고 생각했다.

- 그게 아니고 distinct를 사용해야 중복을 제거할 수 있다. 조심하자!!!!!!

- 전체 로직은 어렵지 않은데 2021년도 전체 가입자수를 어떻게 가져올 지 고민했다.

- 이를 위해 left join으로 모든 행에 count(*)를 붙여주는 방법을 선택했다.

- 이게 근데 상수이기 때문에 set을 활용할 수도 있었는데 변수 앞에 @를 붙여야 하는데 %를 붙여서 계속 오류가 났다.

select year(b.sales_date) as year, month(b.sales_date) as month, count(distinct(a.user_id)) as puchased_users, round(count(distinct(a.user_id)) / count, 1) as puchased_ratio from
(select * from user_info where year(joined) = 2021) as a
left join (select count(*) as count from user_info where year(joined) = 2021) as c on true
join online_sale as b on a.user_id = b.user_id
group by year, month
order by year, month

- 아래는 set을 활용해서 고친 풀이다. 훨씬 가독성이 좋아진다.

set @ct := (select count(*) as count from user_info where year(joined) = 2021);

select year(b.sales_date) as year, month(b.sales_date) as month, count(distinct(a.user_id)) as puchased_users, round(count(distinct(a.user_id)) / @ct, 1) as puchased_ratio from
(select * from user_info where year(joined) = 2021) as a
join online_sale as b on a.user_id = b.user_id
group by year, month
order by year, month

- 아래와 같이 select에 직접 서브 쿼리를 달아 전체 가입자 수를 표현할 수도 있다(참고자료)

# mysql 정답
SELECT YEAR, MONTH, COUNT(*) AS PUCHASED_USERS,
	ROUND((COUNT(*)/ (SELECT COUNT(*)
					FROM USER_INFO WHERE YEAR(JOINED) = 2021)), 1) AS PUCHASED_RATIO
FROM (
    SELECT DISTINCT YEAR(S.SALES_DATE) AS YEAR, MONTH(S.SALES_DATE) AS MONTH, U.USER_ID
    FROM ONLINE_SALE S
    JOIN USER_INFO U ON S.USER_ID = U.USER_ID AND YEAR(JOINED) = 2021
) A
GROUP BY YEAR, MONTH
ORDER BY YEAR, MONTH

 

Reference


https://velog.io/@sheltonwon/SQL%EC%97%B0%EC%8A%B5-%EC%83%81%ED%92%88%EC%9D%84-%EA%B5%AC%EB%A7%A4%ED%95%9C-%ED%9A%8C%EC%9B%90-%EB%B9%84%EC%9C%A8-%EA%B5%AC%ED%95%98%EA%B8%B0-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%A8%B8%EC%8A%A4