안녕하세요~!
Brightics 서포터즈 2기 정해웅입니다.
여름이 지나고 겨울(?)이 찾아왔네요,,
어쩌면 대한민국 이제 사계절이 아닌 삼계절일지도..?😱
지난 포스팅까지 해서 데이터 전처리에 대해 어느 정도 마쳤습니다.
그래도 전처리는 끝날때까지 끝난게 아니죠,,, 크크 ㅠㅠ
이번 포스팅부터 본격적으로 모델링을 통한
[중소기업의 채용 트렌드 예측]
을 해보려고 합니다.
1. 데이터 전처리
.. 끝난줄 알았죠..?
이번엔 진짜 모델링 전 마지막 전처리를 해보려고 합니다. 하핫...
지난 포스팅에서 [Bind Row Column] 함수를 이용하여
2021년 10월 test data set을 만드는 것 까지 수행했습니다.
이제 이 테이블에서
제가 모델링에 사용하고자 하는 column을 고르고,
또 각 column에서 뽑아내고자 하는 변수들을 뽑아내려고 합니다.
제 프로젝트에서 어떤 모델을 사용해야 좋을지 팀원들과 멘토님과 상의를 했었습니다.
저희 Brightics 2조 멘토님께서 제 데이터와 유사한 예측을 해본 적 있으시다고 하셔서
관련 자료를 받아 유사한 방식으로 모델링 해보려고 합니다 !
(항상 감사합니다 멘토님 (_ _))
가장 먼저 date에서 연도와 월을 구분하는 것을 해보려고 합니다.
[Query Executor]라는 함수를 활용하여 전처리 해보려고 합니다.
목표는 이 date column에서
년 (2018)과 월(09)를 구분하고자 하는 것인데요.
이는 [Query Executor]을 활용하여 쉽게 처리할 수 있습니다.
또한, 제가 분석 시 사용하고자 하는 column은
date, code, code_detailed, num 이기 때문에
이렇게 원하는 column을 고르는 작업도 동시에 수행할 수 있습니다.
바로 이 SQL 문을 활용했는데요.
date column에서 1~4 를 year 이라는 새로운 column으로,
5~6을 month라는 새로운 column으로 만들어주었습니다.
또한, code, code_detailed, num 열만 남긴 모습입니다.
2. 전체 채용 공고 데이터 분석
저는 가장 먼저 월 별 채용 공고 수의 전체 합을 비교해보려고 합니다.
동일하게 [Query Executor] 함수를 활용하여 월 별 전체 채용 공고 수로 묶어주었습니다.
Total_num 열이 바로 월 별 전체 공고 수를 의미하는 열입니다.
그래프로 확인해볼까요?
이렇게 2018년부터 2020년까지는 2021년에 비하면 전반적으로 균일한 분포를 보이다가
2021년에 급격하게 증가한 것을 볼 수 있습니다.
2021년의 급증한 채용 공고 수로 인해 2018~2020년 데이터가 잘 안보일 수 있어서
2021년을 제외한 전체 공고 수 살펴보겠습니다.
이렇게 보니 2019년 3월에 가장 많은 채용 공고 수를 기록하고
점차 줄어드는 모습을 확인할 수 있습니다.
이렇게 전체 채용 공고 수로만 봤을 때는
어떤 산업이 얼만큼 증감하였는지 파악하기 어렵기 때문에,
산업별로 채용 공고 증감 추이를 분석하고자 합니다.
3. 산업 별 공고 추이 분석
전체 채용 공고 추이를 분석했으므로,
이제 산업별로 얼만큼의 증감을 보이고 있는지 살펴보려고 합니다.
이렇게 산업별로 나누기 위해서는 또 한 번 [Query Executor] 함수를 이용하여
원하는 column을 고르게 됩니다.
그 예로 가장 먼저 J101, 즉 경영/사무의 기획/전략/경영 직무에 대한 채용 공고를 살펴보겠습니다.
이번에는 전체 데이터 중에서 code_detailed == 'J101'인 데이터만 따로 빼놓은 모습입니다.
X축에는 시간, Y축에는 채용 공고 수를 입력했는데,
이때 제가 겪었던 사소한 문제를 말씀드리자면
제 초기 데이터의 date를 살펴보면
date 가 201809 이런 식으로 숫자의 형태로 나타나는 것을 볼 수 있습니다.
만약 그래프를 그릴 때, 이러한 double로 인식된 시간을 X축으로 넣는다면 어떤 결과가 나타날까요?
이렇게 X축을 2018년 9월로 인식하는 것이 아닌 숫자 그대로 201809로 인식해버리고,
이는 해가 바뀌는 시점 201812 -> 201901 같은 지점에서 X축이 크게 변화되는 것을 위 그래프에서 확인할 수 있습니다.
따라서 저는 X축을 문자열로 인식할 수 있는 column을 새로 만들어주었는데요.
이렇게 '2018' 과 '09' 사이에 ' ' 빈칸을 삽입하여
자연스럽게 DATE2 column을 String으로 변환해주었습니다.
이렇게 되면
위에서 보여드린 그림처럼 시간 순에 맞게 잘 배열되는 것을 확인할 수 있습니다.
이 그래프를 잠깐 살펴보자면
전반적으로 2021년 9월에서의 데이터가 모든 수치에서 높은 것을 볼 수 있는데,
J101은 특이하게도 2018년 9월에도 상당히 많은 공고 수를 보임을 알 수 있습니다.
이번엔 제가 최근 가장 좋아하는 분야인 '인공지능/빅데이터'의 채용 현황을 살펴볼까요?
예상했다시피 2019년 3월부터 공고 수 1개로 일정하게 유지되던 공고 수가
2020년 10월에 5회까지 증가하더니 2021년 9월에는 15회까지 증가된 것을 볼 수 있습니다.
이처럼 시대의 변화에 맞게 채용 공고 수도 어느정도 증가함을 확인할 수 있는데요.
다른 직종들도 추가적으로 살펴보겠습니다.
이번엔!!
제 전공인 '전자/전기' 직무에 대한 추이를 살펴보겠습니다.
'전자/전기'에 대한 공고 수도 2019년 9월에 공고 수 21개로 꽤나 많은 공고 수를 보여주었다가
2021년 9월에는 공고 수 91개로 거의 4배가 넘는 공고 수가 올라온 것을 알 수 있습니다.
이렇게 해서 Brightics Studio 에서 [Query Executor] 함수를 활용하여
정말!! 쉽게 원하는 데이터를 선택하고, 분석을 하고자 하는 직무를 골라 그 추이를 살펴보는 분석을 진행해보았습니다.
멘토님께서 보내주신 샘플과 함께 SQL 문을 활용하여 진행하니 저도 신선하고 재밌게 진행했습니다.
Brightics의 가장 큰 장점인 직관성과 시각화 기능을 잘 보여줄 수 있는 이번 포스팅이였던 것 같습니다.
데이터를 부분적으로 보는 것이 아닌, 한 화면 안에서 통합적으로 살펴볼 수 있기 때문에
아무래도 전체적인 데이터의 분포를 더욱! 고려하면서 분석을 진행하게 되는 것 같습니다.
다음 시간에는 직무별로 2021년에는 추후에 어떠한 채용 추이를 보일지 예측하는 시간을 가지려고 합니다.
감사합니다 💙
* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다.
#삼성SDS #브라이틱스 #브라이틱스서포터즈 #AI #분석플랫폼 #분석프로그램 #데이터분석 #빅데이터 #인공지능 #SamsungSDS #초보자분석 #분석초보 #코딩 #코딩초보 #통계 #데이터사이언스 #Scala #분석툴 #BrighticsAI #BrighticsStudio #브라이틱스스튜디오 #Brightics #대외활동 #대학생 #대학생대외활동 #삼성SDSBrightics #중소기업은행 #중소기업채용트렌드 #중소기업채용