삼성SDS Brightics

[삼성SDS Brightics] 개인분석미션 3-8. 모델링 : 중소기업에서는 어느 산업군의 지원자를 가장 많이 뽑을까요❓❔

해붕 2021. 10. 18. 20:49
반응형

안녕하세요~!

Brightics 서포터즈 2기 정해웅입니다.

여름이 지나고 겨울(?)이 찾아왔네요,,

어쩌면 대한민국 이제 사계절이 아닌 삼계절일지도..?😱


지난 포스팅까지 해서 데이터 전처리에 대해 어느 정도 마쳤습니다.

그래도 전처리는 끝날때까지 끝난게 아니죠,,, 크크 ㅠㅠ

이번 포스팅부터 본격적으로 모델링을 통한

[중소기업의 채용 트렌드 예측]

을 해보려고 합니다.


1. 데이터 전처리

.. 끝난줄 알았죠..?

이번엔 진짜 모델링 전 마지막 전처리를 해보려고 합니다. 하핫...

지난 포스팅에서 [Bind Row Column] 함수를 이용하여

2021년 10월 test data set을 만드는 것 까지 수행했습니다.

이제 이 테이블에서

제가 모델링에 사용하고자 하는 column을 고르고,

또 각 column에서 뽑아내고자 하는 변수들을 뽑아내려고 합니다.


제 프로젝트에서 어떤 모델을 사용해야 좋을지 팀원들과 멘토님과 상의를 했었습니다.

저희 Brightics 2조 멘토님께서 제 데이터와 유사한 예측을 해본 적 있으시다고 하셔서

관련 자료를 받아 유사한 방식으로 모델링 해보려고 합니다 !

(항상 감사합니다 멘토님 (_ _))

가장 먼저 date에서 연도와 월을 구분하는 것을 해보려고 합니다.

[Query Executor]라는 함수를 활용하여 전처리 해보려고 합니다.

목표는 이 date column에서

년 (2018)과 월(09)를 구분하고자 하는 것인데요.

이는 [Query Executor]을 활용하여 쉽게 처리할 수 있습니다.

또한, 제가 분석 시 사용하고자 하는 column은

date, code, code_detailed, num 이기 때문에

이렇게 원하는 column을 고르는 작업도 동시에 수행할 수 있습니다.

바로 이 SQL 문을 활용했는데요.

date column에서 1~4 를 year 이라는 새로운 column으로,

5~6을 month라는 새로운 column으로 만들어주었습니다.

또한, code, code_detailed, num 열만 남긴 모습입니다.


2. 전체 채용 공고 데이터 분석

저는 가장 먼저 월 별 채용 공고 수의 전체 합을 비교해보려고 합니다.

동일하게 [Query Executor] 함수를 활용하여 월 별 전체 채용 공고 수로 묶어주었습니다.

Total_num 열이 바로 월 별 전체 공고 수를 의미하는 열입니다.

그래프로 확인해볼까요?

이렇게 2018년부터 2020년까지는 2021년에 비하면 전반적으로 균일한 분포를 보이다가

2021년에 급격하게 증가한 것을 볼 수 있습니다.

2021년의 급증한 채용 공고 수로 인해 2018~2020년 데이터가 잘 안보일 수 있어서

2021년을 제외한 전체 공고 수 살펴보겠습니다.

이렇게 보니 2019년 3월에 가장 많은 채용 공고 수를 기록하고

점차 줄어드는 모습을 확인할 수 있습니다.

이렇게 전체 채용 공고 수로만 봤을 때는

어떤 산업이 얼만큼 증감하였는지 파악하기 어렵기 때문에,

산업별로 채용 공고 증감 추이를 분석하고자 합니다.


3. 산업 별 공고 추이 분석

전체 채용 공고 추이를 분석했으므로,

이제 산업별로 얼만큼의 증감을 보이고 있는지 살펴보려고 합니다.

이렇게 산업별로 나누기 위해서는 또 한 번 [Query Executor] 함수를 이용하여

원하는 column을 고르게 됩니다.

그 예로 가장 먼저 J101, 즉 경영/사무의 기획/전략/경영 직무에 대한 채용 공고를 살펴보겠습니다.

이번에는 전체 데이터 중에서 code_detailed == 'J101'인 데이터만 따로 빼놓은 모습입니다.


X축에는 시간, Y축에는 채용 공고 수를 입력했는데,

이때 제가 겪었던 사소한 문제를 말씀드리자면

제 초기 데이터의 date를 살펴보면

date 가 201809 이런 식으로 숫자의 형태로 나타나는 것을 볼 수 있습니다.

만약 그래프를 그릴 때, 이러한 double로 인식된 시간을 X축으로 넣는다면 어떤 결과가 나타날까요?

이렇게 X축을 2018년 9월로 인식하는 것이 아닌 숫자 그대로 201809로 인식해버리고,

이는 해가 바뀌는 시점 201812 -> 201901 같은 지점에서 X축이 크게 변화되는 것을 위 그래프에서 확인할 수 있습니다.

따라서 저는 X축을 문자열로 인식할 수 있는 column을 새로 만들어주었는데요.

이렇게 '2018' 과 '09' 사이에 ' ' 빈칸을 삽입하여

자연스럽게 DATE2 column을 String으로 변환해주었습니다.

이렇게 되면

위에서 보여드린 그림처럼 시간 순에 맞게 잘 배열되는 것을 확인할 수 있습니다.

이 그래프를 잠깐 살펴보자면

전반적으로 2021년 9월에서의 데이터가 모든 수치에서 높은 것을 볼 수 있는데,

J101은 특이하게도 2018년 9월에도 상당히 많은 공고 수를 보임을 알 수 있습니다.


이번엔 제가 최근 가장 좋아하는 분야인 '인공지능/빅데이터'의 채용 현황을 살펴볼까요?

예상했다시피 2019년 3월부터 공고 수 1개로 일정하게 유지되던 공고 수가

2020년 10월에 5회까지 증가하더니 2021년 9월에는 15회까지 증가된 것을 볼 수 있습니다.

이처럼 시대의 변화에 맞게 채용 공고 수도 어느정도 증가함을 확인할 수 있는데요.

다른 직종들도 추가적으로 살펴보겠습니다.

이번엔!!

제 전공인 '전자/전기' 직무에 대한 추이를 살펴보겠습니다.

'전자/전기'에 대한 공고 수도 2019년 9월에 공고 수 21개로 꽤나 많은 공고 수를 보여주었다가

2021년 9월에는 공고 수 91개로 거의 4배가 넘는 공고 수가 올라온 것을 알 수 있습니다.


이렇게 해서 Brightics Studio 에서 [Query Executor] 함수를 활용하여

정말!! 쉽게 원하는 데이터를 선택하고, 분석을 하고자 하는 직무를 골라 그 추이를 살펴보는 분석을 진행해보았습니다.

멘토님께서 보내주신 샘플과 함께 SQL 문을 활용하여 진행하니 저도 신선하고 재밌게 진행했습니다.

Brightics의 가장 큰 장점인 직관성과 시각화 기능을 잘 보여줄 수 있는 이번 포스팅이였던 것 같습니다.

데이터를 부분적으로 보는 것이 아닌, 한 화면 안에서 통합적으로 살펴볼 수 있기 때문에

아무래도 전체적인 데이터의 분포를 더욱! 고려하면서 분석을 진행하게 되는 것 같습니다.

다음 시간에는 직무별로 2021년에는 추후에 어떠한 채용 추이를 보일지 예측하는 시간을 가지려고 합니다.

감사합니다 💙


* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다.

#삼성SDS #브라이틱스 #브라이틱스서포터즈 #AI #분석플랫폼 #분석프로그램 #데이터분석 #빅데이터 #인공지능 #SamsungSDS #초보자분석 #분석초보 #코딩 #코딩초보 #통계 #데이터사이언스 #Scala #분석툴 #BrighticsAI #BrighticsStudio #브라이틱스스튜디오 #Brightics #대외활동 #대학생 #대학생대외활동 #삼성SDSBrightics #중소기업은행 #중소기업채용트렌드 #중소기업채용