삼성SDS Brightics

[삼성SDS Brightics] 개인분석미션 3-9. 최종화 : 중소기업 채용 트렌드, Brightics로 예측하기 (Brightics Studio만 있으면 끄떡없지~💙)

해붕 2021. 10. 26. 22:05
반응형

안녕하세요~~!

Brightics 서포터즈 2기 정해웅입니다💙

지옥의 중간고사 기간이 끝이 나고,,

벌써 Brightics 서포터즈의 활동을 마무리할 시간이 왔네요,,,,,

ㅠㅠㅠㅠㅠㅠ

블로그 이웃들이라면 제가 정말 오랜 기간동안 열심히 포스팅한 것을 알텐데,,

이제 끝난다고 생각하니 이웃님들도 아쉽지 않나요?

(그렇다고 대답해)

아직은 마지막 게시물이 아니고!!

시험기간동안 못올린 것 폭풍으로 올릴 예정이니 기대하세요 후훗


지난 포스팅에서는 Brightics Studio의 가장 많이 쓰이는 기능 중 하나인

[Query Executor]을 활용하여 데이터를 여러 방면으로 쪼개는 작업을 진행했습니다.

오늘은 프로젝트의 마무리인 모델링을 정말 하려고 합니다,,,

모델링까지 오는데 정말 오래걸렸네요 😂

모델링이라는 게 사실 데이터 전처리 단에서 모든 것이 완전히 수행되고 나서

마지막으로 진행되는 단계인만큼 결과값을 좋게 만들어야 하는 프로젝트가 아니면 시간이 많이 투자되는 것 같진 않습니다.

물론 평가 결과값이 좋게 나와야한다면, 전처리 뿐만 아니라 모델에서의 파라미터 조정도 오랜 시간 투자해야 하지만

제 개분미 (개인분석 미션 ㅋㅋㅎㅎ)에서는 그것이 아니기 때문이죠!

거두절미하고 저번 전처리를 그대로 이어받아서 모델링 진행해보겠습니다.


1. Test 데이터 채우기

Test 데이터가 무엇이였는지 기억 나시나요?!

바로 2021년 10월 현재 IBK 기업은행의 중소기업 채용 사이트인

I-ONE JOB에 올라와있는 채용 공고 데이터를 의미합니다.

https://www.ibkonejob.co.kr/jp/cms/main.do

 

i-ONE JOB | 아이원잡

i-ONE JOB | 아이원잡,IBK기업은행이 운영하는 중소기업전문 취업포털사이트, 채용공고, 인재정보, 취업지원, 금융지원, 서비스안내

www.ibkonejob.co.kr

위 사이트에 접속하셔서

위 채용 정보 - 조건별 검색

을 들어가시면 바로 공고들을 확인할 수 있습니다.

 

이렇게 제가 원하는 세부 산업을 고르고

그에 맞는 채용 공고 갯수를 엑셀에 채워넣는 식으로 작업했습니다.

이렇게 채용 공고에 대한 test 파일을 완성시킨 후,

다시 Brightics Studio로 올려줬습니다.

Load_test 파일을 올려놓은 모습입니다.


2. Autocorrelation을 통한 자기상관 분석

본격적인 시계열 예측을 진행하기 전에

Brightics의 함수 중 하나인 [AutoCorrelation]을 이용하여

데이터의 추이를 살펴보겠습니다.

자기상관 분석은 주어진 시계열과 지연된 버전 사이의 유사성의 정도를 수학적으로 표현한 것입니다.

이 [AutoCorrelation]을 이용하면 ACF(AutoCorrelation Function]과 PACF(Partial AutoCorrelation Function) 값을 알 수 있습니다.

정리하자면

ACF : k시간 단위로 구분된 시계열의 관측치 간 상관 관계 함수

PACF : 시계열 관측치 간 상관 관계 함수

ARIMA의 (p,d,q)의 최적 차수를 찾는데 사용된다고 합니다.

ACF와 PACF의 개념을 아래 블로그에서 자세하게 알 수 있는데,

생각보다 내용이 복잡하네요.

https://blog.naver.com/tjgml1343/222077619748

 

[ADsP] 시계열 분석 모델을 공부했다. (AR, MA, ARIMA, ACF, PACF)

시계열 데이터란 시간의 흐름에 따라 관찰된 데이터를 말한다. 평균이나 분산이 변화하냐에 따라 정상성 시...

blog.naver.com


그 중 먼저 세부 직무 중 가장 첫번째인 J101에 대해 분석해보겠습니다.

J101은 경영/사무 중 기획/전략/경영을 의미합니다.

저는 채용 공고 수인 num을 input column으로 설정하고

파라미터는 default 그대로 설정했습니다.

 

먼저 ACF를 진행했을 때, 초반에 급격하게 줄고 이 후로는 하향을 완만하게 그리는 그래프를 보이고 있고

PACF로는 급격하게 감소했다가 음의 값으로 줄어드는 모습을 보여줍니다.

신뢰구간인 색칠된 박스 위로 유의미한 값을 보인다고 하는데, (박스 위를 넘어가면 비정상 시계열)

J101에서는 없는 것으로 보입니다.


동일한 방식을

J308인 생산/제조의 전기/전자/제어에 적용시켜보았습니다.

 

ACF에서는 1번까지 박스 위의 값을 보여 비정상 시계열로 나타나고

2번부터 신뢰구간안으로 들어와서 lag=2에서부터 절단되었다고 볼 수 있습니다.

PACF에서는 lag=19에서 급격한 음의 값을 보이는데요.

lag=3부터 신뢰구간안에 분포하므로 lag=3에서부터 절단되었다는 것을 알 수 있습니다.

이 때, 절단되었다는 것은 생소한 단어라고 생각되는데(저도 몰랐습니다,,)

공부해보니 신뢰구간 안으로 처음 들어오는 시점(lag)값을 절단값이라고 부릅니다.

이렇게해서 ARIMA로 분석하기 전에

최적의 차수를 선택하기 위해 ACF와 PACF를 고려하는 것입니다.

ACF 관련해서는 이번 논문 작성할 때도 들어간 부분인데,

이렇게 개분미(개인분석미션)하면서 다시 복기할 수 있어서 너무 좋네요,, 헤헤

역시 Brightics 서포터즈 하면서 궁금했던 부분들

그리고 몰랐던 부분들 천천히 공부할 수 있어 정말!!!!! 좋은 것 같습니다.

(Brightics 서포터즈,, 웨안헤,,,?)


3. ARIMA를 통한 시계열 예측

제 데이터는 시간 순으로 채용 공고 갯수가 들어있는 데이터입니다.

따라서 시계열 분석을 할 수 있는데요.

그 중 가장 대표적인 시계열 분석 모델이 바로 ARIMA 모델입니다.

ARIMA와 같은 시계열 모델은 Brightics Studio의 튜토리얼에도 나와있듯이

시계열 분석은 예측의 정확성보다는

다양한 예측과 시뮬레이션 등을 통해 장기적인 추세와 방향성에 대하여 판단하고 의사결정을 위한 보조 지표로 사용

즉, 예측 결과값의 성능보다는 분석하려고 하는 것의 추세와 방향성을 판단하는 보조자료로 이용된다는 것을 알아야합니다.

이러한 면에서 머신러닝과 같은 모델과는 조금 차이가 있습니다.


Brightics Studio에는

시계열 분석에만 ARIMA를 비롯하여

ARIMA 차수를 정해주는 Auto ARIMA,

그리고 주기를 반영해주는 Hot-Winters 까지 다양한 시계열 분석 모델을 포함하고 있습니다.

데이터 분석 시, 어떤 데이터 (시계열, 분류, 회귀 등)에 따라서

어떠한 분석 모델이 있는지 찾고 또 그것을 숙달하기 위해 학습시간도 무시할 수 없을 만큼

많이 소요되는데요.

Brightics에서는 이렇게 분류, 회귀, 시계열 등 카테고리에 맞게 함수들이 잘 나뉘어져 있어

당신의 고민 시간을 줄여줍니다,,😂(*≧︶≦))( ̄▽ ̄* )ゞ


가장 먼저 ARIMA 함수를 사용하여 시계열 예측하는 것을 보여드리려고 합니다.

동일하게 먼저 세부 직무를 J308(전자/전기/제어)로 두고 진행해보겠습니다.

가장 먼저 (1,1,0)으로 파라미터를 설정하고 진행한 모습입니다.

ARIMA Predict로 2개월 후의 채용 공고 수를 보고자 했고, 사진처럼 값을 보이는 것을 알 수 있습니다.

제 데이터는 전체적으로 2021년 들어서 공고 수가 급증하는 형태를 보이기에

d=1로 설정하였습니다.

이 데이터의 형태를 보기 위해 [Query Executor] 함수를 이용하여 DATE2 열을 새로 생성해주었습니다.

이후에 [Bind Row Column] 함수를 이용하여 ARIMA로 예측한 11월, 12월 값들을 합쳐준 모습입니다.

그 결과 10월을 넘어서 11월, 12월의 데이터를 예측할 수 있었습니다.

보시는 바와 같이 9월에 급증하고 10월에 이어서 증가한 것을 그대로 이어받아

기울기가 일정한 형태로 예측한 것을 볼 수 있습니다.

이렇게 ARIMA 모델을 이용하여

추후의 공고 갯수를 예측할 수 있습니다.


이번엔 Auto ARIMA 모델을 활용하여 파라미터를 직접 찾아주는 함수를 써봤습니다.

이처럼 (p,d,q)를 자동으로 (0,2,1)로 찾아주어 파라미터를 찾는 과정을 생략할 수 있었는데요.

이를 그래프로 나타낸 형태입니다.

11월과 12월에도 전자/전기 직무의 공고 수가 더 증가할 것으로 예측하고 있습니다.


동일한 데이터를 기반으로 이번에는

2021년 9월까지의 데이터를 가지고 3개월을 예측해보려고 합니다.

이 flow를 그대로 사용하면서, 10월, 11월, 12월 채용 공고 수를 예측해보겠습니다.

먼저 ARIMA (1,1,0)을 사용해보았습니다.

비슷하게 따라가는 것 같나요?

10월에서의 공고 수는 비교적 차이가 있지만, 그래도 증가하는 형태가 나타납니다.

이번에는 Auto ARIMA 모델을 사용해보겠습니다.

이렇게 Auto ARIMA 모델을 사용한 그래프를 확인할 수 있습니다.

구체적으로 표를 통해 살펴보자면

위 차트가 실제 10월까지 데이터를 기반으로 ARIMA 학습을 시킨 것이고

아래 차트가 9월까지의 데이터를 기반으로 Auto ARIMA 모델을 학습시킨 결과입니다.

상당히 유사한 값을 보이지 않나요?

시계열 모델을 평가하는 방법에는 RMSE, MAE 등 여러 방법이 있지만

저희의 데이터에는 표본이 10월 데이터 하나임으로 이는 생략하겠습니다.


이렇게 해서 시계열 예측 모델인 ARIMA를 통하여

남은 2021년의 중소기업 채용 트렌드를 예측하였습니다.

비록, 시계열 예측이라는 것이 타겟 값이 없다면 평가가 불가하고

또 제가 사용한 데이터는 2021년에 급증한 데이터다 보니

그 트렌드를 예측하는데 어려움이 있었습니다.

시계열 예측을 통해 정확한 평가보다는

추후의 트렌드를 어느 정도 파악할 수 있다는 점에서 의의가 있다고 생각합니다.

특히, IT계열의 채용 공고를 직접 분석해보니

정말 해가 갈수록 많은 지원자를 원한다는 것을 파악하였습니다.

4차 산업시대에서 디지털 전환을 맞이하며 많은 회사들이

IT/데이터 분석에 지식을 가지고 있는 지원자를 더 뽑으려고 할 것이라는 추측을 했었는데

데이터를 기반으로 이를 직접 확인하니 신기했습니다.

이렇게 Brightics Studio를 활용하여 예측 모델을 사용한다면,

제가 원하는 데이터가 무엇이든간에 뭐든지 분석할 수 있겠다는 자신감을 얻게 되었습니다.

예를 들어 주가 예측과 같은 것도 Brightics에서의 시계열 예측 모델들을 활용한다면

어떠한 플랫폼보다 쉽게 예측할 것이라고 생각합니다.

출처: http://www.kbiznews.co.kr/news/articleView.html?idxno=70811

 

청년 신규 채용하는 중소기업에 월 190만원 지원 - 중소기업뉴스

중소벤처기업부는 고용노동부와 협업해 지난달 30일부터 ‘청년 디지털 일자리 사업’과 ‘청년 일경험 지원 사업’에 참여할 중소기업을 모집 중이다.\'청년 디지털 일자리 사업\'과 \'청년 일

www.kbiznews.co.kr

이렇게 2020년 8월의 중소기업벤처기업부에서 진행한

'청년 디지털 일자리 사업'만 살펴보더라도 정부에서 또한

디지털 전환을 맞은 중소기업에 유망한 청년들을 배치하려는 노력을 기울이고 있습니다.

4. 개인분석미션을 마치며😥

이렇게 ARIMA를 이용한 중소기업 채용 트렌드 예측까지 마쳤습니다.

처음에 제가 어떠한 데이터를 고를지 고민하던 순간이 생각납니다.

IBK 기업은행에서 인턴을 하면서, 금융권은 지금 디지털 전환을 맞이하여 엄청난 과도기에 빠져있다는 것을 직접 마주했었습니다.

(디지털 전환을 너무 많이 들어서 그만 듣고 싶을 정도로,,)

IBK와 같이 큰 기업에서도 이러한 디지털 전환을 따라가지 못하여 힘들어 하고 있는데,

그렇다면 중소기업은 잘 따라가고 있을지, 또 이렇게 디지털 전환을 이루어내기 위해 채용을 어떤 식으로 진행하고 있는지 문득 궁금해졌습니다.

또한, 저와 같은 IT/공대계열 지원자 입장에서도 중소기업의 채용 트렌드를 파악할 수 있다면

그리고 그 게시물이 일련의 포스팅으로 잘 정리되어 있다면 누군가에게는 도움이 되지 않을까 생각했습니다.

제가 처음 세웠던 이번 프로젝트의 목적인

1. 공고 데이터 분석을 통한 중소기업의 디지털 전환에서의 대처 파악

2. 추후 채용 트렌드 예측

이렇게 두 가지가 잘 이루어졌는지 잠깐 살펴보려고 합니다.

제가 사실 더 무게를 두었던 것은 1번으로 기존 데이터의 분석을 통한 현재까지의 중소기업 대처를 파악하는 것이였습니다.

물론 추후의 2021년 채용 공고가 얼마나 많이 올라올지를 예측하는 것도 의미가 있지만,

이는 정확성을 높이기엔 데이터가 충분하지 않았다는 점

또한 2018년에서 2021년으로 3년이라는 시간이 흐르면서 변한 점을 파악하는 것이 더 의의가 있을 것이라고 판단한 점에서

1번에 무게를 싣게 되었습니다.


먼저, [1. 공고 데이터 분석을 통한 중소기업의 디지털 전환에서의 대처 파악] 에서 어떠한 분석을 진행했는지 간략하게 살펴보겠습니다.

이렇게 기존 데이터를 분석한 결과

2021년 9월의 직군에서는 납품/배송/택배 채용 공고가 가장 많았던 것을 파악할 수 있었습니다.

이는 디지털 전환과 코로나를 맞으며

사람들이 더 이상 마트나 백화점에 가는 것이 아닌 온라인 쇼핑으로 물건을 구매하는 것이 급증하였기 때문인데요.

어느 정도 상식으로만 파악하고 있던 점들을 직접 데이터를 통해 눈으로 보니 신기하지 않나요?!


또한, IT/인터넷 계열에서의 채용 수요를 분석하였습니다.

1. 웹개발: 157회

2. 응용프로그램 개발: 139회

3. 웹디자인: 116회

4. 하드웨어/소프트웨어: 113회

.

.

.

8. 인공지능(AI)/빅데이터: 42회

이렇게 각 직무 별로 얼마나 많은 공고 수가 올라와있는지 파악할 수 있었습니다.

보시다시피 웹 개발/디자인에서 굉장히 많은 인력을 필요로 하는 것을 볼 수 있고

개발/보안/인공지능/빅데이터와 같은 직무는 비교적 공고 수가 적은 것을 볼 수 있습니다.

빅데이터/인공지능 부분은 아직까지는 대기업의 R&D와 같은 부분에서 많이 필요로 하는 것을 예상할 수 있고,

웹 개발이나 프로그램 개발과 같은 기본적인 IT 능력을 다루는 사람들을 중소기업에서는 더 필요로 하는 것을 파악할 수 있었습니다.


[2. 2021 중소기업 채용 트렌드 예측]에서는 ARIMA 모델을 통해 추후의 채용 공고 수는 어떻게 변할 지 예측하는 포스팅을 진행했습니다.

 

이렇게 Brightics Studio에 포함되어 있는 시계열 분석 모델 중

ARIMA와 Auto ARIMA 를 활용하여

각 직무별로 추후의 채용 공고 수는 어떻게 변할 지 예측했습니다.

위에서 기사를 보며 살펴볼 수 있듯이,

정부에서도 디지털 전환을 맞아 중소기업이 유망한 인재를 채용할 수 있게 여러 가지로 도와주고 있습니다.

이런 식의 이벤트들이 계속해서 이어진다면, 계속해서 증가할 것이란 제 예측도 어느 정도 맞겠죠?!


이렇게 해서 두 가지의 프로젝트 목적을 완벽하게는 아니지만

나름!!! 열심히 이뤄낸 것 같습니다 ㅎㅎ

거의 2달이라는 짧지 않은 시간동안 한 프로젝트를 진행했었네요.

이렇게 길게 하나의 프로젝트를 해본 적이 있나 싶을 정도로 장기 프로젝트였고

또 저에게는 너무 소중한 시간이였습니다.

5월부터 Brightics Studio를 쓰면서

이제는 꽤나 숙달되었습니다.

Brightics Studio를 약 5개월 간 사용하다보니

이제는 python보다는 Brightics Studio를 먼저 키게 되더라고요..?

정말 저같은 코린이, 데린이, 통린이 에게는 필수적인 프로그램이 되었습니다.

이번에 제가 연구단에서 논문을 하나 내게 되었는데,,

그 논문 작성할 때도 Brightics Studio 이용한 것 아시나요,,?하하하핫

다음 포스팅에는 논문에 어떤 식으로 이용하였는지 써보려고 합니다 ㅎㅎ

이렇게 저의 소중한 논문에 들어갈 정도로 Brightics Studio 정말!! 정말!! 유용합니다.


저의 굉장히 주관적인 생각으로는

사실 데이터 분석이라는 것은 어느 정도 짜여진 틀이 있다고 생각합니다.

데이터 파악 -> EDA -> 전처리 -> 모델링 -> 평가

이렇게 크게 봤을 때 이정도로 구분할 수 있는데,

그 순간순간에는 통용되는 기법들을 가지고 있습니다.

예를 들자면 이 포스팅의 위에서 적용했던 ACF, PACF를 찾는 과정이라던가 Correlation 중 Pearson, Spearman과 같은 기법은

파라미터를 조정하는 것이 아닌 과정입니다.

저는 Brightics가 이러한 작업을 진행할 때 가장 빛난다고 생각합니다.

처음에 Brightics를 사용하면서 강조했던 부분은

시각화 + 직관성 과 같은 장점들이였습니다.

써보면서 조금 바뀐 것은

바로 이러한 통용되는 분석 과정을 굉장히 쉽고 빠르게 진행할 수 있다는 점입니다.

제가 논문을 작성하며 Brightics Studio 사용한 이유도 이와 같습니다.

python과 Brightics 모두 통용되는 분석 과정을 굳이 이미 다 짜여져 있는 Brightics가 아닌

구글링하며 직접 찾아야 하는 python을 사용할 이유가 있을까요?


물론 코딩을 누구보다 숙달되게 사용할 줄 안다면 Brightics Studio보다 빠르게 진행할 수 있겠지만

그 정도로 빠르게 할 수 있는 사람은 몇 없다고 생각이 들만큼

Brightics Studio를 통한 분석은 간단하고 강력합니다.

또한, 저희가 어떠한 주제를 가지고 프로젝트를 진행할 때,

예를 들어 성능을 높여야하는 Kaggle 등의 Competition이라고 가정해봅시다.

물론 전처리나 모델 선정, 파라미터 설정 등을 통한 성능 높이기가 가장 중요하지만,

그 전에 데이터 분포 등을 먼저 파악해야 이러한 설정을 더 알맞게 진행할 수 있습니다.

이렇게 파라미터의 세세한 조정 이전에 Brightics 를 통해 먼저 분석한다면 그 전체적인 분포를 파악하기 쉬울 것 같습니다.

마지막으로 약 5개월 간 Brightics Studio를 사용하며 느낀

Brightics 만의 장점을 정리하고자 합니다.

[데이터 분석가가 Brightics를 꼭 써야하는 이유]

1. 통용되는 분석을 어떠한 플랫폼/언어보다

간단하고 빠르게 구현할 수 있다.

(ex) Correlation, ACF 등)

2. 데이터 분석이 숙달되지 않은 사람도

누구나 쉽게 따라올 수 있다.

3. 빠질 수 없는 Brightics 만의 32개 시각화 기능

4. 팀원 간의 협업에 최적화(json을 통한 공유)

5. 다른 프로그래머가 보더라도 빠르게 이해할 수 있

는 Flow Chart 방식의 함수 연결


이 글 다 읽었다면,, 당신은 Brightics를 다운받지 않을 수 없습니다..

https://www.brightics.ai/downloads

 

Downloads | Brightics Studio

Downloads Check the specifications of Brighics AI and download the executable file It also provides links to information that may be helpful when downloading Quick Start Q&A Version 3.8 Brightics AI Contact Us Free Trial Release Note Latest Version Brightics Studio Download (Windows) Download (macOS...

www.brightics.ai

당장 다운받으러 가즈아!!!!!!!!!!!!!

* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다.

#삼성SDS #브라이틱스 #브라이틱스서포터즈 #AI #분석플랫폼 #분석프로그램 #데이터분석 #빅데이터 #인공지능 #SamsungSDS #초보자분석 #분석초보 #코딩 #코딩초보 #통계 #데이터사이언스 #Scala #분석툴 #BrighticsAI #BrighticsStudio #브라이틱스스튜디오 #Brightics #대외활동 #대학생 #대학생대외활동 #삼성SDSBrightics #중소기업은행 #중소기업채용트렌드 #중소기업채용