삼성SDS Brightics

[삼성SDS Brightics] 개인분석미션 3-3. 데이터 Load : 부제 수작업 (과연 21년에 중소기업이 가장 많이 뽑는 직무는 무엇일까요~?)

해붕 2021. 9. 14. 23:44
반응형

안녕하세요~!

Brightics 서포터즈 2기 정해웅입니다 😀

지난 주까지 데이터 수집하는 과정을 거쳤습니다.

이번 포스팅은 수집한 데이터를 Brightics Studio로 Load하고

전반적인 분포를 확인하는 시간을 가지려고 합니다 ㅎㅎ

아시다시피 Brightics Studio는 데이터 Load 에서 가장 빛이 난다고 할 수도 있을 정도로

강력한 분석 성능을 보여주는데요.

제 개인 분석 미션에서는 어떻게 활약하고 있는지 살펴보러 가시죠~!


1. i-ONE JOB 데이터 추가 수집

지난 주 i-ONE JOB이라는 홈페이지에서 데이터를 추가적으로 확보하는 과정을 봤습니다.

개인분석미션의 메인 데이터가 중소기업에서 낸 데이터이고

그 데이터도 i-ONE JOB이라는 플랫폼의 데이터를 기반으로 수집한 자료입니다.

앞서 말했다시피 메인 데이터는 2020년 11월까지의 데이터만 수집되었기 때문에

디지털 전환이 더욱 절실해진 현 시점의 데이터도 추가로 필요했습니다.

이에 저는 i-ONE JOB 홈페이지에서 직접 현 시점 데이터를 추가하기로 했는데요.

https://www.ibkonejob.co.kr/jp/cms/main.do

 

i-ONE JOB | 아이원잡

i-ONE JOB | 아이원잡,IBK기업은행이 운영하는 중소기업전문 취업포털사이트, 채용공고, 인재정보, 취업지원, 금융지원, 서비스안내

www.ibkonejob.co.kr

위 링크에 들어가서 채용정보 - 조건별검색 - 직무별 로 들어갑니다.

 

이렇게 먼저 산업별 카테고리로 구분되어 있는 것을 확인할 수 있고

 

산업별 카테고리 안에 세부 산업 카테고리로 나뉘어져 있는 것을 확인할 수 있습니다.

따라서 저는 현 시점인 2021년 9월 데이터를 기존 데이터에 추가하는 작업을 했습니다.

어떤 방식으로 작업을 해야 가장.. 빨리 끝날 수 있을까.. 고민을 했었는데

크롤링 등 여러 방법이 생각났지만 그냥 일일이 하는 게 더 빠를 것 같아서

수작업으로 추가를 했습니다 .. 하핫


어떻게 수작업을 했냐 간단하게 살펴보자면

아래 그림처럼 먼저 산업별로 세부 산업을 선택하면 총 공고 수가 나옵니다.

 

기존에 있던 세부 산업이라면 그대로 복사해서 총 공고 수만 바꿔주고

기존에 없던 세부 산업이면 새로 추가해서 공고 수를 추가해주는 작업을 진행했습니다.

한 100개 넘게 추가한 것 같네요,, 하핫,,

그래도 이 정도면 양반이라고 생각합니다.

그렇게 일일이 추가를 완료해주었습니다.

 

가장 오른쪽 열은 업종 별 비율인데, 쓸지 안쓸지 모르겠어서 계산을 해놓지는 않았고

필요하다면 추가로 작성할 예정입니다.


2. 데이터 Load

데이터 수집을 어느 정도 완료했다고 생각하여

드디어 Brightics Studio로 Load 하는 과정을 살펴보려고 합니다.

제 블로그를 처음 방문하는 분도 계실 수 있으니

Load하는 과정 천천히 오랜만에~ 보여드리겠습니다 ㅎㅎㅎ

먼저 프로젝트를 생성합니다.

이후에 모델을 생성합니다.

 

모델 생성 시에도 기본으로 탑재되어 있는 Template이 있기 때문에

처음부터 분석하는 과정이 버거운 분들은 Template을 활용하여 Classification, Clustering 같은 분석하시는 것도 좋은 것 같습니다.

그런데 템플릿은 모든 데이터셋에 적용되는 것은 아닐 수 있기에,, 오히려 어려울지도,,?~(>_<。)\

모델을 생성했다면 [Load] 함수를 불러올 차례입니다.

 

화면을 더블 클릭 후, [Load] 함수를 불러옵니다.

이 화면까지 왔다면 Input Path를 클릭해줍니다.

 

+Add 버튼을 누르고 Local에서 원하는 데이터셋 파일을 불러옵니다.

헛! 이렇게 Brightics Studio에 한글로 써져있는 csv 파일을 Load할 때

한글이 깨지는 현상이 발생하는데요.

이 때는 당황하지마시고~~!!!

아주아주 간단한 방법으로 해결 가능합니다 😀


데이터셋이 있는 csv 파일을 열고

인코딩 방식을 UTF-8로 다시 저장만 해주시면 됩니다.

아래 그림처럼 CSV UTF-8 로 저장해면 됩니다!


이후 다시 데이터셋을 Load 해볼까요?

한글이 제대로 load 되는 것을 확인할 수 있습니다 :)


column 이름의 특수 문자 등으로 인해 이벤트가 발생할 수 있는데

이를 해결하는 방법은 아래 포스팅에서 확인해주시면 됩니다.

https://blog.naver.com/mbmb7777/222384918160

 

[Brightics Studio] 2. Brightics Studio 실습기 (이렇게 좋은 데 웨않써? feat. 비운의 Azure)

안녕하세요 삼성SDS Brightics 서포터즈 2기 정해웅입니다😀💙 이번 포스팅은 Brightics Studio ...

blog.naver.com

이후 과정에서 문제가 없다면 Load 함수를 실행시켜주면 됩니다.

 

오른쪽 사진처럼 Table 형태로 데이터가 잘 올라간 것을 볼 수 있습니다.

Table 뿐만 아니라 다양한 시각화 형태로 확인할 수 있습니다.

다른 시각화 형태도 살펴볼까요?

 

Columns 시각화로 나타낸 모습입니다.

오른쪽의 혼자 튀어나온 아이가 바로 제가 추가해준 2021년 9월 자료입니다.

혼자만 저렇게 많은 채용 공고를 보여주는 데 벌써 그 결과가 궁금하지 않으신가요3. ?!


3. EDA(Exploratory Data Analysis)

갑자기 든 생각인데 EDA라는 단어가 저에게는 조금 생소한 것 같습니다 ㅎ

통계학과나 데이터 분석을 많이 하신 분들에게는 일상적인 단어겠지만

코린이에게는 되게 애매하면서도 신기한 단어네요.

이번 데이터 분석으로 처음 써보는 것 같아요,, 헤헷


먼저, 데이터셋의 전체적인 분포를 확인하려고 합니다.

과연 2018년부터 2021년까지 중소기업의 채용 공고에서는

어떤 산업 분야를 가장 많이 뽑으려고 할까요?

Brightics Studio에서는 Load 함수 하나만 사용해도 전체적인 그림이 그려집니다.

Load 함수만 가지고 분포를 확인하는 과정 살펴보겠습니다.

가장 먼저 시각화 기능 중 Pie 기능을 활용하여 산업 분포를 살펴보고자 했습니다.

오오~~~ 이렇게 Pie로만 나타내도 굉장히 직관적으로 전체 분포를 확인할 수 있습니다.

산업의 count 갯수만으로 나타냈을 때 구체적 수치를 살펴보자면

즉, 공고 갯수는 제외한 산업 별 분류 count만을 의미합니다.

 

 

1. 생산/제조 : count 267, percent 16.41%

2. IT/인터넷 : count 241, percent 14.81%

3. 경영/사무 : count 200, percent 12.29%

분류 갯수로만 봤을 때는 생산/제조가 강세를 보이고

뒤로 IT/인터넷도 따라가는 것을 볼 수 있습니다.

그러나 공고 갯수로 본다면 또 의미가 달라지는데요


월별 공고 갯수의 변화 추이부터 살펴보겠습니다.

19년 상반기에 유통/무역에서 엄청난 양의 공고 갯수를 보이고

점차 줄어드나 싶더니

21년 9월에는 공고 갯수가 전체적으로 올라간 것을 볼 수 있습니다.

특히, 생산/제조, 유통/무역 쪽에서 엄청난 공고 갯수 증가를 볼 수 있는데요.

이는 여러 경우로 해석이 가능합니다.

사실 제가 가장 비중을 드는 쪽은 바로

"i-ONE JOB 플랫폼 자체가 많이 성장했다."

인데요.

아무래도 기업은행에서 중소기업 전문 일자리 플랫폼인 i-ONE JOB을

18년 9월에 런칭했기 때문에 19년, 20년에는 홍보의 부족, 플랫폼의 안정화 등

다양한 문제로 인해 잘 알려지지 않았을 것이라고 생각합니다.

그로부터 3년이 지난 현재는 이전보다는 참여하는 기업 수도 많아졌고,

채용 지원자의 수도 현저히 증가했을 것이라 생각합니다.

이렇게 대기업 협력사와도 연계하여 채용을 지원하니

자연스럽게 그 수도 증가했을 것이라 예상합니다.

그 다음 가정은 데이터셋을 축적할 때

중복되는 공고들을 빼고 축적해왔고,

제가 추가한 21년 9월 데이터는 중복 공고를 빼지 않았기에 더욱 높게 나올 수 있다고 생각했습니다.

아무리 산업이 급변해도 채용 수가 갑작스럽게 증가하는 것은 무리가 있기 때문입니다.


구체적인 직무를 살펴보면

19년 1월부터 5월까지 공고 수가 급격하게 증가한 것은

물류/유통/운송 직군을 굉장히 많이 채용한 것으로 보여집니다.

[19년 5월 직군 별 채용 공고 갯수 순위]

1. 물류·유통·운송 : 225회

2. 중장비·화물 : 20회

3. 전기·전자·제어 : 12회

4. 금속·금형 : 11회

4. 기계·기계설비 : 11회

4. 생산관리·품질관리 : 11회

4. 납품·배송·택배 : 11회

이렇게 나열해보니 물류/운송/운송에서 정말 압도적인 채용 공고 수를 보이고

나머지는 비슷하지만 유통과 제조 계열이 확실히 많은 수를 보이고 있습니다.


그에 반해 21년 9월에는

남품/배송/택배 직무가 가장 많이 올라온 것을 볼 수 있습니다.

다음이 생산관리/품질관리인데요. 이는 조금 유의미한 분석일 수 있을 것 같아서 순위로 나열해보도록 하겠습니다.

[21년 9월 직군 별 채용 공고 갯수 순위]

1. 납품/배송/택배 : 189회

2. 생산관리/품질관리 : 188회

3. 생산/제조/포장/조립 : 151회

4. 물류/유통/운송 : 149회

5. 중장비/화물 : 143회

6. 기계·기계설비 : 109회

이렇게 100회가 넘는 공고들만 나열해봤습니다.

19년 5월과 확연하게 비교가 되지 않나요?

일단 공고의 숫자부터 3자리 수로 바뀌었고,

아직 유통과 제조가 굉장히 많이 차지하고 있는 것을 볼 수 있습니다.

특이점은 납품/배송/택배가 1위로 올라갔다는 점인데요.

많은 분들이 아시겠지만, 코로나 19 사태 이후로 배송업체는 엄청난 호황을 누리고 있습니다.

출처 : https://www.thebell.co.kr/free/Content/ArticleView.asp?key=202107231009063040102713

 

1년새 21% 커진 택배시장, 플랫폼 협력은 선택 아닌 '필수'

국내 최고 자본시장 미디어 thebell이 정보서비스의 새 지평을 엽니다.

www.thebell.co.kr

위 사진만 봐도 2020년에 택배시장이 얼마나 급증했는지 볼 수 있는데요.

21년에는 20년보다 더 증가한 수치를 보일 것으로 예상됩니다.

출처 : https://www.thebell.co.kr/free/Content/ArticleView.asp?key=202107231009063040102713

 

1년새 21% 커진 택배시장, 플랫폼 협력은 선택 아닌 '필수'

국내 최고 자본시장 미디어 thebell이 정보서비스의 새 지평을 엽니다.

www.thebell.co.kr

코로나로 인해 온라인으로 배송을 많이 시키다 보니 물동량이 올라간 어찌보면

당연하면서도 참 펜데믹이 얼마나 큰 변화를 만드는지 볼 수 있는 자료라고 생각합니다.

그에 따라 자연스럽게 채용도 납품/배송/택배에서 가장 많이 하는 것을 볼 수 있습니다.


이번 포스팅에서 중소기업의 채용공고를 EDA하며 전체적인 추이를 살펴보았습니다.

조금 재밌지 않나요,,?

저도 하면서 되게 신기하고, 채용 공고에서도 뭔가 실제 트렌드가 반영되는 것 같아

제가 세운 가설 (요즘 통계학 수업들어서 가설이라는 말을 쓰네요 ㅋ ㅋ)

이 맞아가는 것 같아 신기하게 분석했습니다.

아직 분석할게 엄청나게 많기 때문에 다음 포스팅도 EDA하는 것으로 이어가겠습니다.

감사합니다 💙(~ ̄▽ ̄)~


* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다.

#삼성SDS #브라이틱스 #브라이틱스서포터즈 #AI #분석플랫폼 #분석프로그램 #데이터분석 #빅데이터 #인공지능 #SamsungSDS #초보자분석 #분석초보 #코딩 #코딩초보 #통계 #데이터사이언스 #Scala #분석툴 #BrighticsAI #BrighticsStudio #브라이틱스스튜디오 #Brightics #대외활동 #대학생 #대학생대외활동 #삼성SDSBrightics #중소기업은행 #중소기업채용트렌드 #중소기업채용