삼성SDS Brightics

[Brightics AI] 1. Brightics AI 왕초보용 실습 체험기

해붕 2021. 6. 6. 13:43
반응형

안녕하세요

삼성SDS Brightics 서포터즈 2기 정해웅입니다.

이번에는 Brightic AI를 같이 실습해보는 시간을 가지려고 합니다.

물론 Brightics Studio가 아닌 Brightics AI를 찾으시는 분들은

기업 단위이거나 이미 실력자(?) 이신 분들일 것이라 예상되지만...

저도 Brightics와 친해지는 시간을 가져야 하고

심화된 실습은 차차 진행할 예정이니 이번엔 프로그램 설치 부터 가벼운 예제 실습까지

차근차근 진행하는 것으로 구상했습니다💙

가볼까요~~~~~~~~~~~?


1. Brightics 개요

(1) Brightics AI

전반적인 플랫폼에 대한 내용은

이전 게시물을 참고해주시면 감사하겠습니다.

https://www.brightics.ai/downloads

 

Brightics Studio

 

www.brightics.ai

위 링크를 따라 가시면 원하시는 Brightics 버전을 고르실 수 있습니다.

그 중 저희는 Brightics AI Free trial으로 진행해보겠습니다.

이는 60일 무료 체험 버전입니다.

아무래도 Brightic AI는 유료 버전이고

직접 사용해보지 않고 결제하는 것은 무리가 있다고 생각합니다.

60일이라는 생각보다 긴 시간의 무료 체험을 제공하여 사용자로 하여금

충분한 체험의 기회를 제공하는 것이 매우 합리적으로 보입니다.

이렇게 무료 체험과 유료 버전의 차이를 보여줍니다.


(2) Azure ML 플랫폼과 가격 & 무료 체험 비교

Brightics를 처음 써보고 나서 생각이 든 것은

Azure Machine Learning Classic 버전과 유사하다는 점이고,

이를 SDS에서도 인지하고 있다고 생각합니다.

따라서, Azure를 활용하여 데이터 분석 및 예측을 해본 제가 간단하게 비교해드리면 좋을 것 같아

이번 포스팅을 비롯해 추후의 포스팅에서 비교하는 부분이 나올 것 같습니다 ㅎㅎ

가격 비교 전에

Azure에는 수많은 기능들이 있고

서버 활용 비용등이 추가된다면 가격이 크게 변동되기 때문에

직접 사용해보면서

사용자가 원하는 제품, 사용하는 서버 시간 등을 꼭 고려하셔야 합니다.

따라서 구체적인 비교 보다는 Azure ML은 이렇다! 정도로만 생각해주시면 감사하겠습니다 😀

Azure ML Studio 가격

Azure ML 비용

* 사실 무료체험이 써있는 것은 12개월 써 있지만,

가운데 보시면 30일 동안 22만원 크레딧을 다 사용하고 나면 종료라고 생각하시면 됩니다.

* Azure를 사용하며 문제라고 생각 드는 부분

1. 제품이 너무너무너무 많다보니 뭘 써야 하는지 모르겠다는 점

2. 가격 책정도 복잡하다 보니 뭐가 뭔지 모르겠다...

3. 아마존 sagemaker도 마찬가지...

그에 비해 Brightics의 데이터 분석/머신 러닝 중점

그리고 깔끔한 가격 책정을 보고...

마음이 편안해졌습니다..


2. 계정 만들기

https://mytrial.samsungsds.com/#/apply/TrialBrighticsAI?solution=BRI_AI

 

https://accountidp.samsungsds.com/mga/sps/auth?SSORequest=cmVkaXJlY3RfdXJpPWh0dHBzOi8vbXl0cmlhbC5zYW1zdW5nc2RzLmNvbS9sb2dpbiZzY29wZT1zdWIgZW1haWwgcHJvZmlsZSBNQUlMJnN0YXRlPXRwOVF4RiZyZXNwb25zZV90eXBlPWNvZGUmY2xpZW50X2lkPXN1cHBvcnQyMDIwMTIxNzAwMDM%3D&PartnerId=support202012170003

 

accountidp.samsungsds.com

계정 만들기를 선택합니다.

정보를 입력 후, 메일로 가서 활성화를 시켜주시기만 하면

체험 계정 생성 끝~!

 


3. 예제 실습하기

start를 누르시면

이렇게 데이터 분석 / 머신 러닝을 쉽게 분석할 수 있는

Brightics AI의 환경이 보입니다!


가장 기본적인 단순 선형회귀분석 튜토리얼을

천천히~ 아주 천천히 따라가 보겠습니다.

이 링크를 따라가시면 텍스트로 된 튜토리얼을 확인하실 수 있습니다.

https://www.brightics.ai/kr/docs/ai/s1.0/tutorials/84_py_Simple_Linear_Regression?type=insight

 

Brightics Studio

 

www.brightics.ai

이 영상을 보시며 따라오신다면

더욱 더 쉽게 실습해보실 수 있을 것 같아요!

(두 가지는 같은 내용입니다)

https://www.youtube.com/watch?v=9I4TxmQ2Pfw


(1) Project 생성

 

Create New Project 생성 + CPU/Memory 설정


시나리오

쇼핑몰 회사에 근무하는 주은이는 다가오는 명절을 맞아 선물세트 구성을 기획하려고 한다.

주은이는 경험적으로 가격이 낮을수록 판매량이 많았던 것을 인지하고 있고, 데이터로 검증이 된다면 물량확보와 재고관리를 더 효율적으로 할 수 있으리라 판단하였다.

따라서, 지난 해 판매된 선물세트 상품의 가격정보와 명절전 2주일간의 판매데이터를 수집하여, 가격과 판매수량의 관계를 파악하고 판매량에 미치는 영향도를 확인하고자 한다


(2) Data load

더블 클릭하여 load 함수 가져오기

데이터 셋은  https://www.brightics.ai/kr/docs/ai/s1.0/tutorials/84_py_Simple_Linear_Regression?type=insight  위 링크에서 다운

 

 

 

이렇게 해서 Local 에서 txt파일을 import 할 수 있습니다.

데이터를 Tab으로 나누고

id column을 Str type으로 바꿔주세요

import 완료

이렇게 시각화를 Scatter Plot으로 바꾸는 과정까지 해서

원본 데이터를 import 및 시각화 하였습니다.


 

(3) Log 함수 이용한 직선으로 변환

- 위 시각화에서 볼 수 있듯이 지수함수 형태의 데이터를 log 함수를 이용해 직선으로 바꾸는 과정이 필요합니다.

 

Column을 추가하는 과정

log scale로 변환 후, 시각화 시 전보다 직선 형태를 나타냄을 확인할 수 있습니다.


 

(4) 실제 가격과 판매량 간의 상관성 분석

- 다음 실제 가격과 판매량간의 상관관계 파악을 위해 correlation을 돌리겠습니다.

 

Correlation 함수 호출 및 변수/기법 설정

- 0.73으로 가격과 판매수량간의 음의 상관관계가 높은 것을 확인하였습니다.

- 이 상품은 가격이 저렴할수록 판매량이 올라가는 상품임을 확인할 수 있습니다.


 

(5) Linear Regression Train

- 가격에 따른 판매량 예측을 위해 Linear Regression 수행합니다.

- 모델링을 위한 Train Data/Test Data로 분할

 

- train과 test data를 7 대 3 으로 분리합니다.


- split의 결과 중 train table을 활용한 Linear Regression 수행합니다.

 

train table을 활용하여 Linear Regression 함수 호출 및 feature와 label column 설정

- 결과를 도출합니다.

- 설명변수의 유의수준(P-value)은 0으로 매우 유의하고, R-Square는 약 54%의 설명력을 나타내고 있습니다.

- 또한, 잔차의 산점도를 이용한 등분산성, Q-Q plot을 통해 잔차들의 정규성을 확인할 수 있습니다.

(사실 이 용어들에 대해서는 저도 학습이 필요할 것 같습니다😥)

- 잔차의 산점도는 수평선 주위에 무작위로 분포하는 편이고, Q-Q plot이 직선에 가까워 정규분포에 가깝다고 볼 수 있습니다.


(6) Linear Regression Predict

- 다음 Test table을 활용하여 Linear Regression을 진행해보겠습니다.

* test와 train의 column명이 일치해야 합니다.

- Prediction값 생성된 것을 확인하였습니다.

- 이 예측값을 평가해보겠습니다.

(7) Evaluation

- train 시 R2값과 유사한 설명력을 보이며

- train 대비 양호한 예측값을 보이는 것을 알 수 있습니다.

- 54%의 설명력은 낮으므로 또 다른 설명 변수가 필요한 상황임을 알 수 있습니다.


처음으로 Brightics AI를 활용하여 예제를 학습해본 결과 느낀점을 간단하게 말씀드리겠습니다.

1. 대박이다......... (이렇게 쉽게 상관성 분석 + 미래값 예측이 가능하다고..?)

2. 이미 잘 짜여진 샘플들이 많아, 새로운 데이터 셋으로 분석 시에도 용이해보인다.

3. 시각화 툴이 아주아주 많아서 너무 좋다.

4. 드래그 앤 드롭 방식이라 너무 편리하다.

5. 화면 이동이 약간 불편하다..? (뭔가 꽉 차 있어서 그런지)

이 정도로 마무리하고

처음 써보시는 분들은 위 예제 같이 따라오시면서

아 이런 툴이구나,, 이런 식으로 분석 / 예측을 하겠다는 것이구나

라고 파악해주시면 좋을 것 같습니다!

다음 시간에는 본격적으로

'Brightics Studio'를 활용하여 실습해보는 시간 갖겠습니다 😀

* 참고로 저희 Brightics 서포터즈는 Brightics Studio를 위주로 진행할 예정입니다.

 

 


#삼성SDS #브라이틱스 #브라이틱스서포터즈 #AI #분석플랫폼 #분석프로그램 #데이터분석 #빅데이터 #인공지능 #SamsungSDS #초보자분석 #분석초보 #코딩 #코딩초보 #통계 #데이터사이언스 #Python #R #SQL #Scala #분석툴 #BrighticsAI #BrighticsStudio #브라이틱스스튜디오 #Brightics #대외활동 #대학생 #대학생대외활동 #삼성SDSBrightics #모델링

※ 이 포스팅은 Brightics 서포터즈 활동의 일환으로 작성되었습니다 ※