삼성SDS Brightics

[Brightics Studio] 2. Brightics Studio 실습기 (이렇게 좋은 데 웨않써? feat. 비운의 Azure)

해붕 2021. 6. 6. 13:43
반응형

안녕하세요

삼성SDS Brightics 서포터즈 2기 정해웅입니다😀💙

이번 포스팅은 Brightics Studio 설치 및 간단 실습을 작성해보려고 합니다.

지난 포스팅에서는 Brightics AI를 다뤄봤는데요.

아주 자세하게 실습 내용을 따라가봤기 때문에,

이번에는 살짝 힘을 빼고,,

차근차근 포스팅하겠습니다.

시작할까요~~~~~~?

※ Brightics Studio가 무엇인지 궁금하신 분들은

이전 포스팅 참고해주시면 감사하겠습니다 💙

https://blog.naver.com/mbmb7777/222384622759

 

[삼성SDS Brightics] 0. Brightics, 코딩없이 데이터 분석이 가능하다?

안녕하세요 😀 Brightics 2기 서포터 정해웅입니다. 드디어! 본격적인 개인 미션이 진행되는 데, 미션 ...

blog.naver.com


여기서 잠깐..! ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

퀴즈 하나 내겠습니다....

(사실 포스팅 마무리 하려다가 만들어놓은 자료가 있음을 방금 확인하고 황급히 추가한 건 비밀)

코딩안하고 비전공자도 빅데이터 분석/머신러닝이 가능한 프로그램이 있다고요??!?!?!!

에이~ 설마

정답을 맞추신 분께는 정해웅의 손하트 사진을 보내드립니다... 💜

정답은~

브라이틱스

많이 맞추셨나요? ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅎ


1. 프로그램 설치

https://www.brightics.ai/kr/downloads

 

Brightics Studio

 

www.brightics.ai

이번 포스팅에는 Brightics Studio에 관한 설치를 알려드리겠습니다.

OS에 맞는 설치 파일을 다운 후, 설치를 진행합니다.

바탕화면에 귀여운 Brightics Studio 아이콘이 등장할텐데요.

Start 누르시면 알아서 ML를 위한 환경을 조성합니다.

이렇게 웹 형태로 열리는 것을 볼 수 있습니다.

이전에 진행해봤던 여러 프로젝트들이 보이네요!

이번 Brightics 실습은

예제나 새로운 데이터를 활용하는 것이 아닌

기존에 해 본 코드를 기반으로 진행해보겠습니다.

https://blog.naver.com/mbmb7777/222343004625

 

[삼성SDS Brightics] Brightics Studio 활용한 이상치 탐지

삼성SDS 서포터를 준비하며 Brightics라는 툴을 알게 되었고, 현재 센서 데이터의 이상치 탐지하는 과...

blog.naver.com

이 게시물 참고하시면, Brightics 서포터즈를 준비하며 진행했던 아주 가벼운 실습을 보실 수 있습니다.

2. 실습 진행

(1) 데이터셋 준비

 

- 저는 저희 연구단에서 받고 있는 환경센서 데이터 중 H2S 데이터를 활용하려고 합니다.


(2) Data Load

- 로컬에 있는 데이터를 추가하는 과정을 설명드리겠습니다.

 

- 이 때 제 데이터에서는 오류가 발생하는 데, 이는 column 이름 앞에 알파벳이 아닌 "가 붙어있기 때문입니다.

- 이를 제거하는 과정을 살펴보겠습니다.

- 열 선택 후 바꾸고 싶은 이름과 바꾸고자 하는 이름을 입력합니다.

- 오류가 제거된 것을 확인할 수 있습니다.

- 로드된 화면을 보여드리겠습니다.

- Scatter plot을 통해 확인하니 Grafana와 같이 편하게 시각화할 수 있음을 확인할 수 있네요

- Box plot을 통해 시각화 하니 이상치가 굉장히 많이 분포함을 확인할 수 있습니다.

- 이렇게 해서 데이터 Load 끝 !


(3) 모델 적용 (Turkey Fence를 적용한 이상치 탐지)

- Brightics에서 제공하는 아주아주 많은 함수 중 하나인 Turkey Fence 모델을 적용한 이상치 탐지를 실습해보겠습니다.

- Turkey Fence는 데이터를 사분위, 즉 4개의 25%로 나눕니다.

사분위수범위는 처음 제 1사분위수(0~25%)와 제 3사분위수(50%~75%)의 차이로 정의되며

일반적으로, 사분위수범위의 1.5배를 초과하는 것은 약한 이상치, 3배를 초과하는 이상치는 강한 이상치로 간주합니다.

출처:  https://cyan91.tistory.com/40

 

자세한 내용은 블로그 참조하시면 될 것 같아요!

https://blog.naver.com/mbmb7777/222365280656

 

[Anomaly Detection] 이상치 검출방식/threshold 산정

이상치 검출 방식들과 Threshold(임계값)을 선정하는 방식도 정리가 필요할 것 같아 작성하게 되었심다,, ...

blog.naver.com

https://haewon-world.tistory.com/16

 

[Samsung SDS Brightics] Pre-processing : 이상값 탐지 및 제거 (1)

여러분, 안녕하세요~? 이번 포스팅에서는 Pre-processing의 네 번째 단계인 이상값 탐지 및 제거 (1) 과정을 실습 해보려고 합니다 ! 데이터 전처리 과정에서 결측값 ( Missing Value ) 처리와 더불어 가장

haewon-world.tistory.com

 


 

- 다시 Brightics Studio로 돌아와서 Outlier Detection을 선택합니다

- column 설정 후, turkey 모델을 선택하고 위에서 언급했듯이 약한 이상치를 detect하기 위해 1.5의 상수를 곱합니다

(4) 결과 확인

- 결과는 3가지 방식으로 표현 가능합니다

1) 이상치 제거

2) 이상치인지 아닌지 판단한 Prediction 열 추가

3) 둘 다 적용

1) 이상치 제거

- Scatter plot을 통해 제거된 이상치를 확인하니 전과 확실히 달라졌음을 보실 수 있겠죠?

- 이는 Box plot 형태로 시각화 시 더욱 극명하게 나타납니다.

(2) Prediction 열 추가

- 이렇게 이상치인지 아닌지 이진분류 해놓은 열을 생성합니다.

- 이상치를 제거하는 경우가 아닌, 판단해야 하는 과정에서 유용하게 쓰일 것 같네요!

(3) 둘 다 적용 시

- outlier가 아니라고 인식한 이상치 안쪽에 있다고해서 (in)의 값들만 살아 남은 것을 볼 수 있습니다.


(5) Azure ML Studio Classic과 비교

- ※ 주의: 지금부터는 삼성SDS Brightics가 아닌 MS Azure 실습 현장입니다.

- Azure Machine Learning Studio classic에도 이와 비슷한 형태의 함수가 있어 직접 실습해봤습니다.

 

여기서 큰 문제가 발생하게 됩니다...

Brightics studio로 이상치 탐지를 할 때는

1기 서포터즈님의 글을 보며 차근 차근 따라갈 수가 있었지만

Azure ML로 실습하기엔 구글에도 자료가 너무 부족하고

이에 관한 내용이 있어도 영어로 아주 길게 나와있어서,,,,,,,,,,,

살짝 토나온다..?

또, Brightics에서는 Turkey나 LOF와 같은 정형화된 유명한 모델을 사용했지만

Azure에서는 봐도 모르겠는 method를... 도입하셔서......

분명히 실습과정에서 뭔가 오류가 있는데

그것을 캐치하는데 너무 오래걸리고 찾기도 힘든 것 같습니다...ㅠㅠㅠㅠㅠ

결론은

저 실습이 맞는지 틀린지도 모르겠고,,

확실히 틀린 것 같긴 합니다...

사실 이런 식으로 Azure를 보여드리고 싶지는 않았지만....

다음에는 동일한 데이터로 Brightics에서의 linear Regression 그리고 Azure에서의 Linear Regression을 보여드리고

둘의 차이를 설명하는 형태로 진행해보겠습니다 ㅠ ㅠ


3. 실습 후기


Brightics Studio를 쓰며 느낀 것은

1. 코딩없이 데이터 분석이 아주 아주 쉽게 가능하다.

2. Drag & Drop 방식을 이용하여 비전공자도 쉽게 따라할 수 있다.

3. 무료 오픈소스임에도 굉장히 다양한 함수와 ML기법을 제공한다.

4. 1기 서포터즈 수료자님들이 너무 좋은 자료를 많이 올려주셔서 따라하기만 해도 많은 정보를 얻을 수 있다.

5. 보편적인 분석 기법 (이상치에서는 Turkey, LOF)을 활용하여 신뢰성 측면에서 높은 점수를 주고 싶다!


저도 모든 플랫폼을 경험해보지 못했고

굉장히 좁은 시야에서 현재 실습 중이고 초기 단계이니,,,

많은 오류가 있을 것 같습니다.

결론은

Brightics만 있다면

코딩없이 비전공자도 쉽게 빅데이터 분석 / 머신러닝 활용이 가능하다!

를 말씀드리고 싶습니다...

꼭 써보세요 Brightics..

진짜 진짜 신기하고 편하고 간단합니다!!!!!

Brightics 웨않써?

 


#삼성SDS #브라이틱스 #브라이틱스서포터즈 #AI #분석플랫폼 #분석프로그램 #데이터분석 #빅데이터 #인공지능 #SamsungSDS #초보자분석 #분석초보 #코딩 #코딩초보 #통계 #데이터사이언스 #Python #R #SQL #Scala #분석툴 #BrighticsAI #BrighticsStudio #브라이틱스스튜디오 #Brightics #대외활동 #대학생 #대학생대외활동 #삼성SDSBrightics #모델링

※ 이 포스팅은 Brightics 서포터즈 활동의 일환으로 작성되었습니다 ※