[개발] trifacta 트리팩타를 이용하여 데이터 분석하기

2개월 전

빅데이터라고 하기도 뭐하지만 일단 카드 목록 정보를 분석 해보기로 함.

1. 페이지 이동

https://api.splinterlands.io/cards/get_details

2. cards_get_details.json 파일로 저장

3. Import Data

푸른색으로 보이는 import data 버튼을 눌러 위에서 저장한 파일을 가져온다

4. choose a file

파일 선택 이후 Continue 버튼을 눌러 진행

5. use in flow

Flow 에 해당 파일을 추가하여 분석 작업을 시작

6. expand array to rows

배열을 열로 변경해준다.

7. 속성 추출

속성 값을 추출 처리 ( id, name, color, type ... )

8. 요약 보기

요약 차트 위에 커서를 가져가면 count 및 비중을 확인 할 수 있습니다. 또한 해당 column chart 를 선택하면 해당 데이터를 필터링 조작 또한 가능

9. Run job

위 작업 이후 정제된 데이터를 Run 하여 해당 정보를 DB 에 재적재 하도록 처리 합니다.

1%mismatch 가 발생된 case 는 edition 에서 0,1 형태로 된 경우가 존재하기 때문 ( 이런 경우 해당 column 의 속성을 number 에서 string 과 같은 형태로 바꿔주면 pass 할 수 있게 됨

10. 결과물

트리펙타에서 만들어낸 결과물을 hadoop 에 기록되며 해당 파일은 다운로드 받을 수 있게 됩니다. 물론 해당 정보는 트리팩타에서도 재가공을 한다던가 다른 DB에 테이블을 만들어서 신규 등록한다던가 등의 작업을 할 수 있게 됩니다.


맺음말

위에 시연한 것은 Enterprise 버전이며 개인이 테스트를 하고자 하는 경우에는 gcp trifacta 로 검색하시면 GCP (google cloud platform) 에서 사용해 보실 수 있습니다.

사실 트리팩타의 일부 기능만을 소개 해 봤습니다. 빅데이터 처리를 손쉽게 할 수 있습니다.

공부가 쉽진 않지만 잼나네요 ㅎㅎ

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
STEEMKR.COM IS SPONSORED BY
ADVERTISEMENT
Sort Order:  trending

@wonsama transfered 2 KRWP to @krwp.burn. voting percent : 13.66%, voting power : 47.96%, steem power : 1874226.86, STU KRW : 1200.
@wonsama staking status : 1793.429 KRWP
@wonsama limit for KRWP voting service : 1.793 KRWP (rate : 0.001)
What you sent : 2 KRWP
Refund balance : 0.207 KRWP [59048407 - c43dc038940a9c153ac6654e04a0c3592dcbb753]