“오픈소스 R을 쓸 때는 기능을 아는 것은 기본이며, 그 데이터 의미의 방향성(내포성)을 아는 것도 중요하다. 특히 분석 기법이 어떤 형태로 진행되고 있는지를 인식을 하고 접근을 하면 굉장히 좋다.” 이현종 빅스터 대표는 데이터 분석을 할 때 기존 통계 분석과 빅데이터 분석, 데이터 마이닝 등 3대 분석 기법간의 관계를 인지하는 것이 좋다고 말했다. 이 강연은 한양대학교 오픈소스SW사업단 주최, 데브멘토 후원의 재직자 교육 과정 ‘오픈소스 R을 통한 빅데이터 분석 실전’이라는 과정에서 진행됐다. 이현종 대표는 “전통적인 통계분석과 빅데이터 분석은 다르다”면서 “통계분석은 데이터를 분석할 때 모수(전체수)가 있는데 그것을 알고 싶기 때문에 모수를 추론하기 위해서 샘플링을 하게 된다”고 설명했다. 샘플을 갖고서 모수를 추정하는 것이 전통적인 통계분석의 기법이라는 것. 보통 두개 집단을 비교 분석하는 사례가 많다. 1000명 대상의 샘플링을 통해 5000여명의 생각을 알고 싶은 것이기에 샘플의 의미 파악이 중요하다. 빅데이터 분석은 이와 조금 다르다. 이미 모수(전체수)를 갖고 있다는 점이다. 빅데이터 분석은 기존 모수 안에 숨겨진 패턴, 보이지 않았던 패턴과 규칙을 찾는 것이 관건이 된다는 것. 이미 모수를 갖고 있기 때문에 샘플링이 의미가 없고 데이터 안에서 분석을 하면 되는 것이 기존 통계분석과는 다르다. 그러다보니 기존 데이터를 어떻게 나눌까, 분류를 할까. 데이터 간의 거리 계산 등에 중점을 두게 된다.이현종 대표는 “데이터를 분류할 때도 통계분석과 빅데이터 분석간 분류하는 방법이 다르다”면서 “빅데이터 분석을 할 때 모수 전체 안의 패턴이 맞느냐, 안 맞느냐를 하기 위해서 통계분석을 쓰는 하이브리드 분석도 요즘 트렌드”라고 말했다.(3대 분석 개요) 1. 기술통계분석(데이터가 가진 일반적 특성 분석을 수행)2.추론통계분석 ( 표본분석을 토대로 모집단의 특성을 추론하여 해석)3.데이터마이닝분석 (대규모 데이터에 숨어 있는 패턴을 발견하고 규칙을 도출)
2016/03/22 오후 2:41:30