“통계와 분석 과정은 계속 반복되는 과정이다. 완성된 프로그램처럼 입력을 하면 결과가 나오는 것이 아니라 반복의 연속이다. 그래서 분석은 도구나 솔루션이 해결하는 것이 아니라 사람이 관여돼야 하는 것이다.”장형석 충북대학교 교수는 한양대 오픈소스SW사업단, 서울산업진흥원의 빅데이터 교육에서 빅데이터 분석 개요에 대해 설명했다. 장 교수는 “분석 과정에서 기술을 다룰때도 하나의 도구로 하는 것이 아니라 역할이 나눠져 있는 복잡한 과정이기에 사람의 손길이 가야 하는 것”이라고 말했다.그는 분석과정에서 첫 번째 단계인 분석 주제 선정이 중요하다고 강조했다. 무엇을 분석해야 하는지 설득을 시키지 못하면 예산이 나오지 않고 프로젝트가 진행되지 못하기 때문. 분석 주제를 선택한 뒤 결과물이 나온 뒤 어떤 효과가 있다는 것을 증명을 해줘야 하는 부분이기 때문에 이 기획 과정이 중요하다는 것.장 교수는 이어 “데이터 선정 등에서 목적을 달성할 수 있는 데이터가 만약 없다고 한다면 결재 기간 등을 고려하면 필요한 데이터를 구매하는 것도 하나의 방법”이라고 말했다.그는 보고서를 내고 프로젝트를 끝내는 통계분석 과정과 달리 서비스와 최적화라는 추가적인 프로세스가 더 붙는 것이 머신러닝 프로세스라고 설명했다. 그는 “머신러닝은 웹이나 모바일을 통해서 서비스를 제공하는 단계까지 가는 것이 분석만하고 끝내는 통계나 데이터 마이닝과 다르다”면서 “머신러닝까지 가야 이익을 얻을 것”이라고 말했다. 머신러닝 프로세스는 데이터 획득, 데이터 전처리, 학습, 평가, 서비스 단계로 이어지는데 여기에서 끝나는 것이 아니라 최적화 부분을 통해 순환하는 것이 특징이다.한편 장 교수는 강의 초반에 데이터 분석기법으로 예측분석, 시계열분석, 희귀 분석, 군집분석, 연관분석, 분류분석, 요약 등이 있다’고 설명했다.
2017/01/31 오전 10:59:35