“머신러닝을 하는데 있어서 가장 중요한 것은 데이터다. 무가치한 데이터를 넣으면 무가치한 결과가 나온다(.Garbage-in, Garbage-Out)는 말을 명심해야 한다.” 안명호 MHR 대표는 최근 한양대 오픈소스SW사업단, 서울산업진흥원이 주최한 재직자 지원교육에서 “머신러닝 알고리즘은 생각한대로 스마트하지 않다”면서 “스마트하지 않은 머신러닝 알고리즘을 스마트하게 만들어주는 것이 데이터”라고 강조했다. 안 대표는 자신의 지인이 얼굴을 인식해서 분류하는 프로그램을 만든 사례를 들었다. 100여명을 대상으로 분류하는 것이었는데 성공률이 70% 밖에 안됐다. 구글 발표자료를 보고 비슷한게 프로그래밍 한 것인 성공률이 낮아 구글 담당자에게 성공률이 낮은 이유에 대해 물어봤다는 것. 그 담당자는 알고리즘을 물어보지도 않고 데이터를 얼마나 사용했는지를 물었으며, 3만장~5만장 정도 사용했다고 답했더니, 구글 관계자 말은 성공률 90%를 넘기기 위해 2억장을 썼다는 것. 즉 알고리즘의 문제가 아니라 데이터의 문제였던 것이다. .안명호 대표는 “머신러닝 알고리즘을 기가막히게 했다 하더라도 그 알고리즘의 성능, 좋은 결과를 낼 수 있게 하기 위해서는 데이터가 필요하다”고 설명했다. 데이터가 많을수록 좋다는 조건 중 하나는 노이즈가 들어있지 않은 잘 정제된 데이터를 넣어야 좋은 결과를 얻을 수 있다는 것. 안 대표는 “머신러닝의 성공은 데이터에 달려 있음으로 데이터를 확보하고 잘 폐기하는 것이 중요하다”고 설명했다. .
2016/11/17 오전 11:19:03