To love

데이터 사이언티스트가 되는법(엔코아 강연 후기) 본문

독서

데이터 사이언티스트가 되는법(엔코아 강연 후기)

Student9725 2018. 8. 10. 13:58

2017년 4월 21일 데이터과학을 소개하는 자리에 갔었다. 

수업을 진행하셨던 선생님께서 수업 대신 이 자리에 출석하는 것을 제안하셨다.


다음 글은 당시 강연을 듣고 페이스북에 작성한 소감문이다. 

부족한 글이지만, 조금이라도 도움이 되는 분이 있을까하여 공유한다.


ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ


엔코아에서 개최한 데이터 사이언티스트에 대한 이야기를 들려주는 행사에 참여 하였다. 엔코아는 데이터를 통해 가치를 창출하는 기업이다. 나는 평소 데이터 과학에 관심이 많다. 데이터 과학자는 통계학, 컴퓨터공학, 비즈니스 분야에 대한 지식을 모두 익혀야 한다. 준비해야 할 분야는 방대한데, 준비 과정을 구체화시키기 힘들었다. 만나기 쉽지 않은 전문가들의 이야기를 들으며 많은 궁금증이 풀리게 되었다.


강연은 총 5분의 서로 다른 컨설턴트가 여러 가지 소주제의 이야기를 하면서 진행되었다. 통계학, 컴퓨터공학, 비즈니스 분야 중 어느 분야에 더 깊은 이해를 가지고 있는가에 따라 조금씩 관점이 달랐다. 자신의 경험을 통해 어떻게 데이터 과학에 다가가게 되었는지 재미있게 이야기를 풀어주셨다.


행사 및 강연자(컨설턴트) 소개 : http://www.dator.co.kr/btalk/2650899


1. 첫 번째 강연, 데이터 사이언티스트의 역할


첫 번쨰 강연은 워밍업하는 느낌이었다. 구체적인 경험보다는 사람들이 많이 알고 익히 알려진 사례들을 이용했다. 


데이터를 얻은 후 그 데이터를 이용해 기업이 한 일들을 소개한 부분이 흥미로웠다. 기업은 데이터를 통해 ‘혁신’을 한다고 한다. 업의 본질에 데이터의 접근성을 더하면 혁신이 일어난다. 100년 전의 은행의 역할과 현재의 역할은 다르지 않다. 은행 창구 대신 폰 킹으로, 인터넷 뱅킹으로, 앱으로 편리해졌다. 그러나 하는 일은 똑같다. 치킨 너겟으로 유명한 기업 ‘하림’은 내부 판매 데이터와 외부 공공 데이터를 결합하여 미국에서도 승승장구하고 있다.


업의 본질이 변하지 않았기 때문에 좋아하는 일과 그 본질을 고민해야 한다. 관련된 경험을 많이 해보아야 한다. 


이것이 첫 번째 강연의 핵심이었다.


2. 두 번쨰 강연, 데이터 사이언티스트 준비 과정


두 번쨰 강연은 여러 가지 상황에서의 데이터 사이언티스트가 되기 위한 준비에서의 여러TIP을 말했다. 


학생과 직장인 등 여러 상황에 따라 나누어 말했지만, 이를 좀 더 융퉁성 있게 나의 상황에 맞게 다시 정리해 보았다.


1) 학교수업 중 자료구조와 알고리즘을 수강하거나 청강하는 것이 많은 도움이 된다. 


2) 준비하지 못하는 부분은 MOOC나 COUSERA, KOCW등 오픈된 강의를 이용하면 좋

다. 방학 또는 시간이 확보될 때 이용한다.


이 사이트들은 사실 평소부터 생각해오던 도구라서 새롭지는 않았다. 혹시 나처럼 데이

터 사이언티스트를 준비하는 데 관심 많은 페친 분 계시면 다음 링크를 추천 드린다.


http://commeci.kr/archives/473


오픈된 강의들을 이용할 때, 지속적인 공부를 위한 꿀팁은 환경설정이었다.


같이 공부할 사람끼리 STUDTY 그룹을 모집한다. 나중에 비슷한 길을 걸어 갈 수도 있고, 서로에게 의지가 된다. 이전에 읽은 ‘스위치’라는 책에서는 환경 설정이 얼마나 성공적인 결과를 불러오는지에 관해 말한다. 그래서 나는 구체적인 환경 설정법을 말한 이 부분이 최고의 팁이라고 생각했다.


3) 백문이 불여일타

코딩은 역시 쳐봐야 제 맛이다. CODE ACADEMY나 DATACAMP 사이트가 유용하다.


4) 빅데이터나 데이터 시각화에 관한 교육을 듣는다. 여기는 선발과정이 있는 경우가 많

으므로 준비가 필요하다.


5) 단기교육이나 워크샾 등 전문가 커뮤니티에 자주 참여하여, 최신 동향을 듣는다.


나는 인터넷 상으로 주로 2가지 커뮤니티를 이용한다. 모두 페이스북을 통해 알게 된 커

뮤니티다. (그런데 아직 못 알아 듣는 말이 대부분이다. 많은 공부가 필요해 보인다.)


통계마당 : http://www.statground.org/

통계분석연구회 : http://cafe.daum.net/statsas


6) 공모전, 인턴쉽, 프로젝트에 참여하여 간접 경험을 한다. 경험을 통해 소양을 쌓는다.


6개의 팁을 관통하는 핵심은 ‘공부와 경험의 균형’이었다. 시간과 비용, 지역적 한계와 공부목적을 인식하면서 6개의 팁의 비중을 서로 조정해 가면 된다는 의미로 이해했다.


3. 세 번쨰 강연, R 활용법


세 번째는 데이터를 분석하기 위한 프로그래밍의 활용을 중점에 둔 강연이었다. 데이터의 분석은 분석 툴과 데이터, 그리고 통계지식이 결합되어서 이루어진다. 분석 툴 중에 R은 공짜여서 요새 많이 쓰인다고 한다. (SAS는 유료임)


데이터 과학자에게 통계학, 컴퓨터 공학, 비즈니스 분야의 지식이 모두 필요한 이유는 무엇일까? 통계학은 데이터를 파악하고, 분석결과를 해석하는 데 필요하며, 컴퓨터 공학은 하둡을 이용한 빅데이터 분석에 필요하다. 비즈니스는 분석하고자 하는 대상에 대한 지식을 말한다. 3가지가 모두 맞물려야 좋은 분석이 가능하다. 3번 째 강연은 이 3개의 분야의 역량이 어떻게 맞물리게 되는지 말했다.


주관적인 경험을 통해 과제에서부터 공모전까지 R을 어떤 식으로 활용하였는지와 실무에서는 어떤 방식으로 사고를 하는지 연결하여 설명했다. 설명 중 한 단계 한 단계 문제 인식과 해결을 어떤방식으로 하고, 그에 따라 데이터를 어떻게 만지는지 자세히 언한 것이 기억에 남는다.


1) 분석의 목적 : 데이터를 만지는 것은 데이터를 통해 무엇인가 가치를 얻기 위함이다.


2) 분석의 준비 : 과제나 공모전에서는 데이터를 분석하기 전, 분석하기 쉬운 형태로 바꾸는 데이터 전처리가 필요 없었다. 이미 처리하기 쉬운 형태로 데이터가 정제되어 있는 상태로 제공되는 경우가 많기 떄문이다. 그런데 실무에서는 거의 90%의 데이터에 데이터 전처리가 필요했다.


3) 분석에 필요한 역량 : 데이터 간 연결과 주장(MODEL)에 설득력 가지기


분석의 필요성을 느끼고 알고 싶은 정보를 파악하는 것이 분석의 첫 번쨰이다. 이건 비즈니스에 대한 이해가 반드시 필요하다. 문제 인식의 과정이다. 그 다음에는 통계학을 사용해 어떤 DATA를 사용하기 편한 새로운 MODEL로 보는 것이 필요하다. 새로운 MODEL을 프로그래밍을 통해 분석을 마친다. 이후 다시 통계학을 사용해 새로운 MODEL이 얼마나 이전 MODEL보다 더 유용한지, 그 ‘차이’를 말하며 설득력을 가져야 한다.


4. 네 번쨰 강연, 데이터 종합과 세분화


네 번쨰 강연자는 DATA과학자들이 힘을 발휘하는 방식에 대해 설명했다. 그 과정에서 자신이 경험한 많은 사례를 들었다. 주로 데이터 종합과 세분화를 통해 여러 가지 문제들을 해결해 나갔다.


기억에 남는 사례를 하나 들면, 카드사의 1인 가구 대상 마케팅에 관한 분석이 있었다. 

카드사는 수수료를 이용해서 이윤을 얻는다. 

그러므로 카드 사용량이 많은 사람들에게 마케팅을 할수록, 가성비 좋은 마케팅이 될 가능성이 높다. 1인 가구의 카드 사용량 DATA를 어디에서 가져오느냐도 중요한 역량이라고 한다. 강연자는 오피스텔과 고시원에 거주하는 1인가구를 생각했다.


어느 자료에서, 부분을 분석한 결과와 전체를 분석한 결과가 항상 같지는 않은 경우가 많다. 불확실성 떄문에 인과관계가 뚜렷하지 않게 나타나지 않는 이 현상을 심슨 패러독스라고 한다. 오피스텔과 고시원에 거주하는 1인가구의 카드 사용량 자료를 바라볼 때, 심슨 패러독스를 피하기 위해 고객 세분화를 사용했다. 오피스텔과 고시원 거주자의 용량을 나누어 비교하고, 여자와 남자의 사용량도 파악하여 비교하고, 온라인과 오프라인 등 사용처까지 세분화해서 비교했다.


단순히 오피스텔과 고시원을 비교한 것과는 완전히 다른 결과를 얻었다. 두루뭉술하게 ‘오피스텔 거주자’ 또는 ‘고시원 거주자’를 대상으로 마케팅 해야 한다는 시야에서, 이 ‘온라인에서 구매하는 고시원에 거주하는 1인가구 여자’로 완전히 바뀌었다. 마케팅이 씬 효율적이 된 것이다.


마치기 전, 데이터 과학자가 되는 과정에서 시행착오 줄이는 TIP도 받았다.


1) 통계학, 컴퓨터공학, 비즈니스 분야 중 1가지만 능통해도 된다. 한 가지 분야에 강점을 두고, 의사소통 능력을 개발하는 것이 좋다.


나는 이전에 카이스트 내부에 위치한 한국과학기술정보연구원에서 일한 적이 있다. 많은 연구직들이 그렇지만, 대다수의 일들이 팀 또는 협업으로 돌아간다. 그래서 그 때 부터 의사소통하는 능력이 매우 매우 중요하다고 느꼈다.


의사소통이 얼마나 중요한지, 어떻게 하면 소통능력을 기를 수 있는지는 고영성 작가님과 신영준 박사님의 인터뷰 영상이 있다. 


4차 산업혁명에 대비하는 ‘태도’에 관해 말한 인터뷰 영상인데, 소통능력을 기르는 방법을 구체적으로 제시한다. 


https://www.youtube.com/watch?v=g_dk-MfysII

https://www.youtube.com/watch?v=fxcyg44p6Yc


2) 0.01%라도 예측력에 관심이 있어야 한다.


나는 불확실성에 대한 관심이 없으면, 통계학을 공부하지 않는 것이 맞다고 생각한다. 

그래서 공감했다.

업무의 대부분은 데이터 정제능력이다. - 세 번쨰 강연자와 같은 맥락에서 말했다.


3) 데이터과학자는 노력이 많이 필요한 직업이다.


언론이나 기타 비전문가들이 전하는 달콤한 이야기에 빠져서 착각하지 말자.

당연하다. 노력이 안 필요한 직업은 다른 사람도 접근하기 쉬운 직업이고, 경제적으로 

희소가치가 없으므로 유망하지 않아야 한다.


4) 어느 길로 가야 성공할까? - 그런 거 없다. 자신만의 길을 가라.


이것도 당연하다고 생각한다. 

5명의 컨설턴트가 강연하러 온 것도, ‘전문성’을 가지기까지 여러 다양한 길을 보여주기 위해서가 아닐까.


4번 내용을 말하면서, 일본 광고 영상을 보여주었다. 

마라톤과 길에 관한 영상이 재미있었다.


https://www.youtube.com/watch?v=6SI0RSu7k8w


5. 다섯 번쨰 강연, 데이터 과학자의 철학적 의미


다섯 번쨰 강연자는 인문학을 전공했다고 한다. 

‘프로그래밍 언어 배우는 이유’ ‘데이터 과학자를 하고 싶은 이유’를 생각해보라고 했다.


무엇인가 행동을 할 때 이유를 생각하고, 철학을 만들면서 행동하는 것은 매우 중요한 태도라고 생각한다. ‘하버드의 생각수업’이라는 책은 UN의 입사시험 문제와 프랑스의 대입문제 등을 가져오면서 ‘정치’ ‘경제’ 등에 대한 자신만의 철학을 만들기를 강조한다. ‘스토리가 스펙을 이긴다’ 라는 책은 자신의 철학을 어떠한 스토리와 역량으로 뒷받침하는지 구체적으로 설명한다. 그래서 나는 강연자의 태도를 긍정적으로 받아들였다.


데이터과학자는 개인과 집단의 문제를 DATA를 통해 풀려고 하는 태도를 가져야 한다고 한다. 그리고 스펙보다는 경험이 많이 중요한 직업이라고 한다. 과거의 경영학과와 컴공과는 매우 희소했지만, 지금은 복수전공과 개발에 대한 접근성이 높아지면서 전공했다는 사실만으로는 경쟁력이 떨어져가고 있다고. 그래서 통찰력과 넓은 시각, 호기심을 가지고 다른 사람과 많이 만나면서 다른 시야와 다른 생각을 공유하는 것이 중요하다고 한다.


다섯 번째 강의는 이미 통찰력과 넓은 시각, 호기심의 역량을 한 번에 기를 수 있는 방법이 ‘독서’와 ‘인간관계’임을 알고 있어서 특별히 얻은 것은 없었다. 오히려 ‘완벽한 공부법’의 일부 내용을 복습한 느낌이었다.


강연에서 기존에 알고 생각하던 것들이 종합되는 느낌을 받았다. 데이터과학 전문가들도 내가 보고 들은 것들과 크게 다르게 생각하지 않고 있다는 것을 알게 되어 내가 앞으로 취해야할 태도에 대한 확신이 생겼다. 갖가지 사례들은 앞으로 적극적으로 여러 가지 공모전들을 활용하여 경험을 쌓을 필요를 느끼게 해주었다.


좋은 강연을 개최해 주신 윤현집 컨설턴트님과 소개해 주신 선생님께 감사드립니다.


Comments