옵션 |
|
요즘 뭐뭐하는 12가지, 7가지 이유 같은게 유행이어서 한번 따라해보는 데이터과학자 겪어보기 9종 세트를 준비해봤습니다. 요이 시작!
데이터 사이언티스트라는 말이 계속 보이고 있습니다. 일반적으로 데이터 사이언티스트는 개발, 통계, 수학, 경영에 두루두루 뛰어난 소위 '유니콘'으로 표현 되곤 하는데 미국에서는 어떻게 보고 있을까요?
DB등의 데이터분석 통합 솔루션을 제공하는 테라데이타에서 데이터사이언티스트 직무에 대한 채용공고는 다음과 같습니다.
Job Responsibilities: - Understand customer business use cases and be able to translate them to analytical data applications and models with a vision on how to implement a solution. - Clearly communicate the business and technical benefits of the analytic solutions to both business and technical audiences - Design, develop, and test applications for text processing, such as name or entity matching, text categorization/routing, named-entity extraction, sentiment analysis, and others using linguistic and/or statistical and machine learning methods in the Aster SQL-MapReduce framework. - Prepare text data and related metadata for text processing using SQL, scripting, and other tools. - Leverage knowledge in analytic and statistical algorithms to help customers explore methods to analyze data to make better business decisions. - Work closely with the sales team to come up with analytic solutions for prospects. - Work closely with other members of the professional services team to define the implementation of these solutions - Achieve business value of analytics through deployment of the Aster database. - Achieve defined project goals within customer deadlines; proactively communicate status and escalate issues as needed. - Be willing to learn: Develop expertise in areas outside of core comfort zone. You will learn to - Utilize the Aster technology, combining MPP database and SQL MR functionality, to deliver innovative analytic solutions to our customers. Key Skills & Attributes: - Ability to apply data analysis to solve a business problem that has a real impact to customers - Excellent team player - Must be self-motivated, results driven, and able to work with minimum supervision - Intellectually curious - Outstanding interpersonal, communication and customer relationship skills – able to work effectively with customer from developers and Operations personnel through senior management Our total compensation approach includes a competitive base salary, 401(k), strong work/family programs, and medical, dental and disability coverage. Teradata is an Equal Opportunity/Affirmative Action Employer and commits to hiring returning veterans Qualifications Basic Qualifications:- Bachelor of Science Computer Science, Physics, Math, Statistics, Linguistics or equivalent experience - Minimum three years’ experience in the applied analytic space - Experience in data manipulation, algorithms, advanced math, and statistical modeling using R, SAS, SPSS or other tools - Ability to program in one or more high-level languages such as C#, C++, Java, Perl, or Python, including use of regular expressions. -Prior experience with graph analysis to identify data structures and their relationships. -Experience developing and implementing software algorithms to support graph analytics - Familiarity with statistical and/or machine learning techniques. - At least some knowledge of SQL is helpful. - Experience interacting with and utilizing relational databases. Preferred Qualifications: - Advanced SQL - Prior experience in MapReduce and/or relational DBMS technology - Prior consulting or sales experience
영어의 압박이 있지만(많이!!) 전체적인 맥락을 보니 조금 더 개발자에 (아주 많이!!) 가까운 내용이군요. 사실 개발은 과거 상사(무역업, 미생의 장그래가 다닌 회사 같은 곳?)가 승승장구할 때 사람들에게 영어 잘하는 사람을 요구하는 것과 비슷한 맥락인듯 합니다. 개발을 잘하는 것이 포인트라기 보단 분석하기 위해 개발이 도구로써 쓰이는게 당연한 상황이 된거죠.
한국에서는 어떨까요? 제가 찾을 수 있었던 공고 두개를 소개드립니다.
첫 회사는 제가 눈팅하고 있는 페이스북 페이지에 올라온 공지입니다. 시스테믹하게 올라온 것이 아니라 공식적이라고 보긴 어렵지만 어떤 분야의 사람을 원하는지 파악하는데는 좋은 정보입니다.
* 회사: G* SHOP (지**홈쇼핑) * 팀/Position: e마케팅팀/고객행동분석 (팀은 변동될 수 있습니다.) * 주요 업무 : 고객 행동 데이터(웹로그 등) 분석 * 지원 자격 - 시시한 데이트보다, 데이터와 노는 일이 더 즐거우신 분. - 카운터 파트원들과의 원활한 커뮤니케이션은 기본, 국적/나이 불문하고 데이터로 커뮤니케이션 가능하신 분. - 주먹 싸움은 잘 할 필요 없지만, 논리 싸움에서는 져본 적이 없는 분. - 툴은 툴일뿐, 어떤 환경에서도 데이터 분석 수행이 가능한 분. - 비즈니스 감각이 뛰어나신 분. (유통 분야 경험 환영!) - 분석 업계에서 최소 5년은 놀아보신 분.
아래는 국내 굴지의 대기업에서 낸 공고입니다. 사실 s* 통신사의 공고를 찾고 있었는데 찾을 수가 없네요. 그 공지가 더 잘 표현했다고 생각하는데...
* 회사 : 기*자동차 1. 직무 목적 • 데이터 기반 분석 서비스 위한 분석모델 및 알고리즘 개발 2. 주요 역할 및 책임 • Data 기반 분석 서비스를 위한 분석모델 및 알고리즘 개발 - 당사 각 부문별 필요 분석서비스 기획 및 분석 프로세스 설계 - 분석 모델별 필요 데이터 전처리/가공 및 분석 로직 개발 - 데이터 품질 관리 및 개선 • 분석 프로젝트 기획 및 관리 • 분석 플랫폼 기획/운영 • 분석 기술 현황 관리 • 분석 관련 기술 사내 전파 교육 3. 자격요건 4년제 정규대학 이상 졸업자 • 수학, 통계학, 컴퓨터공학, 산업공학, 경영학 등 • 영어 커뮤니케이션 역량 보유자 4. 필요 직무역량 • 빅데이터 분석 프로젝트 기획 및 분석업무 수행 • 분석 업무를 통해 비즈니스 업무 개선 경험 필수 • 전산/IT 관련 전문 지식 • 분석 관련 전문 역량 보유자 : Data mining, 고급통계분석, Text Mining, Machine Learning 등 • 빅데이터 관련 시스템 구축 및 운영 경험 : Hadoop Eco system 등 • JAVA, PYTHON 등 활용한 병렬분산처리 프로그래밍 능력 • 자동차 분야 경험 및 지식 보유자 우대
자세히 보면 국내 기업의 경우 데이터 사이언티스트 팀을 내제화 하기 위해서 회사의 분야에 대한 경험 및 지식을 우대하거나 선호하는 것을 알 수 있습니다. 그리고 나머지 부분은 데이터 분석을 위한 기본기가 잘 되어 있는지를 물어보는 것이겠죠.
또 다른 점은 모두 경력직이라는 점입니다. 아직 우리나라에서는 데이터 사이언티스트(이걸 신입으로 뽑는건 또 아니라고 봅니다만)가 되기 위해서 어떤 경험들이 필요한지 배워나갈 필요가 있겠죠.
이제는 마케터도 데이터 분석을 알아야 한다(위메프의 데이터 마케팅 : https://www.imaso.co.kr/news/article_view.php?article_idx=20140602100032)고 할 정도로 많은 분야에서 데이터 분석이 중요한 능력으로 떠오르고 있습니다.
그러면 데이터 분석을 경험하든 배우든 하려면 어떻게 해야 될까요? 난이도 별로 정리해보겠습니다.
1. 쉬움
쉬움 단계에는 3개가 준비되어 있습니다.
1) 통계분석 연구회 가입( 돈 안듬 열정 필요함 )
통계분석연구회는 통계라는 관심사를 바탕으로 모여있는 전문가 집단이라고 할 수 있습니다. 다음카페(http://cafe.daum.net/statsas)와 페이스북 페이지(https://www.facebook.com/statsas?fref=ts)를 운영하고 있으며 저는 페이스북 페이지를 좋아요 누르고 눈팅하는 수준이지요. 통계와 분석에 대한 좋은 정보들이 많이 올라오고, 가끔 구인글도 올라오니 참고하면 좋습니다. 저는 분석과 통계, 데이터 등의 주제로 페이스북 페이지 좋아요를 많이 눌러놓고 공부하는 중인데 필요하신분은 알려주세요. 좋은 페이지들을 더 소개해 드리겠습니다.
2) 패스트 캠프 데이터 분석 입문 수강 ( 돈 좀 듬 열정 필요함 )
재교육 사업에 선두주자인 패스트 캠프의 데이터 분석 입문 수업(http://www.fastcampus.co.kr/camp_data/)은 비개발자들이 자신들이 접하는 데이터를 분석하기 위한 공부를 진행하는 수업입니다.
5월 30일 까지는 얼리버드 할인, 6월 5일까지 최근 수업의 수강등록을 받고 있는 중입니다.
커리큘럼을 간단하게 소개하면 데이터 전처리부터 의미파악하기, SQL 입문등 실전적이면서 기초적으로 꼭 필요한 내용을 담고 있습니다. 이건 사실 이해관계가 없어서 문의를 받아드릴 순 없지만 대신 물어봐드리거나 연결해 드릴순 있습니다.(그 정도 정보성 글에 대한 책임은 저야죠)
3) 신한카드 샘 2015 지원 ( 돈 안듬 열정 관심만 있어도 ㄱㄱ )
빅데이터를 보유하고 있다고 말 할 수 있는 카드사중 시장 점유율 1위인 신한카드에서 지난 겨울부터 빅데이터 캠프를 운영하고 있습니다.(https://www.shinhancard.com/conts/SAM/2015/index.jsp)
지원하면 4일간의 교육과 실습이 진행되고, 우수 진행자는 인턴기회를 통한 실무교육 연계를 강조하는 군요. 1기는 서울대학교와 함께 진행해서 교수님들의 수업이 더 많았었는데 이번엔 서울시(같은 서울이네요.ㅎㅎ) 와 콜라보하여 공공데이터 역량을 더 강조한다고 합니다.
지원이 내일까지라는 것이 함정. 지원관련해서 문의는 홈페이지에 상세히 잘 적혀 있지만 필요하시면 연락주세요.
2. 보통
보통 단계에는 3개가 준비되어 있습니다.
1) GA(Google Analytics) 사용하기 (돈 안듬 열정 좀 필요함)
구글 웹로그 분석(http://www.google.com/analytics/) 은 엔터프라이즈급 웹로그 분석이라고 무섭게 써져있는 것과는 별개로 개인사용자들도 쉽게 사용할 수 있는 분석 툴입니다.
안타깝게도 자신의 홈페이지등 분석할만한 웹페이지가 있어야 한다는 점과 HTML등 간단한 프론트엔드 지식이 있어야 한다는 점이 진입장벽이지만 그것만 조금 넘으면 데이터의 신세계를 볼 수 있습니다. 제가 개인적으로 운영하는 취미 페이지에 대해서 분석하는 것은 나중에 한번 포스팅 할께요.
2) 신호와 소음 책 읽기 ( 돈 쪼금 듬 열정 정말 매우 아주 많이 필요함 )
미국의 51개주 선거결과를 모두 맞춰서 유명세를 탄 네이트 실버의 저서 신호와 소음(서평 : http://nter.naver.com/naverletter/19780)입니다.
보이는 대로 책이 정말 두껍고 내용이 조금 어려워서 보통에 위치해봤습니다. 베이즈 통계란 무엇인지에 대해서 많은 설명이 들어 있으며 사례위주로 설명되어 있어서 이론적인 부분을 덜어내고 내용만 봐도 재미(설마..) 있게 읽을 수 있는 책입니다. 제 서평(이라고 쓰고 결국 독후감이겠지)도 곧 포스팅 하겠습니다.
3) 빅콘테스트 공모전 ( 돈 들수도 있음 열정 은 사람따라 )
http://contest.kbig.kr/ 가 2회 용 홈페이지 입니다.
작년에 2회를 마치고 올해 계속된다면 3회가 진행될 빅콘테스트입니다. 아래와 같이 2가지 리그(퓨처스 리그, 챌린지 리그)로 구분되고 수상자들에게는 후원 회사들의 인턴기회도 제공됩니다.
작년에 최종 발표장소에 참관하러 간 기억이 새록새록하네요. 이 대회를 준비하면서 많은 공부가 되었던 기억이 있죠. 우리나라 지도체계에 대해서도 그렇고 회귀식을 써야 하는 이유등도 그렇고 정말 많은 공부와 경험이 되었던 대회입니다. 7~8월 경에 3회 대회가 나올 꺼라 예상해 봅니다.
3. 어려움
어려움 단계에도 역시 3개가 준비되어 있습니다.
1) Coursera Data Science Spacialization 수강 ( 돈 조금 듬 열정 많이 필요함 )
온라인 수강 사이트(MOOC)중 하나인 Coursera에서는 Johns Hopkins 대학의 Data Science 특별코스를 수강할 수 있습니다. (https://www.coursera.org/specialization/jhudatascience/1)
모두 9개의 수업으로 이루어져 있으며 글쓴이는 총 6개 수강 완료 했으며 이번년도 10월에 시작하는 캡스톤 프로젝트에 참여하기 위해 나머지 코스를 빨리 수강해야 하는 위기에 처해있습ㄴ디ㅑ.ㅁ재뎌로미ㅏㅇㄹ
특히 수업은 모두 무료로 열려 있으며 캡스톤 프로젝트까지 수강하여 증명서를 받기 위해서는 소정의 금액을 지불해야 합니다. 수강에 관련된 팁이 필요하면 연락 ㄱㄱ
2) Kaggle Compitition 도전 ( 돈 안듬 열정 솔직히 여기서 부턴 알아서 )
캐글은 데이터 과학자의 꿈을 키우는 사람들이 서로 경쟁하는 싸이트로 슬로건이 무려 "데이터 사이언스의 고향"입니다. 현재 많은 회사의 지원을 받아 대회가 진행중이며 간단한 동의를 하면 분석이 필요한 데이터를 받아서 활용할 수 있습니다.
네번째에 페이스북도 보인다!! 페이스북의 부상은 무려 Recruiting. 취업. 페북 취업...
3) 자격증 취득 ( 돈 많이 필요함 열정은 옵션 )
CIO 코리아에서는 '제값하는'빅데이터 자격증 11종을 기사로 소개하고 있습니다. http://www.ciokorea.com/slideshow/21859
한번 도전해 보는 것이 어떨까.(이게 가장 난이도가 높은듯...)
이렇게 데이터 사이언티스트 겪어보기 위한 3가지 난이도의 3가지 방법을 소개했습니다. 하아.. 나를 위해 정리했지만 나는 몇 개나 하고 있는건지 참...
출처 | https://mrchypark.wordpress.com/2015/05/28/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4-%EA%B2%BD%ED%97%98-9%EC%A2%85-%EC%84%B8%ED%8A%B8/ |