1. 데이터 사이언스의 정의
- 다양한 데이터로부터 지식과 인사이트를 추출하는 분야
- 데이터와 연관된 모든 것
- 프로그래밍, 수학과 통계 (for 머신러닝) , 특정분야 (현실의 문제 해결) 에 대한 전문성이 필요
- 실제로, 실리콘밸리에 사는 통계학자를 데이터 사이언티스트라고 부르기도 함
- 데이터 사이언티스트는 통계학자보다는 프로그래밍을 잘하고
개발자보다는 통계를 잘하는 사람이다.
2. 데이터 사이언티스트가 하는 일
- 가치를 더할 수 있는 일을 찾고 데이터를 이용해서 문제를 해결하는 것
3. 데이터사이언스의 과정
ㄱ. 데이터 엔지니어링 (중요)
ㄴ. 여러 테스트를 통한 서비스 개선
ㄷ. 인공지능
3-1. detailed process
ㄱ. 문제 정의하기
ㄴ. 데이터 모으기
ㄷ. 데이터 다듬기
ㄹ. 데이터 분석하기
ㅁ. 데이터 시각화 및 커뮤니케이션
3-ㄱ. 문제 정의하기
- 해결하고자 하는 게 무엇인지,
언제까지 어떤 결과물을 얻을 거인지,
어떤 방식으로 데이터를 활용할 것인지 등을 설정한다.
- 이렇게 데이터를 보기 전에 목적을 정하는 이유는 의미 있는 발견을 위해서
- 목표 설정
- 기간 설정
- 평가 방법 설정
- 필요한 데이터 설정
3-ㄴ. 데이터 모으기
- 필요한 데이터를 모을 방법 찾기
- 웹 크롤링
- 자료 모으기
- 파일 읽고 쓰기
3-ㄷ. 데이터 다듬기
- 데이터의 퀄리티를 높여서 의미 있는 분석이 가능하도록 한다.
- garbage in, garbage out
- 데이터 관찰하기
- 데이터 오류 제거
- 데이터 정리하기
3-ㄹ. 데이터 분석하기
- 준비된 데이터로부터 의미를 알아낸다.
- 처음 설계했던 방식대로 데이터를 활용하여 원하는 결과를 도출해내기 위함
- 데이터 파악 및 변형
- 통계 분석
- 인사이트 발견
- 의미 도출
3-ㅁ. 커뮤니케이션
- 분석 결과를 다른 사람들에게 전달
- 이 때 적절한 시각화를 통해 소통해야 함
- 다양한 시각화 방법
- 커뮤니케이션
- 리포트
4. 사용하는 언어
4-1. R언어
- 통계를 위해 만들어진 언어
- 데이터 분석의 도구가 잘 갖춰짐
- 통계와 시각화만을 위한 툴 (이것만 가능)
4-2. 파이썬
- 다양한 용도로 만들어진 언어
=> 데이터 사이언스 외의 다른 분야 (웹 개발 등) 에서도 사용 가능
- 데이터 분석의 도구가 평범
- 통계와 시각화가 어느정도 가능
=> numpy, pandas 같은 라이브러리 들이 생김으로써
'데이터사이언스' 카테고리의 다른 글
3-3. numpy_module (0) | 2023.01.23 |
---|---|
3-2. numpy_array (0) | 2023.01.23 |
3-1. numpy (0) | 2023.01.23 |
2-1. JupyterNotebook_Tour (0) | 2023.01.23 |
1+. is_palindrome (0) | 2023.01.23 |