4. pandas
pandas
1. pandas 란
- data frame = pandas 라이브러리
- 데이터 보관
- 데이터 정리
- 데이터 분석
- r언어의 장점을 가져온 것
2. numpy 와의 차이점
- 사실 pandas 는 numpy 를 이용해 만든 것
- pandas 기능 : numpy 기능 + 추가적
- 추가 기능
- 외부 데이터 읽고 쓰기
- 정리된 데이터를 새로운 파일에 저장
- 데이터를 시각화
- 특히 표 형식의 데이터를 다룰 때 유용
DataFrame
1. dataframe
- 대부분의 data set 은 이차원이 많다.
- pandas 의 dataframe : 이차원 형태의 데이터를 다루기 위한 자료형
2. 특징
- 표 형식의 데이터를 담는 자료형
- 가로 : 열 column
- 세로 : 행 row / index
- colum : 데이터의 특징
- row : 레코드
▲ 첫번째 column : 데이터의 이름 / 두번째 : 국적 / 세번째 : 출생년도 / 네번째 : 키
▲ row : n번째 사람에 대한 정보
3. 의문
" numpy array 도 이차원 배열이 가능한데 불충분한 것인가 "
- 우선, pandas 를 사용하려면 numpy 부터 설치되어 있어야 한다.
- 즉, pandas array 는 numpy array (이차원) 에서 추가된 기능들이 포함된 것
3-1. 추가된 것
- numpy : index 만 존재. index 로만 저장된 정보 확인
- pandas : index 에 이름을 붙여서 사용 가능
=> 강동원의 수학 점수 (index) = 31
3-2. 추가된 것
- pandas 에서는 문자열로 보관하는 것도 있고, 숫자로 보관하는 것도 있다.
- numpy 는 모든 데이터가 같은 자료형이어야 한다.