유니진 2023. 1. 24. 01:19

 

 

pandas

 

 

1. pandas 란

   - data frame = pandas 라이브러리 

      - 데이터 보관

      - 데이터 정리

      - 데이터 분석

   - r언어의 장점을 가져온 것 

 

 

 

2. numpy 와의 차이점

   - 사실 pandas 는 numpy 를 이용해 만든 것

   - pandas 기능 : numpy 기능 + 추가적

   - 추가 기능 

  •  외부 데이터 읽고 쓰기
  •  정리된 데이터를 새로운 파일에 저장
  •  데이터를 시각화 

 

   - 특히 표 형식의 데이터를 다룰 때 유용

 

 

 


 

 

DataFrame

 

 

1. dataframe

   - 대부분의 data set 은 이차원이 많다. 

   - pandas 의 dataframe : 이차원 형태의 데이터를 다루기 위한 자료형

 

예를 들면 이런 데이터 (이차원 형태)

 

 

 

2. 특징

   - 표 형식의 데이터를 담는 자료형

   - 가로 : 열 column

   - 세로 : 행 row / index 

 

행 vs 열

 

 

 

   - colum : 데이터의 특징

   - row : 레코드 

 

column, row 의 특징

                                      ▲ 첫번째 column : 데이터의 이름 / 두번째 : 국적 / 세번째 : 출생년도 / 네번째 : 키

                                ▲ row : n번째 사람에 대한 정보 

 

 

 

3.  의문

     " numpy array 도 이차원 배열이 가능한데 불충분한 것인가 "

 

   - 우선, pandas 를 사용하려면 numpy 부터 설치되어 있어야 한다. 

   - 즉, pandas array 는 numpy array (이차원) 에서 추가된 기능들이 포함된 것

 

  3-1. 추가된 것

      -  numpy : index 만 존재. index 로만 저장된 정보 확인

      - pandas : index 에 이름을 붙여서 사용 가능

                          => 강동원의 수학 점수 (index) = 31

     

numpy 에서는 index 만 존재 / pandas 는 index 에 이름을 붙일 수 있음

 

 

  3-2. 추가된 것

       - pandas 에서는 문자열로 보관하는 것도 있고, 숫자로 보관하는 것도 있다. 

       - numpy 는 모든 데이터가 같은 자료형이어야 한다.