데이터사이언스

4-3. pandas_datatype

유니진 2023. 1. 24. 03:08

1. dtypes 

   - 다양한 종류의 데이터를 담을 수 있는 pandas

   - dtypes 를 사용해서 각 column 이 어떤 데이터 타입을 보관하는지 확인 가능

   - 예시

 

import pandas as pd

two_dimensional_list = [['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75]]

my_df = pd.DataFrame(two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'])

print(my_df.dtypes)
name             object
english_score     int64
math_score        int64
dtype: object

 

 

   [코드설명]

     - column 'name' 은 'object' 자료형을 보관

     - column 'english_score''math_score' 는 'int 64' 자료형을 보관 

     - 또한, 한 column 내에서 모든 값이 동일한 데이터 타입 (자료형) 이다. 

 

 

 

2. pandas dytpe

dtype 설명
int 64 정수
float 64 실수
object 텍스트
bool 불린 (참과 거짓)
datetime 64 날짜와 시간
category 카테고리

 

 


 

 

pandas 로 데이터 읽어들이기

 

 

1. csv

   - Comma - Separated - Values

   - 값들이 쉼표로 나뉘어져 있다. 

 

   - 데이터 읽기 과정

     ㄱ. 파일을 불러온다. (예를 들면 iphone.csv - 아이폰에 대한 정보가 담긴 파일 - from 캐글)

 

iphone.csv

 

     ㄴ. 

 

 

             - 값들이 쉼표 ( ,) 로 나누어져 있다. 

            - header : 첫 줄에 나와있는 column 이름들

            - 레코드 : 두 번째 줄 ~

           

 

     ㄷ. 이렇게 저장된 데이터 파일을 불러온다. 

import pandas as pd
pd.read_csv

 

 

     ㄹ. 다음과정

import pandas as pd
pd.read_csv ('data/iphone.csv')
iphone_df = pd.read_csv('data/iphone.csv')
iphone_df

 

         - 출력 

저장한 데이터

 

 

        [코드설명]

            ** 순서대로 

 

          - pd.read_csv (파라미터)  :  파라미터로 파일 경로를 넣어준다.

          - 예를 들면 'data/iphone.csv' 

              : data 폴더 안에 있는 iphone.csv 이라는 이름을 가진 파일이 있다는 의미

          - 파일 경로를 파라미터로 가지는 함수로 파일을 읽은 메모리를 iphone_df 변수에 저장한다. 

 

 

 

     ㅁ. 만약에 위와 다르게 'header' index 가 없을 경우 

         - 엉뚱한 값들이 대신 header 줄로 들어가게 된다. 

 

파일의 첫번째 줄을 헤더라고 인식함

 

 

         - 솔루션 : parameter 자리에 None

import pandas as pd
iphone_df = pd.read_csv ('data/iphone.csv', head = None)
iphone_df

 

           - 출력

 

header 로 기본값이 들어감

 

 

 

 

 

 

'데이터사이언스' 카테고리의 다른 글

5-1. DataFrameIndexing  (0) 2023.01.24
4+. 예제  (0) 2023.01.24
4-2. pandas_dataframe  (0) 2023.01.24
4. pandas  (2) 2023.01.24
3+. 예제  (0) 2023.01.23