import pandas as pd
import numpy as np
데이터프레임 변경
(1) 열 이름 변경
- 일부 열 이름 변경
- rename() 메소드를 사용해 변경 전후의 열 이름을 딕셔너리 형태로 나열하는 방법으로 변경
- inplace=True 옵션을 설정해야 변경 사항이 실제 반영
- inplace=False 조회만
data.rename(columns={
'수학' : '미적분',
'영어' : '생활영어',
'과학' : '지구과학',
}, inplace=True)
- 모든 열 이름 변경
data.columns = ['미적분', '생활영어', '지구과학']
(2) 열 추가
data['추가할 요소'] = 값
(3) 열 삭제 : axis = 1(열)
data.drop('삭제할 열의 이름', axis=1, inplace=True)
(4) 여러 열 삭제 : list로
data.drop(['수학', '영어'], axis=1, inplace=True)
(5) 값 변경(map, cut)
- map() : 범주형 값을 다른 값으로 변경
# data의 '성별' 의 값들은 male -> 1, female -> 0
data['성별'] = data['성별'].map({'male':1, 'female':0})
- cut() : 숫자형 변수 -> 범주형 변수 (ex) 전체 범위 균등 분할하기)
- 값의 범위를 균등 분할 O, 값의 개수를 균등하게 맞추는 것 X
나이범위 = pd.cut(data['나이'], 3)
# (10, 20] 40
# (20, 40] 30
# (40, 60] 50
나이범위.value_counts()
# Name: 나이, dtype: int64
- 분할된 범주에 이름 붙이기
나이범위 = pd.cut(data['나이'], 3, labels = ['청소년', '청년', '노년'])
- 내가 원하는 구간으로 자르기 : bins = [ ]
나이범위 = pd.cut(data['나이'], bins=[0, 20, 40, 50], labels=['청소년', '청년', '노년'])
'파이썬 관련 > 데이터 사이언스' 카테고리의 다른 글
데이터프레임 결함(Concat, Merge) (0) | 2023.02.07 |
---|---|
넘파이 연습 (0) | 2023.02.06 |