'데이터 분석 이론/pandas' 카테고리의 글 목록

데이터 분석 이론/pandas

[python pandas] 4. pandas 기초 사용 (4) - 미국 이름 분석 해보기 2021.08.05
[python pandas] 3. pandas 기초 사용 (3) - 집계, 결측값, 정렬 2021.08.05
[python pandas] 2. pandas 기초 사용 (2) - 추가, 병합, 저장 2021.08.04
[python pandas] 1. pandas 기초 사용 (1) 2021.08.04

[python pandas] 4. pandas 기초 사용 (4) - 미국 이름 분석 해보기

silversu 2021. 8. 5. 21:55

2021. 8. 5. 21:55

러닝스푼즈 수업 정리

< 이전 글 >

https://silvercoding.tistory.com/50

[python pandas] 3. pandas 기초 사용 (3) - 집계, 결측값, 정렬

러닝스푼즈 수업 정리 < 이전 글 > https://silvercoding.tistory.com/49 https://silvercoding.tistory.com/48 [python pandas] pandas 기초 사용 (1) 러닝스푼 수업 정리 * 판다스 기본 함수 데이터 파일 읽기 :..

silvercoding.tistory.com

데이터 불러오기 & 살펴보기

import pandas as pd

file = './data/babyNamesUS.csv'
raw = pd.read_csv(file)

raw.head()

raw.info()

남녀 구분없이 '많이' 사용되는 공통 이름 ?

idea : 남녀 이름 개수의 비율 차이가 작을수록 성별 구분이 없는 이름일 것이다 !

# 성별에 따른 이름 개수 집계
name_df = raw.pivot_table(index = 'Name', columns = 'Sex', values = 'Number', aggfunc='sum')

# 결측값 채우기 (0) 
name_df = name_df.fillna(0)

# float -> int 
name_df = name_df.astype(int)
name_df.head()

여기까지 저번 포스팅에서 했던 내용이다.

name_df['Sum'] = name_df['M'] + name_df['F']
name_df.head()

남녀 이름 개수를 모두 더해서 sum 이라는 컬럼을 생성한다.

# 남, 녀 비율 계산 
name_df['F_ratio'] = name_df['F'] / name_df['Sum']
name_df['M_ratio'] = name_df['M'] / name_df['Sum']

# 남, 녀 비율 간 차이
name_df['M_F_Gap'] = abs(name_df['F_ratio'] - name_df['M_ratio'])
name_df.head()

-1 ~ 1 의 범위를 abs() (절댓값) 를 사용하여 0 ~ 1 범위로 바꾸어 준다.

# 이름 총 개수를 기준으로 내림차순 정렬 
name_df = name_df.sort_values(by = 'Sum', ascending=False)
name_df.head(20)

많이 사용된 이름을 뽑는 것이기 때문에 우선 총 합계 컬럼을 기준으로 정렬해준다.

cond = name_df['M_F_Gap'] < 0.1
name_df[cond].head(10)

이 때 비율차이가 적은 것을 0.1 미만으로 기준 잡고, M_F_Gap 컬럼이 0.1 보다 작은 행들을 출력시킨다.

# 성별 구분없이 많이 사용되는 이름 Top 10 
name_df[cond].head(10).index

가장 대표적인 미국의 이름 ? ( 최근 트렌드 )

idea : 세대를 기준으로 최근 세대(2020, 1990) 이름 개수의 비율이 큰 이름이 최근 트렌드에 맞는 대표적인 미국 이름일 것이다 !

raw.head()

# unique() 를 통해, 기간에 들어가는 값들을 살펴봅니다. 
raw['YearOfBirth'].unique()

array([1910, 1911, 1912, 1913, 1914, 1915, 1916, 1917, 1918, 1919, 1920, 1921, 1922, 1923, 1924, 1925, 1926, 1927, 1928, 1929, 1930, 1931, 1932, 1933, 1934, 1935, 1936, 1937, 1938, 1939, 1940, 1941, 1942, 1943, 1944, 1945, 1946, 1947, 1948, 1949, 1950, 1951, 1952, 1953, 1954, 1955, 1956, 1957, 1958, 1959, 1960, 1961, 1962, 1963, 1964, 1965, 1966, 1967, 1968, 1969, 1970, 1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015], dtype=int64)

* 세대 나누기

한 세대 나누는 기준 30년 : 2020년 기준 30년씩 구분

1930년대 이전
1960년대 이전
1990년대 이전
2020년 이전

year_class_list = [ ]

for year in raw['YearOfBirth']:
    if year <= 1930: 
        year_class = '1930년이전'
    elif year<= 1960: 
        year_class = '1960년이전'
    elif year <= 1990:
        year_class = '1990년이전'
    else:
        year_class = '2020년이전'
    year_class_list.append(year_class)

위와같이 반복문과 if문을 사용하여 출생년도를 4개의 세대 그룹으로 나누어 준다.

raw['year_class'] = year_class_list
raw.head()

세대 그룹을 저장한 리스트를 이용하여 year_class 컬럼을 생성한다.

name_period = raw.pivot_table(index = ['Name', 'Sex'], columns = 'year_class', values = 'Number', aggfunc='sum')
name_period = name_period.fillna(0)
name_period = name_period.astype(int)
name_period.head()

이름과 성별을 인덱스로 설정하고, year_class에 따른 number의 합계를 출력한다.

name_period['sum'] = name_period.sum(axis = 1)
name_period.head()

이름 총 개수를 구하기 위해 sum(axis=1) 을 사용한다. axis=1이면 가로방향으로 계산을 하게 된다.

# 세대 별 비율 계산 
for col in name_period.columns:
    col_new = col+"비율"
    name_period[col_new] = name_period[col] / name_period['sum']
    
name_period.head()

세대 별 비율을 계산하여 각 컬럼을 만들어 준다.

# 이름 사용수 합계, 2020년 이전 비율, 1990년이전 비율 기준 내림차순 정렬 
name_period = name_period.sort_values(by = ['sum', '2020년이전비율','1990년이전비율'], ascending=False)
name_period

1순위 이름 개수 총 합 , 2순위 2020년 이전 비율 , 3순위 1990년 이전 비율 로 정렬을 하여 최신 트렌드에 맞는 미국 대표이름을 알아본다.

# 인덱스가 여러 레벨로 되어있을 경우, 인덱스를 활용해 컨트롤 하는 것은 복잡
# reset_index()를 활용하여 인덱스로 설정된 이름과 성별을 컬럼으로 변경
name_period = name_period.reset_index()
name_period.head()

인덱스를 활용하여 컨트롤이 어려우므로 필요한 집계, 연산이 끝난 뒤에는 reset_index를 사용하여 column으로 변경해 준다.

# 남자 이름만 선택
cond = name_period['Sex'] =='M'
name_period[cond].head(10)

성별이 남성인 이름들 중에서 상위 10개를 뽑아보면 위와 같다.

# 이번에는 여자이름
cond = name_period['Sex'] =='F'
name_period[cond].head(10)

이번엔 성별이 여성인 이름의 상위 10개를 뽑은 것이다.

그런데 아직은 이상하다. 특히 성별이 여자인 이름의 표에서 첫번째 row는 1960년 이전 세대에서 약 50%의 비율을 차지하고 있다. 따라서 다음과 같은 조건을 건다.

cond_age = name_period['2020년이전비율'] > 0.3
cond_sex = name_period['Sex'] == 'M'
cond = cond_age & cond_sex
name_period[cond].head(5)

2020년 이전비율이 0.3 이상이면서 성별이 남성인 조건인 row를 선택한다.

결과 : < 남성 Top 5 이름 Christopher, Daniel, Matthew, Anthony, Andrew >

cond_age = name_period['2020년이전비율'] > 0.3
cond_sex = name_period['Sex'] == 'F'
cond = cond_age & cond_sex
name_period[cond].head(5)

여성의 경우도 동일한 조건으로 진행한다.

결과 : < 여성 Top 5 이름 Jessica, Sarah, Ashley, Stephanie, Emily >

'데이터 분석 이론 > pandas' 카테고리의 다른 글

[python pandas] 3. pandas 기초 사용 (3) - 집계, 결측값, 정렬 (0)	2021.08.05
[python pandas] 2. pandas 기초 사용 (2) - 추가, 병합, 저장 (0)	2021.08.04
[python pandas] 1. pandas 기초 사용 (1) (0)	2021.08.04

[python pandas] 3. pandas 기초 사용 (3) - 집계, 결측값, 정렬

silversu 2021. 8. 5. 16:00

2021. 8. 5. 16:00

러닝스푼즈 수업 정리

< 이전 글 >

https://silvercoding.tistory.com/49

[python pandas] 2. pandas 기초 사용 (2) - 추가, 병합, 저장

러닝스푼 수업 정리 < 이전 글 > https://silvercoding.tistory.com/48 [python pandas] pandas 기초 사용 (1) 러닝스푼 수업 정리 * 판다스 기본 함수 데이터 파일 읽기 : read_excel(), read_csv() 데이터 선택..

silvercoding.tistory.com

1. 데이터 불러오기 & 살펴보기

import pandas as pd

pandas import 해주기

file = './data/babyNamesUS.csv'
raw = pd.read_csv(file)

오늘 학습할 csv 파일을 pandas로 불러와 준다.

raw.head()

raw.info()

1048575 개의 row와 5개의 column 이 존재하며, 결측값을 없다.

[ 컬럼 정보 : 주, 성별, 출생년도, 이름, 이름 개수 ]

2. 집계하기 ( pivot_table )

pd.pivot_table(index = '컬럼명', columns = '컬럼명', values = '컬럼명', aggfunc = 'sum')

raw.pivot_table(index = 'Name', values = 'Number', aggfunc='sum')

이름 별 빈도수 집계해서 볼 수 있다. columns를 따로 설정하지 않으면 values가 column이 된다.

name_df = raw.pivot_table(index = 'Name', values = 'Number', columns = 'Sex', aggfunc='sum')
name_df.head()

이렇게 성별을 기준으로 이름의 빈도수를 집계할 수 있다.

name_df.info()

위의 피벗테이블 데이터프레임의 info를 보면 F, M 모두 결측값이 꽤 있는 것을 알 수 있다.

3. 결측값 채우기

공통된 값을 입력(ex 0)
임의의 수를 입력(ex 평균, 최대값, 최소값, 비어있는 자리 주변의 값 등)
비어있는 데이터는 분석에서 제외

- fillna()

name_df = name_df.fillna(0)
name_df.head()

이 데이터의 경우 개수가 채워져 있지 않은 것은 사용하지 않는다고 가정할 수 있으므로 0으로 모든 결측값을 채운다.

name_df.info()

결측값이 모두 채워진 것을 볼 수 있다

4. 정렬하기 : sort_values(by='컬럼명', ascending=True)

- 남자, 여자 각각 가장 많이 사용되는 이름 알아보기

name_df.sort_values(by = 'M')

남성을 기준으로 정렬하였다. 그런데 기본이 ascending=True 이므로 오름차순으로 되어있다. 상위 5개를 알아볼 것이기 때문에 내림차순으로 바꾸어 준다.

name_df.sort_values(by = 'M', ascending = False)

name_df.sort_values(by = 'M', ascending = False).head().index

Index(['Michael', 'James', 'Robert', 'John', 'David'], dtype='object', name='Name')

index만 추출해서 상위 5개의 이름만 뽑은 것이다.

name_df.sort_values(by = 'F', ascending = False).head().index

Index(['Mary', 'Jennifer', 'Elizabeth', 'Patricia', 'Linda'], dtype='object', name='Name')

여성의 상위 5개 이름도 마찬가지로 뽑아준다.

5. 컬럼별 데이터 종류 확인하기

- unique : 종류 알아보기

raw['StateCode'].unique()

- value_counts() : 종류 + 개수

raw['StateCode'].value_counts()

raw['YearOfBirth'].value_counts()

2007년에 기록된 이름이 가장 많다!

'데이터 분석 이론 > pandas' 카테고리의 다른 글

[python pandas] 4. pandas 기초 사용 (4) - 미국 이름 분석 해보기 (0)	2021.08.05
[python pandas] 2. pandas 기초 사용 (2) - 추가, 병합, 저장 (0)	2021.08.04
[python pandas] 1. pandas 기초 사용 (1) (0)	2021.08.04

[python pandas] 2. pandas 기초 사용 (2) - 추가, 병합, 저장

silversu 2021. 8. 4. 23:51

2021. 8. 4. 23:51

러닝스푼 수업 정리

< 이전 글 >

https://silvercoding.tistory.com/48

[python pandas] pandas 기초 사용 (1)

러닝스푼 수업 정리 * 판다스 기본 함수 데이터 파일 읽기 : read_excel(), read_csv() 데이터 선택하기 : df.loc(), df.iloc() 인덱스/ 컬럼 변경하기 : columns/ index , reset_index() pandas vs excel panda..

silvercoding.tistory.com

1. pandas 불러오기

import pandas as pd

2. 데이터 불러오기 & 살펴보기

fpath = './data/exam.xlsx' 
data = pd.read_excel(fpath, index_col = '번호')

index_col='번호' 로 지정하여 엑셀 파일 불러오기

* head(), info(), describe() 를 사용하여 데이터 살펴보는 습관 갖기

data.head()

data.info()

data.describe()

3. 데이터 추가하기

df[ '컬럼명' ] = data ( df.컬럼명 = data 형태는 사용 불가능 )

- 하나의 값 추가 : 전체 모두 동일한 값으로 추가됨

- 그룹 추가 : 리스트, 판다스의 시리즈로 추가

data['수학']

data.수학

데이터를 선택할 땐 위와 같은 두가지 방법으로 작성해주었다.

- 한개 값 추가

data['음악'] = 90             
data.head()

데이터를 추가할 땐 data.음악 의 형태로는 불가능 하다. 한개의 값을 추가하면 모든 row에 같은 값이 들어가게 된다.

- 여러 값 추가

data['체육'] =  [100, 80, 60]
data.head()

리스트로 여러 값을 추가해 줄 수도 있다. 이 때 주의할 점은 리스트 원소 개수와 row개수가 같아야 한다.

data['국영수'] =  (data['국어'] + data['영어'] + data['수학'] ) / 3
data.head()

이렇게 컬럼 간의 연산을 통하여 새로운 컬럼을 만들어 줄 수도 있다.

4. 데이터 표 병합하기

fpath = './data/exam.xlsx'
A = pd.read_excel(fpath, index_col = '번호')
A.head()

파일을 다시 불러와서 A 변수에 저장해 준다.

fpath2 = './data/exam_extra.xlsx'
B = pd.read_excel(fpath2, index_col = '번호')
B.head()

추가 할 엑셀파일을 불러와 B 변수에 저장해 준다.

- merge()

병합 기준을 인자에 넣어 설정해줄 수 있다. 이 때, left_on 과 left_index 중 1개, right_on 과 right_index 중 1개를 써야 하고, 두가지를 한번에 사용할 수 없다.

total = pd.merge(A, B, how = 'left', left_index = True, right_index = True)
total.head()

left일 경우 A를 기준으로 합병이 된다. 4번, 5번은 나오지 않고, B의 3번은 NaN으로 채워진다.

pd.merge(A, B, how = 'right', left_index = True, right_index = True)

위와 같이 작성되었을 때 , B에 맞추어 합병된다. 따라서 3번은 없는 것을 볼 수 있다.

pd.merge(A, B, how = 'inner', left_index = True, right_index = True)

inner를 사용하였을 경우 , A 와 B 모두 존재하는 인덱스의만 합병해준다.

pd.merge(A, B, how = 'outer', left_index= True, right_index=True)

outer를 사용하였을 경우 모든 데이터를 합병해 준다.

5 . 저장하기

total = pd.merge(A, B, how = 'left', left_index = True, right_index = True)
total

최종 모델은 left, A를 기준으로 합병한 데이터프레임으로 total 변수를 선언하고 , 저장을 해보자 !

total.to_excel('./data/exam_total.xlsx')

total.to_excel('./data/exam_total_withoutindex.xlsx', index = False)

index = False 인자를 사용하여 '번호' 컬럼을 제외하고 저장할 수 있다.

'데이터 분석 이론 > pandas' 카테고리의 다른 글

[python pandas] 4. pandas 기초 사용 (4) - 미국 이름 분석 해보기 (0)	2021.08.05
[python pandas] 3. pandas 기초 사용 (3) - 집계, 결측값, 정렬 (0)	2021.08.05
[python pandas] 1. pandas 기초 사용 (1) (0)	2021.08.04

[python pandas] 1. pandas 기초 사용 (1)

silversu 2021. 8. 4. 16:21

2021. 8. 4. 16:21

러닝스푼 수업 정리

* 판다스 기본 함수

데이터 파일 읽기 : read_excel(), read_csv()

데이터 선택하기 : df.loc(), df.iloc()

인덱스/ 컬럼 변경하기 : columns/ index , reset_index()

pandas vs excel

pandas : 가볍고 빨라서 대용량 파일 작업을 자유롭게 할 수 있다.

excel : 모든 데이터가 눈에 보인다. (데이터가 많아 직접 보기 어려울 수 있다. )

pandas 구조

DataFrame : 표 형태

- index : DB의 key 개념 , 엑셀에서는 보통 첫 번째 열에 배치하는 데이터 (vlookup 등에 활용)

- columns : 하나의 속성을 가진 데이터의 집합 -> index + column 하나로 나누어 살펴 볼 수 있음

Series : 하나의 속성을 가진 데이터 집합 ( DataFrame 에서 하나의 열 데이터 )

1. Pandas 불러오기

- pandas 설치

!pip install pandas

- pandas 불러오기

import pandas as pd

2. 데이터 불러오기 & 데이터 살펴보기

* 파일의 경로

- 절대경로 : "c:폴더1/폴더2/.../파일명.확장자"

- 상대경로 : "./폴더3/.../파일명.확장자" , "../폴더4/.../파일명.확장자" (쥬피터 노트북 파일 위치를 기준으로 지정)

- ./ : 현재 위치 ../ : 부모 폴더

* 데이터를 불러들인 뒤에는 head(), info(), descrive() 명령을 통해 데이터를 살펴보는 습관 갖기

temp = pd.read_excel('./data/exam.xlsx')

temp

temp.head(2)

head 인자에 개수를 지정해 줄 수 있다.

temp.tail()

- info () : 데이터프레임의 인덱스, 컬럼의 데이터 개수와 종류 확인

temp.info()

- describe() : 수치형 데이터 (inf, float) 가 들어있는 컬럼의 기초통계량 (개수,평균,표준편차,사분위 등) 확인

temp.describe()

2-1 인덱스 지정

- set_index() : 인덱스 컬럼 지정하기 (컬럼 -> 인덱스)

data = temp.set_index('번호')
data.head()

set_index를 이용하여 '번호' 컬럼을 인덱스로 지정해 주었다.

- index_col : 엑셀 파일 읽어올 때 인덱스 지정

temp2 = pd.read_excel('./data/exam.xlsx', index_col = 0) # index_col = '번호' (컬럼명 활용)
temp2.head()

3. 데이터 선택하기

- 셀 선택하기 (1개)

df.iloc[row, column] : 인덱스 번호

df.lic[row, column] : 이름

data

data.iloc[1, 2]

data.loc['1번','수학']

print(data.loc['3번','영어'])
print(data.iloc[2, 1])

100

print(data.loc['1번', '국어'])
print(data.iloc[0, 0])

- 셀 선택하기 (복수)

: 리스트 ( [조건1, 조건2, ... 조건n] ) 혹은 시작:종료 형태로 범위 지정

data.loc['1번', ['국어', '영어']]

국어 70

영어 80

Name: 1번, dtype: int64

data.loc[ ['1번','2번'] , '수학']

번호

1번 75

2번 55

Name: 수학, dtype: int64

data.loc['1번', '영어': ]

영어 80

수학 75

Name: 1번, dtype: int64

- 컬럼 선택하기 (1개)

: data.컬럼명 or data.['컬럼명']

data.loc[ : , '수학']

data['수학']

data['영어']

- 컬럼 선택하기 (복수)

: 원하는 순서대로 선택 가능

data[ ['수학','영어'] ]

data[  ['수학','영어','국어']  ]

원래는 국어 영어 수학 순서였는데 위와같이 순서를 달리 하여 출력할 수 있다.

- 특정 조건 데이터 선택하기 (한개)

pd[condition] : True인 데이터만 출력

-> condition : True / False 로 구성된 리스트 or 시리즈

data

cond = data['수학'] < 80
cond

이렇게 수학 컬럼에 대해 조건을 생성하면 bool타입을 반환해 준다.

data[ cond ]

위의 조건을 데이터프레임에 적용하면 True인 row들만 나오게 된다.

cond = [True, False, True]    # data['영어'] >  80
data[cond]

리스트에 직접 bool타입을 넣어 뽑아줄 수도 있다. 이 때 리스트의 개수와 row의 개수는 같아야 한다.

- 특정 조건 데이터 선택하기 (여러개의 조건)

& : and , 모든 조건 만족 True

| : or , 한 개라도 만족하면 True

cond3 = (data['영어'] > 80)
cond4 = (data['수학'] > 80)

data[ cond3 | cond4]

cond3 = (data['영어'] > 80)
cond4 = (data['수학'] > 80)

cond = cond3 & cond4
data[ cond ]

cond = (data['영어'] >= 70)  & (data['수학'] >= 70)  & (data['수학'] < 90) 
data[ cond ]

cond = (data['영어'] >= 70) \
    & (data['수학'] >= 70) \
     & (data['수학'] < 90) 

data[ cond ]

줄을 바꿀 땐 \(역슬래쉬) 를 사용해 준다. 가독성이 좋아진다.

cond_first  =  ( data['국어']  > 80)
cond_second =  ( data['영어']  > 80)

cond = cond_first   &   cond_second
data[cond]

cond_first  =  ( data['국어'] > 80 )
cond_second = ( data['영어'] > 80 )


cond = cond_first     |   cond_second

data[cond]

index & column

data.index

Index(['1번', '2번', '3번'], dtype='object', name='번호')

data.index = ['가반', '나반', '다반']

인덱스를 리스트로 설정해 줄 수 있다.

data

설정한 대로 바뀐 것을 볼 수 있다.

data.columns

Index(['국어', '영어', '수학'], dtype='object')

data.columns = ['Korean','English', 'Math']

동일하게 컬럼도 바꿔줄 수 있다.

data

data.reset_index()

* reset_index : drop=False가 기본 값 ( 현재 인덱스를 컬럼으로 옮겨 주고 인덱스를 리셋) ,

drop = True ( 현재 인덱스에 있는 값을 컬럼으로 변경하지 않고 인덱스 초기화 )

'데이터 분석 이론 > pandas' 카테고리의 다른 글

[python pandas] 4. pandas 기초 사용 (4) - 미국 이름 분석 해보기 (0)	2021.08.05
[python pandas] 3. pandas 기초 사용 (3) - 집계, 결측값, 정렬 (0)	2021.08.05
[python pandas] 2. pandas 기초 사용 (2) - 추가, 병합, 저장 (0)	2021.08.04

PREV 이전 1 NEXT 다음

🤍