이번 글에서는 Excel과 JSON 파일을 읽어오는 방법을 알아보고자 한다.
Excel과 JSON 파일은 앞에서 살펴본 CSV와 읽어오는 방법이 거의 비슷하다.
Excel 파일 읽어오기
Excel 파일의 행과 열은 데이터프레임의 행, 열로 일대일 대응된다. read_excel() 함수의 사용법은 앞에서 살펴본 read_csv() 함수와 거의 비슷하다. header, index_col 등 대부분의 옵션을 그대로 사용할 수 있다.
Excel 파일 -> 데이터프레임: pandas.read.excel("파일 경로(이름)")
다음의 Excel 파일은 남북한의 발전량을 정리한 통계자료이다.
header 옵션을 달리한 두 가지 df1, df2를 출력하는 코드입니다.
import pandas as pd
file_path = './read_csv.csv'
df1 = pd.read_excel('./남북한발전전력량.xlsx') # header = 0 (default 옵션)
df2 = pd.read_excel('./남북한발전전력량.xlsx', header=None)
print(df1)
print('\n')
print(df2)
Spyder에서 코드를 실행한 결과 모든 값을 읽어오는 것은 잘 동작하였지만 출력 형태가 깔끔하지는 않았다. 출력 형태도 따로 지정을 해줘야 하는지 혹은 값을 읽어오는 것에 의미를 두는 게 맞는지 모르겠다.
jupyter notebook에서는 따로 출력 양식을 지정해 주지 않아도 깔끔하게 나왔다.
JSON 파일
JSON 파일은 데이터 공유를 목적으로 개발된 특수항 파일 형식이다. 파이썬 딕셔너리와 비슷하게 'key : value' 구조를 가지며, 구조가 중첩되는 방식에 따라 다르게 적용한다.
JSON 파일 -> 데이터프레임: pandas.read_json("파일 경로(이름)")
파이썬 패키지의 출시년도, 개발자, 오픈소스 정보가 들어있는 위 json 파일을 읽어오는 코드는 아래와 같다.
read_json() 함수를 사용하여 json 파일을 데이터프레임으로 변환하면 된다.
import pandas as pd
df = pd.read_json('./read_json.json')
print(df)
print('\n')
print(df.index)
"name" 데이터 ("pandas", "Numpy", "matplotlib")가 인덱스로 지정된다.
'Data Engineering > 데이터 분석' 카테고리의 다른 글
T-test (T검정) (0) | 2020.09.02 |
---|---|
상관 분석 (0) | 2020.09.02 |
외부 파일 읽어오기- 1 (CSV) (0) | 2020.05.29 |
데이터프레임(Data Frame) 연산 (0) | 2020.05.29 |
시리즈(Series) 연산 (0) | 2020.05.29 |