특별한/교육 및 컨퍼런스

데이터분석을 위한 Python 라이브러리 튜토리얼(NumPy부터 Pandas까지)_01

송디 2019. 10. 20. 13:01

얼마전 '얼마전 데이터분석을 위한 Python 라이브러리 튜토리얼' 강의를 듣고 왔습니다.

데이터 분석은 컴퓨터 영역보다는 통계학의 가까운 영역 같았기 때문에 어떻게 접근을 해야할 지 고민이 되었습니다. 

그러던 중 데이터 분석을 위한 파이썬 라이브러리 튜토리얼 강의 소식을 듣고 참여하게 되었습니다. 


 데이터 분석을 하기 위해 필요한 것은 무엇일까요?

 먼저, 데이터를 정리해주기 위한 스킬들이 필요합니다. 파이썬 라이브러리를 이용해서 할 수도 있겠고, R같은 통계 프로그램을 이용해서 할 수도 있을 것입니다. 

 다음은 도메인 지식입니다. 즉, 분야 지식입니다. 금융권 데이터 분석을 하기 위해서 금융지식이 필요하고, 병원 데이터 분석을 하기 위해서는 의료지식이 필요합니다. 아무리 코딩 스킬적으로 뛰어나서 데이터를 가지고 논다고 하여도, 결국 그 데이터를 적용하지 못한다면 말짱 도루묵인거죠. 분야 전문성을 필요로 하기에 데이터 분석은 어렵습니다. 만약 데이터 분석가가 되고 싶다면 코딩 스킬 외에 통계학, 그리고 분야지식을 잘 닦아나야 할 것 같습니다. 

 

 데이터 분석에는 파이썬 라이브러리인 Pandas와 R프로그램이 대표적입니다. 제가 둘 다 사용해본 결과, 코딩을 모른다면 R프로그램이 편할 수 있습니다. 그러나 코딩을 했다고 한다면 Python이 편합니다. 저는 프로그래밍 언어를 해봤기 때문에 그런것이고, 각자의 취향 혹은 장래를 보고 선택하시면 좋을 꺼 같습니다. 

 

 

"Numpy 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리"

"Pandas 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리. 특히 수치 테이블 및 시계열을 조작하기위한 데이터 구조 및 연산을 제공"

 

 Python은 인터프리터로서 C와 같은 컴파일러보다 느리다. 아무래도 명령어를 실행할때마다 기계어를 번역해줘야 하기 때문이다. 현대와 같이 속도가 중요한 시대에 속도가 느린것은 살아남지 못한다. 다행히 파이썬을 이용한 데이터 분석 라이브러리 Pandas는 C로 구성되어 있기 때문에 속도가 빠르다. 파이썬인데 C로 되어 있다고 하며 헷갈릴 수도 있다. 아마 C를 베이스로 하고 사람들이 파이썬으로 사용할 수 있게 해준게 아닐까 싶다.

 

본격적으로 데이터 분석에 대해 이야기를 해보자.

 

데이터 분석은

□ 수집 → 정제 → 분석 → 시각화  

의 과정을 거친다. 

 

그 중 '정제' 와 '분석' 에서 Pandas가 쓰인다. 

 

 

Pandas(Python Data Analysis Library)

  • NumPy를 내부적으로 활용함(NumPy의 특징을 그대로 가짐)
  • 데이터분석에 특화된 데이터 구조 제공
  • 다양한 데이터 분석 함수 제공
  • 데이터베이스에 쉽게 연결 가능
```python
import pandas as pd

# numpy와 matplotlib 임포트
%matplotlib inline # 노트북에서 그래프를 보여주기 위해 추가해주는 코드
import numpy as np
import matplotlib.pyplot as plt

# help(pd)
# help(pd.read_csv)
help(pd.DataFrame)
# pd.DataFrame?
```

Series

  • 1차원 데이터 구조
  • 일반적으로 s 또는 sr로 이름 붙임

Pandas 데이터 구조

728x90

'특별한 > 교육 및 컨퍼런스' 카테고리의 다른 글

Global AI 부트캠프 (부산)  (0) 2019.12.15
GDG DevFest(Busan) 2019를 다녀와서.  (0) 2019.12.02