파이썬

파이썬 데이터 시각화 입문 1 : 여는 글

fecu 2023. 11. 7.

이번에 좋은 기회가 있어서 파이썬을 활용한 데이터 시각화 수업을 하게 되었다. 수업 때 쓴 자료가 한번 쓰고 버리기에는 너무 아까워서 블로그에 남겨보려고 한다.

 

이 글의 목표는 파이썬의 for문, if문, 함수 등의 기초만 아는 사람이 파이썬으로 그래프를 한번 그려보는 것에 있다. 이 글에 나와 있는 것은 정말 기초일 뿐이며, 파이썬으로 데이터 시각화를 하는 기초를 닦는 목적으로 읽길 바란다.

 

이번 글은 앞으로 쓸 글들 중 첫번째, 여는글과 파이썬 개발 환경 만들기이다.

 

1.  여는 글

 

1) 데이터 시각화란?

 

데이터 시각화를 쉽게 이야기하면, 데이터를 그래프나 보기 좋은 형태로 만들어주는 것을 말한다. ㅈ같은 보노보노 ppt를 보기좋은 ppt로 만드는 것은 단지 내용의 표현 방법의 차이일 뿐이다. 데이터 시각화도 이와 마찬가지이다.

 

 

아래 자료는 코글에서 다운 받은 자료를 seaborn 이라는 시각화 패키지를 활용하여 시각화 한 예시이다. 오른쪽의 그래프가 왼쪽에 있는 테이블 보다는 훨씬 보기 편하고, 해석하기도 좋다. 하지만 왜 굳이 파이썬인가?

 

 

물론 데이터 시각화 도구는 파이썬만 있는 것이 아니다. 엑셀로도 가능하고 다양한 도구들이 있다. 간단한 자료라면 엑셀에서도 쉽게 데이터 시각화를 경험해 볼 수 있다.

 

 

파이썬으로 데이터 시각화를 배우는 가장 큰 매력은 자동화에 있다고 생각한다. 일련의 코드를 짜기만 하면 모든 데이터에 대한 다양한 형태의 그래프를 제작하거나, 월별로 제공된 일정의 형태의 자료가 있다면 클릭 한번으로 시각화가 가능하다.

 

 

개개인마다 느끼는 이점은 다를 것이다. 굳이 파이썬이라는 틀에 얽매이는 것은 재미를 더 떨어트릴 뿐이다. 가끔은 잘 모르면 엑셀로 데이터를 확인 할 수도 있고, 엑셀로 데이터를 삭제, 정렬 할 수도 있다.

 

우리는 그저 새로운 시각화 도구를 하나 더 배워보는 것 뿐이다.

 

2) 데이터 시각화의 절차

 

데이터 시각화의 대략적인 절차는 아래와 같다. 

 

 

예를 들어 초등학교에서 중학교로 입학 설명회를 해달라는 요청을 받았다고 해보자. 이때는 아래와 같은 절차를 거쳐 데이터 시각화를 하게 될 것이다.

 

  1. 우리는 어떤 것을 아이들에게 설명할 것인지를 정하게 된다. 그 중에서 "중학교에 와서 힘든점은?"이라는 내용을 설문조사로 한다고 하자.
  2. 그러면 아이들에게 설문을 받아 데이터를 수집하게 된다.
  3. 학생들에게 받은 데이터는 일정한 형태가 없으므로 KoNLPy 라는 패키지를 활용해 음절 단위로 만들어서 토큰화를 해주는 절차를 거친다. 또한 응답이 없는 것은 삭제하는 과정도 필요하다. 
  4. 파이썬의 wordcloud 패키지를 이용해 데이터를 시각화 시킨다. 때로는 1음절의 필요없는 단어가 있다면 이를 제거하고 다시 시각화 시켜 이미지를 완성한다.

 

설명회에서 아이들에게 구구절절 설명하는 것 보다는, 아래 한장의 이미지를 띄워두고 이야기를 풀어나가는 것이 더 도움이 될 것이다. 

 

 

3) 정형 데이터와 비정형 데이터

 

위의 예시는 비정형 데이터일 경우이다. 비정형 데이터는 정해진 형식이 없기 때문에 처리하고자 하는 방식에 따라 데이터를 가공하는 절차가 필요하다. 하지만 이 과정이 무척 어렵다.

 

 

그래서 이 글에서는 정형 데이터, 즉 형식이 정해진 데이터만 가지고 데이터를 확인하고 그래프를 그리는 과정을 설명하려고 한다. 정형 데이터는 대부분 숫자일 것이다.

 

2. 파이썬 개발환경 구축하기

 

혹시 파이썬과 VS Code가 설치되어 있지 않은 분은 아래의 글을 참고하여 설치해주길 바란다.

 

 

파이썬(Python) 개발환경 구축하기

오늘 글은 비쥬얼 스튜디오 코드(Visual Studio Code)를 활용하여 파이썬(Python) 실행 환경을 구축하는 방법에 대한 글을 써보려고 한다. 1. 파이썬(Python) 다운받기 먼저 파이썬을 이용할 것이니 파이썬

fecu.tistory.com

 

그리고 VS Code에서 확장팩 중 Pylance를 설치해준다. Pylance는 강력한 기능들을 제공해주니 꼭 설치하자.

 

 

3. PIP로 패키지 설치하기

 

PIP는 파이썬 패키지 관리자이다. 쉽게 말하면 남이 미리 짜놓은 프로그램을 다운 받도록 해준다. 먼저 터미널을 켜자.

 

 

여기서 아래와 같은 명령어를 멋지게 때려넣어 준다.

 

# Window 일 경우
pip install numpy openpyxl pandas matplotlib

# Mac OS 일 경우
pip3 install numpy openpyxl pandas matplotlib

 

잠깐동안 해커가 된 느낌이 들 것이다. 패키지가 모두 설치될 때 까지 기다려준다. 필자는 모든 패키지를 이미 설치했기에 이미 설치되었다는 문구가 나온다.

 

 

설치가 끝났다면 아래와 같은 명령어를 입력해보자.

 

# Windows 일 경우
pip show matplotlib

# Mac OS 일 경우
pip3 show matplotlib

 

아래와 같이 뜬다면 설치가 완료된 것이다.

 

 

 

패키지를 조금 설명해주자면 pandas는 테이블 자료 처리, matplotlib은 데이터 시각화, numpy는 행렬 계산 및 그래프 선형회귀를 위해 사용하려고 한다. 

 

 


 

만일 pip 실행에 문제가 있다면 아래 글을 참고하길 바란다.

 

 

윈도우 pip가 안될 때 : 환경변수 설정하기

윈도우에서 파이썬을 설치하고 나서 환경변수가 설정되지 않으면 pip가 먹히지 않는다. 이럴 땐 환경변수를 설정해 주어야 한다. 아래의 절차에 따라 환경변수를 설정해보자. 1. python을 다시 다

fecu.tistory.com

 

 


 

4. 주피터 노트북 설치

 

먼저 아무데나 폴더를 하나 만들어주자. 필자는 역사와 전통을 가진 폴더 이름, 직박구리로 지어보았다.

 

 

그리고 VS Code에서 왼쪽 상단의 탭을 누른 뒤 폴더 열기를 눌러 폴더를 열어준다.

 

 

그리고 다음의 확장자를 가진 파일을 하나 만들어보자. 확장자는 .ipynb이다. 이 파일은 주피터 노트북 파일이다.

 

예전에 만든거라 폴더명이 조금 다르다.

 

그리고 코딩국룰 "hello world"를 입력하고 옆의 삼각형 버튼을 누른다. 그러면 뭘 연결한다, 설치한다 하는데 모두 다 허용해주면 아래와 같이 hello world가 바로 출력되는 것을 볼 수 있다.

 

 

이처럼 주피터 노트북은 셀 단위 출력을 지원하기 때문에 처음 프로그램을 구성할 때 코드 작성과 디버그를 동시에 할 수 있다. 다만 느리다는 단점이 있기는 하다.

 

 

예를들어 일반적으로 파이썬 코드를 실행할 때는 실행 결과를 터미널에서 확인해야 했지만, 주피터 노트북에서는 프로그램 실행 셀 바로 아래에서 확인할 수 있다. 이것 하나만으로도 코딩이 많이 쉬워진다.

 

 

5. 다음 글에서는...

 

이 글에서는 다음 글을 위한 전반적인 준비를 해보았다. VS Code에서 파이썬, 주피터 노트북을 이상없이 사용할 수 있다면 이제 더 이상 할 것이 없다. 다음 글로 넘어가보자. 그럼 끝.

 

 

파이썬 데이터 시각화 입문 2 : Pandas 다루기

이번 글에서는 데이터 처리를 위한 도구인 Pandas에 대해 다루어 보려고 한다. 데이터 시각화를 위한 환경구성이 되어 있지 않다면 아래의 글을 참고바란다. 파이썬 데이터 시각화 입문 1 : 여는

fecu.tistory.com

 

댓글

💲 추천 글