5월 23, 2026

카그글 datasets 탐험기, 파이썬 스택으로 데이터 분석 실전 가이드

데이터 과학의 정통은 결국 데이터를 만지보게 되는 경험에서 출발합니다. 하지만 데이터는 단순히 있는 것이 아니라, 그 가치를 발견하고 활용 가능한 형태로 가공해야 합니다. 이 과정에서 가장 중요한 출발점 중 하나는 품질 높은 데이터셋을 구하는 것입니다. 오늘은 카그글 (Kaggle) 을 통해 데이터를 찾고, 그것을 파이썬 (Python) 라이브러리들의 강력한 힘을 빌려 분석해보는 과정을 상세히 다뤄보겠습니다. 특히 이번에는 저의 실제 workflow 와 환경 설정 팁, 그리고 데이터 초기 탐색 방법을 공유할 계획 입니다.

먼저 데이터셋을 검색하는 단계부터 시작해보겠습니다. 카그글은 데이터 과학 컴피티션으로 유명하긴 하지만, 사실 저는 거기에서 제공하는 다양한 데이터셋에 더 큰 흥미를 가집니다. 여기에는 공개 정부 기록, 다양한 API 데이터, 혹은 실제 상황을 모의한 합성 데이터까지 종류가 매우 다양합니다. 저는 통적으로 분석을 위한 Python 데이터 스택을 사용하는데 그 구성은 IPython, Jupyter, NumPy, SciPy, pandas, Seaborn, statsmodels 등이 포함됩니다. 카그글 홈페이지 자체의 검색 기능은 괜찮으므로 특정 주제, 혹은 기술 관련 데이터가 풍부한 ‘컴퓨터 과학’ 카테고리를 먼저 찾아보는 것도 좋은 방법입니다. 예를 들어 ‘화면 사용 시간과 정신 건강 (screen time and mental health)’같은 주제의 데이터셋은 심리학과 디지털 웰빙을 연구하는 데 매우 유용할 수 있습니다.

검색 결과를 골랐다면 이제 다운로드가 남았습니다. 단순히 웹 브라우저에서 직접 압축 파일을 내려받는 방법도 있지만, 카그글은 API 키와 명령줄 클라이언트 (CLI client) 를 제공하여 더 효율적으로 다운로드하라고 권장합니다. 저는 이미 pip 를 통해 해당 클라이언트를 설치해두었는데, 여기서 사용할려면 웹사이트 설정 안에 API 키를 발급받고 설정하는 절차가 필요합니다. 카그글 문서를 참고하면 절차가 명확합니다. 저는 데이터를 저장해두는 디렉토리로 이동한 뒤, 해당 페이지의 부분 URL 을 명령줄 인터페이스로 입력하여 다운로드합니다. 이후 ZIP 파일 형식으로 내려온 압축을 풀면, CSV 파일이 곧바로 추출됩니다.

다운로드가 끝났다면 가장 핵심 단계인 Jupyter 노트북 (Notebook) 생성 및 환경 구축입니다. 데이터 탐색은 일반적인 프로그래밍과는 달리 상호작용적인 사용이 강조됩니다. 저는 가벼운 실험이나 빠른 테스트를 위해 IPython 를 선호하지만, 진행 상황을 저장하고 나중에 공유해야 한다면 Jupyter 를 사용합니다. 노트북은 코드와 시각화 결과, 그리고 해설적 주석을 한 문서 안에 섞어서 작성할 수 있게 해줍니다. 과거에는 Mamba 환경을 쓰기도 했지만 업데이트 속도가 느려 불편했던 적이 있었습니다. 그래서 더 빠르고 정돈된 환경 구축을 위해 Pixi 를 선택하게 되었습니다. Pixi 는 프로젝트 기반이지만 전역 환경 설정도 가능해서 환경 전환 없이 글로벌하게 실험할 수 있어서 아주 편리합니다.

저의 일반적인 일렉은 Jupyter 를 실행한 뒤 새로운 노트북을 생성하고, 데이터를 Pandas 라이브러리로 불러와야 합니다. 명령줄에서 ‘jupyter notebook’ 을 실행하면 브라우저에서 파일 탐색기가 함께 뜹니다. 새로운 노트북을 만드는데, 파일 이름을 바꾸면 그 안에서 작업하게 됩니다. 카그글 데이터셋일 때는 보통 original URL 을 링크로 남겨둬서 나중에 참조하기 좋습니다. 마크다운 (Markdown) 셀과 코드 셀을 섞어서 사용하면서, 먼저 통계 라이브러리를 불러옵니다. 여기서 NumPy, Pandas, Matplotlib, Seaborn 을 줄여서 불러오죠. Seaborn 은 Matplotlib 기반이므로 시각화에 적합하고, ‘sns.set_theme()’ 로 기본 테마를 적용하면 그래프가 훨씬 읽기 쉽답니다. 또한 Jupyter 에서 그래프를 화면에 바로 보이게 하려면 ‘matplotlib inline’이라는 마법 명령어를 써야 합니다.

마지막으로 데이터 자체를 불러오고 분석하는 작업입니다. Pandas DataFrame 이란 스프레드시트처럼 정렬된 직사각형 배열인데, CSV 파일을 읽어들이면 바로 분석 가능한 형식이 됩니다. 일단 데이터의 앞부분을 ‘head()’로 확인하면 몇 줄의 데이터를 미리 훔쳐볼 수 있습니다. 수치형 열들을 한눈에 파악하려면 ‘describe()’를 호출하면 평균, 표준편차, 최소값, 최대값, 사분위수 등 핵심 통계량이 자동으로 나옵니다. 또한 하나의 분포를 확인하려면 히스토그램을 사용할 수 있습니다. 저는 Seaborn 의 displot 함수를 주로 사용하는데, 예를 들어 샘플 내 화면 사용 시간 분포를 살펴본다면, 데이터의 양분산과 패턴을 한눈에 파악할 수 있습니다. 데이터 분석은 항상 이 데이터의 스토리를 이해하는 데서 시작하며, 그래프와 통계는 그 스토리를 전달하는 가장 강력한 언어입니다. 오늘 소개한 방법대로 Kaggle 에서 데이터를 가져와서 파이썬으로 탐구해보면 새로운 통찰을 얻거나, 향후 프로젝트를 시작하는 데 큰 도움이 될 것입니다. 데이터와 기술을 좋아하시는 분이라면 한번 시도해 보시기를 추천합니다.


이 글은 How-To Geek의 기사를 바탕으로 작성되었습니다.

카그글 datasets 탐험기, 파이썬 스택으로 데이터 분석 실전 가이드