본문 바로가기

전체 글172

머신러닝(Machine Learning)이란? 1. 🔧 머신러닝이란?머신러닝은 데이터를 기반으로 학습하고, 학습한 내용을 바탕으로 새로운 데이터를 예측하거나 결정을 내리는 인공지능(AI)의 한 분야입니다. 머신러닝은 문제의 특성과 데이터에 따라 크게 두 가지 주요 유형으로 나뉩니다:🔬 1.1 지도 학습(Supervised Learning)정의: 입력 데이터와 그에 대한 정답(레이블)이 주어진 상태에서 모델을 학습시키는 방식.종류:회귀(Regression): 연속적인 값을 예측. 예: 집값, 주가 예측분류(Classification): 데이터를 특정 클래스로 분류. 예: 스팸 이메일 필터링, 질병 진단.특징 회귀(Regression) 분류(Classification)예측 값연속적인 숫자 (예: 가격, 온도)이산적인 값 (예: 스팸/정상)목표입력과 .. 2025. 1. 26.
Python 구글맵 API, 피벗테이블, 데이터정규화를 이용하여 서울시 범죄 데이터 분석하기 데이터 분석 개요 🧮서울시 5대 범죄(강간, 강도, 살인, 절도, 폭력) 데이터를 기반으로, 각 구별 범죄 발생과 검거율 데이터를 분석하고 시각화합니다.이 글에서는 데이터 처리, 변환, 그리고 원하는 데이터 분석을 얻기 위한 주요 기술과 실습 내용을 공유합니다. 📊✨  데이터 로드와 초기 처리 🗂️숫자 데이터 처리CSV 파일에서 쉼표(,)로 구분된 숫자를 바로 정수(int)로 변환하려면 pandas의 read_csv 함수에서 thousands=',' 옵션을 사용합니다.이를 통해 숫자 데이터를 정수형으로 처리할 수 있습니다. ✅import pandas as pddf = pd.read_csv('crime_in_Seoul.csv', encoding='euc-kr', thousands=',') 아래 방법으.. 2025. 1. 24.
Python 데이터 시각화와 상관관계 분석: Matplotlib와 Seaborn 라이브러리 데이터 분석에서 시각화는 데이터를 더 직관적으로 이해할 수 있게 해주는 중요한 도구입니다. 파이썬에서는 대표적으로 Matplotlib와 Seaborn 라이브러리를 사용하여 데이터를 시각화합니다. 이 글에서는 다양한 차트 활용법과 함께, 상관관계 분석에 대해 살펴보겠습니다. 📊🔵 Matplotlib & Seaborn으로 차트 만들기1. 카운트 플롯 (Count Plot)특정 컬럼의 값별로 데이터의 개수를 바로 확인할 수 있는 플롯입니다.import seaborn as sbimport matplotlib.pyplot as plt# 기본 카운트 플롯sb.countplot(data=df, x='generation_id')plt.show()# 색깔 변경하기 🎨base_color = sb.color_palet.. 2025. 1. 23.
Python 통계 메서드 비교: agg(), describe() Python과 Pandas를 사용하여 데이터를 분석하다 보면, agg()와 describe() 메서드를 활용하여 데이터를 요약할 수 있습니다. 이 두 메서드는 비슷한 목적을 가지고 있지만, 사용하는 방식과 결과가 다릅니다. 🧐 아래에서 두 메서드의 차이를 자세히 살펴보겠습니다.🧮 agg() 메서드설명: 특정 열(column)이나 전체 데이터프레임에 대해 여러 통계 함수(사용자 정의 함수 포함)를 적용할 수 있습니다.사용 목적: 데이터의 요약 통계를 커스터마이징하고 싶을 때 유용합니다.특징:다양한 함수(기본 제공 함수 및 사용자 정의 함수)를 적용 가능.여러 열에 대해 다른 함수를 적용할 수 있음.결과를 유연하게 제어할 수 있음.📌 예제:import pandas as pd# 데이터 생성data = {.. 2025. 1. 23.
Python Pandas: CONCAT과 MERGE로 데이터 합치기 Python의 데이터 분석 라이브러리인 Pandas는 데이터를 병합하거나 연결할 때 매우 강력한 기능을 제공합니다. 이번 글에서는 Pandas에서 concat과 merge를 사용해 데이터를 합치는 방법을 예제와 함께 살펴보겠습니다. 💡 데이터 준비 📃먼저, 예제로 사용할 세 개의 데이터프레임을 만들어보겠습니다. import pandas as pd# 첫 번째 데이터프레임 (엔지니어링 부서의 직원 정보)raw_data = { 'Employee ID': ['1', '2', '3', '4', '5'], 'first name': ['Diana', 'Cynthia', 'Shep', 'Ryan', 'Allen'], 'last name': ['Bouchard', 'Ali', 'Rob', 'Mitch.. 2025. 1. 23.
Python Pandas로 웹페이지의 표를 데이터프레임으로 가져오는 방법 웹 스크래핑은 데이터를 분석하는 데 있어 매우 유용한 기술입니다.특히 Pandas 라이브러리의 pd.read_html() 메소드를 사용하면, HTML 페이지에서 표 데이터를 손쉽게 가져올 수 있습니다. 이번 글에서는 다음의 내용을 다룹니다:pd.read_html()을 사용해 데이터를 가져오는 방법라이브러리 설치 에러 해결 방법가져온 데이터의 특성과 처리 방법1. HTML 페이지에서 표 데이터 가져오기예를 들어, 캐나다 주택 가격 정보를 담고 있는 이 웹페이지에서 데이터를 가져와 보겠습니다:import pandas as pd# 웹페이지에서 표 데이터를 가져옵니다.df_list = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html'.. 2025. 1. 22.
Python 데이터 분석을 위한 강력한 도구 Pandas Pandas Series 데이터 생성하기Series란 무엇인가?Pandas의 Series는 일차원 데이터 구조로, 리스트와 유사하지만, 데이터에 대해 인덱스를 사용할 수 있는 점이 큰 특징입니다. 각 데이터 요소는 고유한 레이블(인덱스)을 가지며, 이를 통해 데이터를 보다 쉽게 관리하고 접근할 수 있습니다.import pandas as pd# Series 생성 예시data = [10, 20, 30, 40]series = pd.Series(data, index=['a', 'b', 'c', 'd'])print(series)출력:Accessing and Deleting Elements in Pandas Series레이블과 인덱스를 통한 접근Series에서는 데이터에 레이블(또는 인덱스)을 사용해 접근할 수 있.. 2025. 1. 22.
Python - Numpy 활용으로 행렬 연산 효율적으로 처리하기 Numpy 기초 사용법 🌟Numpy는 Python에서 강력하고 유용한 수치 계산 라이브러리로, 대규모 데이터 배열 및 행렬 연산을 효율적으로 처리할 수 있게 도와줍니다. 이번 글에서는 Numpy의 기본적인 내장 메서드와 기능들에 대해 살펴보겠습니다. 🚀 또한 Numpy와 행렬 연산, 딥러닝의 관계도 함께 알아보겠습니다. 파이썬 데이터분석을 위한 라이브러리 설치# $conda create -n 가상환경이름 python=3.10 openssl numpy scipy matplotlib ipython scikit-learn pandas pillow jupyter seaborn1. Numpy 배열의 구조와 기본 메서드 🔍배열의 모양(shape) 이해하기 🧮Numpy 배열은 다양한 차원을 가질 수 있으며, .. 2025. 1. 22.
Python 날짜와 시간 다루기 파이썬은 날짜와 시간을 다루기 위한 강력한 라이브러리를 제공합니다. 이 글에서는 datetime, time, 그리고 calendar 모듈을 활용하여 날짜와 시간을 다루는 방법을 알아보겠습니다. datetime 모듈 임포트from datetime import datetime1. datetime 모듈datetime 모듈은 날짜와 시간을 모두 다룰 수 있는 기능을 제공합니다.현재 날짜와 시간 가져오기# 현재 날짜와 시간now = datetime.now()print("현재 날짜와 시간:", now)특정 날짜 생성하기from datetime import datetime# 특정 날짜 생성specific_date = datetime(2025, 1, 21, 15, 30)print("특정 날짜:", specific_da.. 2025. 1. 21.