본문 바로가기

AI, Machine Learning14

상관계수를 이용한 영화 추천 시스템 추천 시스템을 구축하는 방법에는 여러 가지가 있지만,그 중 상관계수를 이용한 방법은 아이템 간의 유사도를 측정하여 추천하는 방식으로 많이 사용됩니다.이번 글에서는 상관계수를 이용한 영화 추천 시스템을 구현하는 방법을 설명하겠습니다. 🍿 🔍 협업 필터링과 아이템 기반 추천협업 필터링(Collaborative Filtering)은 사용자(User)나 아이템(Item) 간의 유사성을 바탕으로 추천하는 방법입니다.협업 필터링에는 크게 두 가지 접근 방식이 있습니다.👥 사용자 기반(User-Based) 추천: 유사한 취향을 가진 사용자들이 선호하는 영화를 추천❌ 단점: 유저의 수가 많아질수록 계산량이 기하급수적으로 증가 (복잡도 증가)🎥 아이템 기반(Item-Based) 추천: 사용자가 좋아하는 아이템과 .. 2025. 2. 10.
Prophet을 활용한 매출 예측 분석 기업이 성장하기 위해서는 정확한 매출 예측이 필수적입니다. 과거의 데이터를 바탕으로 미래 매출을 예측하면, 적절한 재고 관리와 마케팅 전략을 수립할 수 있기 때문입니다. 이번 포스팅에서는 Facebook의 시계열 분석 라이브러리인 Prophet을 활용하여 매출 예측을 진행한 결과를 공유하겠습니다.  1. 데이터 개요이번 분석에서 사용한 데이터는 realistic_sales_data.csv 파일로, 날짜(date)와 매출(sales) 정보가 포함된 시계열 데이터입니다. 데이터의 일부를 확인하면 다음과 같습니다.date sales2020-01-011142020-01-021002020-01-031212020-01-042012020-01-05154Prophet 모델을 활용하여 해당 데이터를 바탕으로 향후 매출을.. 2025. 2. 6.
Scikit-Learn 파이프라인(Pipeline)이란? 파이프라인(Pipeline)은 여러 개의 작업을 순차적으로 연결하여 자동화하는 과정을 의미합니다.데이터 처리, 머신러닝, 소프트웨어 개발 등 다양한 분야에서 사용되며, 반복적인 작업을 효율적으로 처리할 수 있도록 도와줍니다.   1. 파이프라인의 개념 🎯파이프라인은 데이터가 여러 단계를 거치며 변환되는 흐름을 정의하는 구조입니다.각 단계는 특정 작업을 수행하며, 이전 단계의 출력을 다음 단계의 입력으로 사용합니다.예를 들어, 머신러닝 모델을 학습시키는 과정에서 다음과 같은 단계를 거칠 수 있습니다:데이터 전처리 (결측치 처리, 스케일링, 인코딩 등)특징 선택 및 변환 (차원 축소, PCA 등)모델 학습 (분류기, 회귀 모델 등)평가 및 예측 (모델 성능 평가 및 예측 수행)이 모든 단계를 하나의 파이프.. 2025. 2. 5.
머신러닝 분류모델: 구글 티쳐블 머신(Teachable Machine) 티쳐블 머신(Teachable Machine)이란?티쳐블 머신(Teachable Machine)은 구글(Google)이 개발한 머신러닝 모델을 누구나 쉽게 만들고 사용할 수 있도록 지원하는 웹 기반 도구입니다. 프로그래밍이나 머신러닝에 대한 깊은 지식이 없어도 간단한 조작만으로 AI 모델을 훈련시키고 활용할 수 있습니다.   1. 티쳐블 머신의 특징✅ 초보자 친화적인 인터페이스웹 브라우저에서 실행되며, 설치 없이 바로 사용 가능GUI(그래픽 사용자 인터페이스)를 통해 간단한 조작으로 모델 훈련 가능✅ 다양한 입력 데이터 지원이미지(Image): 사진이나 웹캠으로 촬영한 이미지를 기반으로 학습오디오(Audio): 목소리, 소리 패턴을 기반으로 분류 가능포즈(Pose): 웹캠을 이용해 신체 움직임을 인식하고.. 2025. 2. 2.
머신러닝 비지도학습모델 : Hierarchical Clustering 1. 🏗️ 계층적 군집화란?계층적 군집화는 데이터를 계층적으로 묶어 나가는 방식으로, 크게 병합(Agglomerative) 과 분할(Divisive) 두 가지 방식이 있습니다.🧩 병합형(Agglomerative Clustering): 각 데이터를 개별 클러스터로 시작한 후, 가까운 것들끼리 점진적으로 병합하는 방식 (Bottom-Up)🔪 분할형(Divisive Clustering): 전체 데이터를 하나의 클러스터로 시작한 후, 점진적으로 세분화하는 방식 (Top-Down)일반적으로 병합형 군집화가 더 널리 사용됩니다.   2. 📊 덴드로그램(Dendrogram)이란?덴드로그램은 계층적 군집화에서 데이터들이 어떻게 합쳐지거나 분할되는지를 보여주는 트리 형태의 다이어그램입니다. 덴드로그램을 통해 군집.. 2025. 2. 1.
머신러닝 비지도학습모델 : K-Means 클러스터링 K-Means 클러스터링: 비지도 학습의 대표 알고리즘 🤖데이터 분석을 진행하다 보면 데이터의 패턴을 찾고 그룹으로 묶는 것이 필요할 때가 많습니다.비슷한 성향의 고객끼리 묶어줘! 이때 활용할 수 있는 대표적인 비지도 학습 알고리즘이 바로 K-Means 클러스터링입니다.이번 글에서는 K-Means 클러스터링이 무엇인지, 어떻게 동작하는지, 그리고 실전에서 어떻게 활용할 수 있는지 알아보겠습니다. 📊  비지도 학습(Unsupervised Learning) 복습! 🧠비지도 학습은 데이터에 정답(라벨)이 주어지지 않은 상태에서 패턴을 찾는 머신러닝 기법입니다. 즉, 학습 데이터에 대한 명확한 출력 값 없이, 알고리즘이 스스로 데이터의 구조를 분석하고 그룹을 찾는 방식입니다.  🤖 1. K-Means 클.. 2025. 1. 31.
머신러닝 분류 모델 : Decision Tree 1. Decision Tree란?  🌲Decision Tree는 '이것인가, 저것인가?'를 반복해서 결정해 나가며 최종 답을 도출하는 알고리즘입니다. 나무 구조(Tree Structure)처럼 여러 개의 가지가 뻗어나가는 형태로 이루어져 있으며, 이를 통해 복잡한 문제도 단계적으로 해결할 수 있습니다.📌 주요 개념루트 노드(Root Node): 가장 첫 번째 결정이 이루어지는 노드내부 노드(Internal Node): 중간 과정에서 분기되는 노드단말 노드(Leaf Node): 최종적으로 분류된 결과  2. Decision Tree의 작동 원리 🔍Decision Tree는 데이터를 분류(Classification)하거나 값을 예측(Regression)하는 데 활용됩니다. 주요 작동 방식은 다음과 같습.. 2025. 1. 31.
머신러닝 분류 모델 : Support Vector Machine (SVM) 1.🤖 SVM이란?Support Vector Machine(SVM)은 머신러닝의 지도 학습(Supervised Learning) 알고리즘 중 하나로, 주로 분류(Classification) 문제에서 강력한 성능을 발휘합니다.SVM의 기본 개념은 데이터를 선형 혹은 비선형적으로 분류하는 **최적의 결정 경계(Decision Boundary)**를 찾는 것입니다. 이 결정 경계를 **초평면(Hyperplane)**이라고 부르며, SVM은 이 초평면을 데이터의 마진을 최대화하는 방식으로 찾습니다.🍏 실생활 예제: 사과와 오렌지 구분하기 🍊사과와 오렌지를 구분하는 문제를 생각해봅시다. 우리는 크기, 색깔, 무게 등의 특징을 이용해 이 둘을 구별할 수 있습니다.만약 크기와 색깔을 기준으로 한다면, 2차원 공.. 2025. 1. 31.
머신러닝 분류 모델 : K-Nearest Neighbor (KNN) K-Nearest Neighbor (KNN) 알고리즘이란? 🤔KNN 알고리즘은 쉽게 말해 "가까운 친구들끼리 의견을 모아서 결정하는 방식"입니다. 예를 들어, 새로운 음식점을 가려는데 어디가 맛있는지 모를 때 보통 어떻게 하나요? 주변 친구들에게 물어보겠죠!A 친구: "여기 맛있어!"B 친구: "여기도 좋아!"C 친구: "난 여기 추천!"대부분이 추천하는 곳으로 가게 되는 것처럼, KNN도 비슷한 원리로 작동합니다. 즉, 새로운 데이터가 주어지면 가장 가까운 K개의 데이터를 찾아서 다수결로 결정을 내리는 방식입니다. 😊  KNN 알고리즘의 동작 원리 🏃‍♂️KNN은 데이터의 유사도를 기준으로 분류하거나 예측을 수행합니다. 기본적인 과정은 다음과 같습니다.  1️⃣ 거리 측정: 새로운 데이터와 기존 .. 2025. 1. 30.