
암호화폐 데이터 수집·분석 플랫폼
거래소 실시간 및 과거 거래 데이터를 자동으로 수집·저장하고, AI와 연결하여 자연어 기반 시장 분석까지 수행하는 엔터프라이즈급 데이터 파이프라인. ClickHouse 기반 고성능 시계열 DB에 수천억 건의 레코드를 관리하며, MCP 브릿지를 통해 AI가 직접 데이터를 분석합니다.
프로젝트 개요
수천억 건의 암호화폐 거래 데이터를 수집하고, 이를 AI와 직접 연결하여 기관 투자자 수준의 시장 분석을 수행하는 데이터 파이프라인입니다. MCP(Model Context Protocol) 브릿지를 통해 AI가 수집된 데이터에 직접 SQL 쿼리를 실행하고, 자연어 한 줄로 수년치 가격 패턴 분석, 백테스팅, 거래량 상관관계 분석 등 복잡한 시장 분석을 즉시 수행합니다. 거래소 API와 WebSocket으로 실시간 데이터를 수집하고, 과거 데이터 아카이브에서 일별/월별 데이터를 자동 다운로드하여 ClickHouse 시계열 데이터베이스에 적재합니다. aggTrades(집계 거래), trades(개별 거래), klines(캔들스틱) 등 다양한 데이터 타입을 지원하며, 1초봉부터 월봉까지 16개 캔들 주기를 동시에 수집합니다.
주요 기능
실시간 데이터 수집 파이프라인
WebSocket을 통해 aggTrade와 16개 캔들 주기(1초~1개월)를 실시간으로 수집합니다. 심볼별 독립 프로세스로 격리 운영되어 하나의 수집 실패가 다른 심볼에 영향을 주지 않으며, PID 파일 기반 중복 실행 방지와 자동 재연결 메커니즘을 탑재했습니다.
100건 단위 배치 삽입과 asyncio 기반 비동기 처리로 네트워크 부하를 최소화하고, SIGTERM 시그널을 통한 그레이스풀 종료로 데이터 유실을 방지합니다. YAML 설정 파일로 심볼별 활성화 여부와 수집 스트림을 유연하게 관리할 수 있습니다.
통합 관리 대시보드
웹 기반 관리 인터페이스에서 시스템 전체를 모니터링하고 제어합니다. 대시보드 메인에서 시스템 상태, 수집 통계(총 레코드 수, 저장 용량), 실행 중인 작업을 한눈에 파악할 수 있으며, 데이터 센터 탭에서 과거 데이터 수집 시작, 실시간 수집 제어, 데이터 검증, 삭제 관리를 수행합니다.
섹션 기반 UI 아키텍처를 적용하여 탭 클릭 시에만 해당 데이터를 로드하는 지연 로딩 방식으로 초기 로드 성능을 최적화했습니다. 사용자 관리, 권한 설정, API 키 관리, 실시간 로그 스트리밍 뷰어까지 포함한 종합 관리 도구입니다.
데이터 검증 및 갭 자동 복구
15개 항목의 포괄적인 데이터 품질 검증을 수행합니다. Quick(기본 3개), Standard(표준 7개), Thorough(전체 16개) 프리셋으로 검사 범위를 선택할 수 있으며, 데이터 존재 여부, ID 연속성, 시간 갭 탐지, trades-aggTrades 간 교차 검증, 중복 검출, 캔들 연속성, 거래소 실시간 비교, 가격 이상 감지 등을 포함합니다.
각 검사 항목은 독립적인 메모리 안전 모드를 지원하여 수천억 건의 대용량 데이터에서도 메모리 초과 없이 검증이 가능합니다. 하단의 갭 검사 & 채우기 기능에서는 aggTrades, trades, klines 테이블별로 누락 구간을 자동 탐지하고, 1초봉부터 월봉까지 16개 캔들 간격을 선택하여 정밀 검사한 뒤, 거래소 API를 통한 자동 채우기(Auto-Fill)로 데이터 완전성을 보장합니다.
과거 데이터 대량 수집
거래소 데이터 아카이브에서 일별/월별 단위로 과거 거래 데이터를 대량 다운로드하여 적재합니다. 심볼, 데이터 타입(Trades/AggTrades/Klines), 수집 모드(일간/월간/스마트)를 선택하고 날짜 범위를 지정하면, 시스템이 자동으로 ZIP 파일 다운로드 → 체크섬 검증 → 압축 해제 → ClickHouse 적재를 수행합니다.
실시간 프로그레스바와 로그 스트리밍으로 수집 진행 상황을 모니터링하며, 스마트 모드에서는 가장 오래된 데이터부터 현재까지 자동으로 수집하면서 갭을 감지하고 채워줍니다. 대량 CSV 데이터는 청크 단위 배치 삽입과 자동 중복 제거(Dedup)로 효율적으로 처리합니다.
스케줄러 및 자동화 시스템
크론 기반 작업 스케줄러로 데이터 수집, 검증, 정리 작업을 자동으로 예약하고 실행합니다. 기본 예약 작업으로 매일 자정 거래 데이터 수집, 30분 간격 무결성 검사, 새벽 3시 로그 정리(30일 이상)가 자동으로 설정됩니다.
REST API를 통한 스케줄 작업 추가/제거/조회가 가능하며, 대시보드에서 직관적으로 작업 현황을 모니터링합니다. 텔레그램 봇 연동으로 수집 상태, 오류 알림, 리포트를 원격으로 수신할 수 있습니다.
AI 연동 — MCP 브릿지 시스템
이 시스템의 핵심 가치는 단순한 데이터 수집이 아닌, 수집된 수천억 건의 데이터를 AI가 직접 분석한다는 점입니다. MCP(Model Context Protocol) 브릿지를 통해 Claude, ChatGPT 등 AI가 SQL 쿼리를 실행하여 데이터에 직접 접근합니다. "지난 3개월간 BTC가 저항선을 돌파할 때마다의 거래량 패턴을 분석해줘"와 같은 자연어 한 줄로 수년치 데이터를 기반으로 한 정밀 분석 리포트를 즉시 생성합니다. 40개 이상의 전문 트레이딩 분석 프롬프트 가이드를 포함하며, 멀티 타임프레임 복합 분석, 백테스팅, 기술적 지표 계산까지 AI가 자동으로 수행합니다.
보안 및 인증 체계
JWT 기반 다단계 권한 관리 시스템으로 일반 사용자, 관리자, 슈퍼 관리자 역할을 분리합니다. 데이터 삭제는 3단계 보안(super_admin 권한 + DELETE-CONFIRM 확인 + 7일 최근 데이터 보호)을 거쳐야 하며, 삭제 이력은 90일간 보존됩니다. Exchange API 키는 암호화하여 저장하고, CORS 정책과 Rate Limiting으로 API를 보호합니다.
Tech Stack
Highlights
- WebSocket 실시간 17개 스트림 동시 수집
- MCP 브릿지 AI 연동 — 자연어 시장 분석
- 15개 항목 데이터 무결성 자동 검증
Architecture
Python 3.9+ / FastAPI 비동기 서버 / ClickHouse 시계열 DB (월별 파티셔닝, ReplacingMergeTree) / SQLite 인증 DB / WebSocket 실시간 스트리밍 / Docker 컨테이너 배포 / Chart.js 데이터 시각화 / Bootstrap 5.3 관리 UI / JWT 다단계 인증 / MCP Bridge AI 연동 / 70+ REST API 엔드포인트 / asyncio 비동기 처리