About
한국어
저는 데이터 엔지니어링에서 "왜 이 설계가 필요한가"를 먼저 고민합니다. 정답처럼 보이는 기술보다, 현재 문제를 가장 안정적으로 해결하는 구조를 선택하려고 합니다.
대표적으로 COSMOS 프로젝트에서는 대규모 시계열 데이터의 중복 저장 문제를 해결하며 저장 비용을 최대 96% 절감하고, 쿼리 성능을 최대 40배 향상시켰습니다.
Projects
이 페이지는 제가 진행한 프로젝트의 배경, 설계 선택, 그리고 결과를 정리합니다.
- flow-reactor: 시나리오 기반 데이터 파이프라인 프로젝트로, Kafka/Flink/Spark/MinIO 구성을 단계적으로 고도화하며 처리량과 안정성의 균형을 검증했습니다.
- COSMOS: 대규모 시계열 데이터에서 중복 저장과 조회 병목을 줄이기 위해 B+Tree와 Bloom Filter 기반 인덱싱 전략을 설계했고, 저장 용량 최대 96% 절감, 쿼리 성능 최대 40배 향상 성과를 만들었습니다.
- Alpaco: LLM 기반 문제 생성/자동 채점 서비스로, AWS Bedrock/Lambda/DynamoDB/Terraform을 활용해 운영 흐름을 자동화했고, 캡스톤 디자인 경진대회 대상(1위)을 수상했습니다.
이 블로그에는 구현 결과보다 의사결정의 근거, 트레이드오프, 그리고 운영 중에 배운 교훈을 중심으로 기록합니다.
문의 및 협업 제안은 LinkedIn으로 부탁드립니다.
English
I focus on one core question in data engineering: why this design should exist here. I prefer justified architecture over trendy tooling.
In the COSMOS project, I reduced storage usage by up to 96% and improved query performance by up to 40x while addressing duplication in large time-series data, including up to 96% storage reduction.
Projects
- flow-reactor: A scenario-driven data pipeline project where I iteratively evolved a Kafka/Flink/Spark/MinIO stack to balance throughput and reliability.
- COSMOS: An indexing-focused project for large time-series workloads, using B+Tree and Bloom Filter strategies to reduce duplication and query bottlenecks, with up to 96% storage reduction and 40x faster query response.
- Alpaco: An LLM-based problem generation and auto-grading service, built with AWS Bedrock, Lambda, DynamoDB, and Terraform to automate operations, and awarded 1st place in a capstone design competition.
I share rationale, trade-offs, and operational lessons rather than only final outputs.
For collaborations or inquiries, please contact me via LinkedIn.