AI와 함께하는 FPJR 실시간 메트릭 모니터링: 24시간 깨어있는 금융 플랫폼의 신경망 구축기
지난 포스팅에서는 FPJR(Financial Platform Journey Revamp) 프로젝트를 통해 AFINIT이 어떻게 복잡한 금융 도메인을 구조화하고, AI 매칭 시스템을 통해 고객에게 투명한 금융 여정을 제공하게 되었는지 소개했습니다.
FPJR이 '골격(Architecture)'과 '두뇌(AI Decisioning)'를 갖춘 플랫폼이라면, 이제 필요한 것은 이 시스템이 건강하게 숨 쉬고 있는지 지켜보는 '신경망(Monitoring)'입니다. 아무리 훌륭한 아키텍처라도 실제 라이브 환경에서는 예기치 못한 이슈가 발생하기 마련이니까요.
이번 글에서는 FPJR 런칭 이후, 안정적인 서비스 운영과 비즈니스 임팩트 보호를 위해 AFINIT Product팀이 어떻게 AI 기술을 활용하여 PM Self-served '실시간 메트릭 모니터링 시스템'을 구축했는지 그 과정을 공유하고자 합니다.
1. Impact First: "매출 하락, 하루 뒤에 알 것인가 30분 안에 알 것인가"
다수의 금융 파트너와 연결된 복잡한 퍼널(Funnel)에서는 작은 배포 오류나 외부 파트너사의 이슈가 곧바로 그 날의 매출하락으로 이어질 수 있습니다.
과거 FPJR을 배포한 직후 저희의 퍼널 모니터링 시스템은 하루 단위로 작동했습니다. 예를 들어, 금요일 오후에 발생한 매출 하락 이슈를 토요일 오전에 데이터 배치가 돌아 인식하고, 토요일 오후가 되어서야 해결된 경우가 있었죠. 문제를 발견하고 해결하기까지 하루 이상 소요되었고, 그 시간만큼의 매출 손실이 발생했습니다.
저희는 이 간극을 줄이기 위해 명확한 목표를 세웠습니다. "문제 발생 후 30분 이내 인지, 2시간 이내 해결."
이 목표를 달성하기 위해 도입한 것이 바로 우리가 병원을 갔을때 익숙하게 경험할 수 있는 'X-ray와 MRI 전략’입니다.
• X-ray (실시간 알림): "지금 시스템 뼈대에 금이 갔나?"를 30분마다 빠르게 찍어 봅니다. 사내에 구축된 SQL output을 Slack에 스케쥴에 따라 전달해주는 Data Delivery Man이 데이터를 배달하면, AI로 만든 Agent가 이를 1차 식별하여 이상 징후를 즉시 Slack 멘션으로 알립니다.
• MRI (정밀 대시보드): AI로 만든 Agent가 Slack멘션을 보내면, "정확히 어디가, 왜 아픈가?"를 파악하기 위해 데이터를 깊게 쪼개서 봅니다. 실시간 Kibana 대시보드 그래프와 Tableau 대시보드에 시각화한 각 세부 퍼널의 메트릭을 통해 원인을 정밀 분석(Validate)합니다.
이 전략 덕분에 저희는 문제 발견(Discovery)과 원인 파악(Validate) 시간을 획기적으로 앞당길 수 있었습니다.
2. The Core Strategy: 모니터링 구축의 난제를 뚫는 열쇠, 'AI 프롬프트 엔지니어링 3요소'
전략은 명확했지만, 구현은 또 다른 문제였습니다. FPJR로 인해 방대해진 데이터 스키마와 복잡한 로직을 모니터링하기 위해 수십 개의 SQL 쿼리와 Kibana 시각화 코드를 직접 짜는 것은 막대한 리소스가 드는 일이었죠.
우리는 이 생산성의 한계를 AI 툴(Cursor, Gemini, 사내 슬랙 Sidekick Agent - a.k.a. 꼬부기)을 통해 돌파했습니다. 그리고 이 과정에서 AI를 우리 팀의 숙련된 동료로 만드는 프롬프트 엔지니어링의 핵심 3요소를 정립했습니다. 아래의 핵심 3요소는 Claude 공식문서에 ‘Prompting best practices’에서도 제가 정말 중요하다고 생각한 요소를 정리하여 적용한 내역입니다.
① 구체적인 지시 (Specific Instruction)
AI에게 모호함은 적입니다. 보고싶은 매트릭을 정의하고, 제가 원하는 결과물을 AI에게 아래와 같이 구체적으로 하나하나 알려줬습니다. SQL query를 작성하기 위한 Cursor에서도, 단순 슬랙 봇을 ‘꼬부기’라는 이름의 Monitoring Agent로 변환시키기 위한 바이브 코딩을 하기 위해서도, 이 구체적인 지시는 필수적입니다.
• "SQL Query를 changeDB(CDC)를 활용해서 만들고 싶어. 내가 보고 싶은 메트릭은 Applied, SMS CL Approved 등이야."
• "@sidekick-observer, 매시 5분, 35분마다 최근 도착한 사용자 세그먼트 기반 메시지를 읽고 문제가 생기면 알려줘."
② 결과물 예시 제공 (Example Output)
명확한 포맷이 있는 결과물 예시 AI가 뱉어낼 결과물의 형식을 미리 지정해 주면 수정하는 시간을 획기적으로 줄일 수 있습니다.
• "최종 결과물 예시는 @SlackMonitorService.java에서 뽑으려고 하는 시간별 메트릭 포맷이야."
• "위는 내가 만든 Timelion expression 예시인데, 이와 같은 문법 구조로 쿼리를 짜줘."
③ 충분한 배경정보 (Context) — The Most Critical Factor
가장 중요한 것은 AI에게 '맥락'을 심어주는 것입니다. FPJR 프로젝트로 인해 테이블 구조가 어떻게 변했는지, 특정 용어가 우리 회사에서 어떤 의미로 쓰이는지 AI에게 사전에 학습시켰습니다. 테이블 스키마 또한 미리 txt파일로 만들고, 맥락을 .md파일로 정리해두었습니다.
• "테이블 스키마는 @fpjr_table_ddl.txt를 참고해. 최근 FPJR로 비즈니스 플로우가 바뀌었는데, 변경된 로직은 첨부 문서를 참고해."
• "이 메시지에서 total은 모든 숫자고, new_user는 CL Closed 이력이 없는 유저야. 이 맥락을 기억하고 이상 징후를 판단해."
위 세가지 프롬프트 핵심 요소를 통해, 실제로 작동하는 SQL query, Kibana query, 슬랙 채널 내 모니터링 봇 (꼬부기) 을 순식간에 만들 수 있었습니다. 제가 해야할 일은 오직 로직 검증과, 결과 검증 뿐이었습니다. 앞으로, AI가 실행을 담당해주기 때문에, 기획과 기획에 대한 정확한 검증이 더욱 중요해지는 시대가 된 것 같습니다.
3. Implementation: AI 툴로 완성한 빈틈없는 모니터링
이 3가지 원칙을 바탕으로 우리는 다양한 AI 도구를 적재적소에 투입하여 모니터링 시스템을 완성했습니다.
Case 1. Cursor AI로 SQL Query '딸깍' 완성하기
복잡한 금융 퍼널 데이터를 추출하기 위한 SQL 작성 시간을 Cursor AI를 통해 획기적으로 단축했습니다. 스키마 정보(Context)와 추출 목표(Instruction)만 입력하면, 실행 가능한 쿼리가 즉시 생성되어 Data Delivery Man이 사용할 수 있게 됩니다.
Case 2. Sidekick (a.k.a 꼬부기)과 함께하는 초개인화 모니터링
슬랙 채널(#tc_fpjr_monitor)에는 Sidekick Monitoring Agent가 살고 있습니다. 이 친구는 30분마다 올라오는 데이터를 읽고, 사전에 학습된 비즈니스 컨텍스트를 바탕으로 "신규 유저 세그먼트에서 이상 징후가 보인다"고 판단하면 즉시 담당자(@Dennis)를 태그하여 알립니다. 덕분에 저희는 모니터링 화면을 24시간 쳐다보고 있을 필요가 없어졌습니다.
Case 3. Gemini로 Kibana Query 정복하기 (MRI 구축)
실시간 로그 분석을 위한 Kibana 쿼리(TimeLion 등)는 배우기 까다롭기로 유명합니다. 저희는 Gemini에게 "실시간 Loan Application Count를 과거 데이터와 비교하면서 지금이 정상인지 확인할 수 있는 쿼리를 짜줘"라고 요청했습니다. Gemini가 짜준 정확한 쿼리 덕분에 우리는 고도화된 MRI(정밀 대시보드)를 손쉽게 구축할 수 있었습니다.
4. 마치며: AI for Productivity Innovation
이 프로젝트를 통해 우리가 얻은 가장 큰 수확은 단순히 '모니터링 시스템'을 만든 것이 아닙니다. 바로 일하는 방식의 혁신입니다.
저는 AFINIT의 Funnel, Risk 담당 프로덕트 매니저(PM)로서 데이터 추출(SQL), 단순 모니터링, 지표 트래킹과 같은 반복 업무에 하루의 절반을 쓰는 경우가 많았습니다. 반복 업무지만 안정적인 성장을 위해 매우 중요한 일이기 때문이었죠. 하지만 이제 AI로 워크플로우를 정의하고 실행한 뒤, AI를 통해 쿼리를 짜고, 코드를 생성하며, 모니터링 시스템을 구축하여 반복 업무 비중을 획기적으로 낮추며 동시에 안정성도 갖출 수 있게 되었습니다.
덕분에 저는 AI를 통해 Scalability를 붙잡는 반복 업무에서 벗어나 Discovery(유저 리서치), Validate(임팩트 측정), Strategy(방향성 논의)와 같은 고부가가치 업무에 더욱 집중할 수 있는 환경을 만들게 되었습니다.
더욱이 이제 SQL 작성뿐만 아니라 Dynamic Rule 배포, Jira 요구사항 분석 등 다양한 영역에서 Self-served AI workflow를 현업에 적용하고 있습니다. 향후 블로그 글에서 PM으로서 이러한 AI 활용사례를 하나하나씩 연재해보도록 노력해보겠습니다.
AFINIT은 이러한 AI 활용사례를 통해 FPJR이라는 강력한 플랫폼 위에서, AI Workflow가 만들어내는 빠른 속도와 효율성 향상으로 금융 혁신을 만들어가고 있습니다. 이 혁신적인 AI 모니터링 시스템 구축을 위해 함께 고민해 주시고, Self-served 피쳐를 실행하는데 도움을 주신 Peter Kim, Jack Yoon과 데이터 엔지니어링 측면에서 많은 도움을 주신 Jess Jang, Gray Yoon 님께 특별한 감사를 전합니다.
감사합니다.