본문 바로가기
프로그램 활용/인공지능(AI)

AI 시스템 도입 사전 작업 정리

by 3604 2025. 3. 26.
728x90
AI 시스템 도입 사전 작업 정리
 

기존 레거시 시스템에 AI 시스템을 효과적으로 도입하기 위해서는 체계적인 사전 작업이 필요합니다. 다음은 각 단계별로 구체화된 필수 준비 사항입니다.


1. 데이터 표준화 및 전처리

  • 문서 표준화
    • 파일 형식 통일 (PDF, DOCX → Markdown 또는 구조화된 JSON/XML)
    • 메타데이터 추가 (작성자, 생성일, 키워드, 버전 관리)
    • 텍스트 정제 (불필요한 헤더/푸터, 특수문자, 중복 데이터 제거)
  • 데이터 파이프라인 구축
    • ETL(Extract-Transform-Load) 프로세스 설계 (예: Apache NiFi, Airflow)
    • 비정형 데이터 → 정형 데이터 변환 (OCR 적용, 테이블 데이터 추출)

2. 벡터 데이터베이스(Vector DB) 도입 준비

  • 임베딩 모델 선정
    • 텍스트: OpenAI Embeddings, BERT, Sentence-BERT
    • 이미지: CLIP, ResNet
    • 멀티모달: OpenAI의 다중 임베딩 지원 모델
  • 벡터DB 선택 및 최적화
    • ChromaDB: 경량화된 오픈소스 (초기 도입 추천)
    • Milvus/Pinecone: 대규모 데이터 및 클라우드 지원
    • 인덱싱 전략 (HNSW, IVF-PQ) 적용 및 성능 테스트
  • 기존 DB와의 연동
    • RDBMS(MySQL, PostgreSQL) ↔ 벡터DB 동기화 (CDC 도구 활용)
    • 하이브리드 쿼리 지원 (SQL + 벡터 검색)

3. 문서 구조화 및 Markdown 변환

  • Markdown 템플릿 정의
  • markdown
    Copy
    ## [제목]  
    **카테고리**: [분류]  
    **최종 업데이트**: YYYY-MM-DD  
    ---  
    ### 개요  
    - [내용]  
    ### 참조 링크  
    - [URL]  
  • 변환 자동화 도구
    • Pandoc, Turndown (HTML → Markdown)
    • 커스텀 파이썬 스크립트 (정규표현식 기반 필터링)

4. AI 모델 연동 인프라 구축

  • API 게이트웨이 설계
    • REST/gRPC 인터페이스 표준화 (Swagger/OpenAPI 명세)
    • 모델 버전 관리 (MLflow, Kubeflow)
  • 실시간 처리 vs 배치 처리
    • 실시간: FastAPI + Redis 큐
    • 배치: Apache Spark + 분산 처리

5. 보안 및 권한 관리

  • 데이터 접근 제어
    • RBAC(Role-Based Access Control) 적용 (예: Keycloak)
    • 벡터DB 암호화 (클라이언트 사이드 암호화)
  • AI 모델 감사
    • 입력/출력 로깅 (GDPR/CCPA 준수)

6. 모니터링 및 유지보수

  • 대시보드 구축
    • Grafana + Prometheus: 임베딩 처리 속도, 검색 정확도 추적
    • 로그 집계 (ELK Stack)
  • Drift 감지
    • 데이터 분포 변경 시 알림 (Evidently, Arize)

추천 작업 순서

  1. 데이터 클렌징 → 2. Markdown 표준화 → 3. 임베딩 파이프라인 구축 → 4. 벡터DB PoC → 5. 전체 시스템 연동 테스트

이 단계를 통해 레거시 시스템의 데이터가 AI 모델이 이해할 수 있는 구조로 변환되고, 효율적인 검색/추론이 가능해집니다.

 

728x90