Data Infrastructure

Google Cloud가 공개한 Open Knowledge Format(OKF) v0.1을 데이터 카탈로그, LLM Wiki, 에이전트 컨텍스트 공유 관점에서 정리한다. 핵심은 새 지식 서비스가 아니라 Markd...

Sangmin Lee2026.06.15

if(kakao)2020 발표를 바탕으로, 카카오페이가 로그 중심 장애 감지에서 RED 지표, Grafana 대시보드, 온콜 프로세스, Prometheus Federation과 Thanos 기반 메트릭 저장소 확...

Sangmin Lee2026.06.10

if(kakao)2020의 GroundX DevOps 발표는 Klip·KAS 인프라를 고가용성, 보안, 개발 속도라는 세 조건 아래 Terraform 모듈과 EKS/Kubernetes 런타임으로 나눈 실제 운영...

Sangmin Lee2026.06.10

if(kakao)2020의 카카오페이 발표는 이상거래 탐지를 단일 ML 분류기가 아니라 Kafka·Akka 기반 실시간 룰 엔진, Redis/Druid 피처 저장, 모델 인퍼런스, 계좌 그래프, 헬릭스형 행동 피...

Sangmin Lee2026.06.10

if(kakao)2020의 카카오 Kubernetes 도입 발표는 엔터프라이즈 클러스터 운영의 핵심이 설치 자동화가 아니라 CMDB, 이벤트, SLA, 온콜, 자동화까지 이어지는 ITSM 통합이라는 점을 보여준다...

Sangmin Lee2026.06.10

Meta FAIR의 Autodata는 Self-Instruct식 단발 생성이 아니라, 약한 모델과 강한 모델의 성능 격차를 직접 최적화하는 에이전트형 데이터 과학자 루프로 합성 데이터 품질을 끌어올린다.

Sangmin Lee2026.05.14

Argilla는 단순 주석 UI가 아니라 Python SDK, self-hosted 서버, 협업용 데이터셋 스키마를 결합해 human feedback 루프를 운영 가능한 데이터 워크벤치로 바꾼다.

Sangmin Lee2026.05.06

Distilabel의 Tutorials 섹션은 synthetic data framework를 단순 SDK가 아니라 ORPO·DPO·retrieval·judge·structured generation 실험을 바로...

Sangmin Lee2026.05.06

데이터 중심 AI 시대에는 좋은 모델보다 좋은 데이터 파이프라인이 더 큰 차이를 만든다. DataFlow는 생성, 평가, 필터링, 정제를 하나의 실행 가능한 시스템으로 묶는다.

Sangmin Lee2026.05.06

합성 데이터의 품질은 더 좋은 프롬프트 한 줄보다 컬럼 간 상관관계, 검증, 반복 가능한 생성 파이프라인에서 결정된다.

Sangmin Lee2026.05.06