Troubleshooting — CDC Kafka Lag¶
Gejala¶
- Dashboard migrasi-ui menunjukkan lag naik terus
- Dashboard KPI tertinggal dari operasional PG
Diagnosis¶
- Cek consumer hidup:
pm2 status clickhouse-etl - Cek log consumer: error INSERT, schema mismatch, DLQ
- Lag per topik: migrasi-ui atau
kafka-consumer-groups --describe - Throughput: bandingkan
BATCH_SIZE/FLUSH_INTERVAL(database/TODO)
Penyebab umum¶
| Penyebab | Tindakan |
|---|---|
| Consumer down | pm2 restart clickhouse-etl |
| Kolom PG baru tanpa CH | Stop consumer → migrasi CH → PG → start |
| Bulk load PG besar | Tunggu atau pause connector sementara (koordinasi) |
| Tuning batch terlalu kecil | Naikkan BATCH_SIZE (uji di DEV) |
Replay (hati-hati)¶
- DEV:
kafka_replaydi migrasi-ui — bisa duplikat di CH tanpa purge - PROD: tenant-scoped job — OPERATING_MODEL.md