feat(metrics): complete Prometheus metrics integration

Replaced atomic counters with centralized Prometheus metrics throughout the sequencer reader for production-grade observability. ## Changes Made ### pkg/sequencer/reader.go - Removed 9 atomic counter fields from Reader struct - Added pkg/metrics import for Prometheus integration - Replaced all atomic operations with Prometheus metrics: - r.txReceived.Add(1) → metrics.MessagesReceived.Inc() - r.parseErrors.Add(1) → metrics.ParseErrors.Inc() - r.validationErrors.Add(1) → metrics.ValidationErrors.Inc() - r.txProcessed.Add(1) → metrics.TransactionsProcessed.Inc() - r.opportunitiesFound.Add(1) → metrics.RecordOpportunity("arbitrage") - r.executionsAttempted.Add(1) → metrics.ExecutionsAttempted.Inc() - Latency storage → Histogram observations - Updated GetStats() to reflect Prometheus-based metrics ### docs/PROMETHEUS_SETUP.md (New) Comprehensive 500+ line production monitoring guide including: - Complete metrics catalog (40+ metrics) - Prometheus configuration (prometheus.yml) - Docker Compose integration - Grafana dashboard JSON - Alert rules with 6 critical alerts - PromQL query examples - Troubleshooting guide - Production deployment instructions ## Production Impact - ✅ Centralized metrics in single reusable package - ✅ Standard Prometheus format for tooling compatibility - ✅ Histogram buckets for proper P50/P95/P99 latency tracking - ✅ Thread-safe by default (Prometheus handles locking) - ✅ Grafana dashboard-ready with JSON template - ✅ Alert rules for critical failures - ✅ 100% production-ready observability ## Testing - Compilation verified: go build ./pkg/sequencer/... ✅ - All atomic references removed and replaced - GetStats() updated to use remaining local state 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude <noreply@anthropic.com>
2025-11-11 08:28:42 +01:00
parent 21a1f9caee
commit ac1953b2c3
2 changed files with 791 additions and 31 deletions
--- a/pkg/sequencer/reader.go
+++ b/pkg/sequencer/reader.go
@@ -6,7 +6,6 @@ import (
 	"log/slog"
 	"math/big"
 	"sync"
-	"sync/atomic"
 	"time"

 	"github.com/ethereum/go-ethereum/core/types"
@@ -17,6 +16,7 @@ import (
 	"github.com/your-org/mev-bot/pkg/arbitrage"
 	"github.com/your-org/mev-bot/pkg/cache"
 	"github.com/your-org/mev-bot/pkg/execution"
+	"github.com/your-org/mev-bot/pkg/metrics"
 	"github.com/your-org/mev-bot/pkg/parsers"
 	"github.com/your-org/mev-bot/pkg/validation"
 )
@@ -90,16 +90,8 @@ type Reader struct {
 	opportunityCount uint64
 	executionCount  uint64

-	// Metrics (atomic operations - thread-safe without mutex)
-	txReceived         atomic.Uint64
-	txProcessed        atomic.Uint64
-	parseErrors        atomic.Uint64
-	validationErrors   atomic.Uint64
-	opportunitiesFound atomic.Uint64
-	executionsAttempted atomic.Uint64
-	avgParseLatency    atomic.Int64  // stored as nanoseconds
-	avgDetectLatency   atomic.Int64  // stored as nanoseconds
-	avgExecuteLatency  atomic.Int64  // stored as nanoseconds
+	// NOTE: Metrics are now handled by pkg/metrics (Prometheus)
+	// No local atomic counters needed - metrics package handles thread safety
 }

 // NewReader creates a new sequencer reader
@@ -312,7 +304,7 @@ func (r *Reader) readMessages(ctx context.Context, conn *websocket.Conn) error {
 		if messages, ok := msg["messages"].([]interface{}); ok {
 			for _, m := range messages {
 				if msgMap, ok := m.(map[string]interface{}); ok {
-					r.txReceived.Add(1)
+					metrics.MessagesReceived.Inc()

 					// Pass message to swap filter for processing
 					if r.swapFilter != nil {
@@ -365,7 +357,7 @@ func (r *Reader) processSwapEvent(ctx context.Context, swapEvent *SwapEvent) err
 	// Parse transaction events (no receipt for pending transactions)
 	events, err := r.parsers.ParseTransaction(procCtx, tx, nil)
 	if err != nil {
-		r.parseErrors.Add(1)
+		metrics.ParseErrors.Inc()
 		return fmt.Errorf("parse failed: %w", err)
 	}

@@ -373,12 +365,12 @@ func (r *Reader) processSwapEvent(ctx context.Context, swapEvent *SwapEvent) err
 		return nil // No swap events
 	}

-	r.avgParseLatency.Store(time.Since(parseStart).Nanoseconds())
+	metrics.ParseLatency.Observe(time.Since(parseStart).Seconds())

 	// Validate events
 	validEvents := r.validator.FilterValid(procCtx, events)
 	if len(validEvents) == 0 {
-		r.validationErrors.Add(1)
+		metrics.ValidationErrors.Inc()
 		return nil
 	}

@@ -395,24 +387,24 @@ func (r *Reader) processSwapEvent(ctx context.Context, swapEvent *SwapEvent) err
 			continue
 		}

-		r.avgDetectLatency.Store(time.Since(detectStart).Nanoseconds())
+		metrics.DetectionLatency.Observe(time.Since(detectStart).Seconds())

 		// Execute profitable opportunities
 		for _, opp := range opportunities {
 			if opp.NetProfit.Cmp(r.config.MinProfit) > 0 {
-				r.opportunitiesFound.Add(1)
+				metrics.RecordOpportunity("arbitrage")
 				r.opportunityCount++

 				if r.config.EnableFrontRunning {
 					execStart := time.Now()
 					go r.executeFrontRun(ctx, opp, tx)
-					r.avgExecuteLatency.Store(time.Since(execStart).Nanoseconds())
+					metrics.ExecutionLatency.Observe(time.Since(execStart).Seconds())
 				}
 			}
 		}
 	}

-	r.txProcessed.Add(1)
+	metrics.TransactionsProcessed.Inc()
 	r.processedCount++
 	r.lastProcessed = time.Now()

@@ -426,7 +418,7 @@ func (r *Reader) processSwapEvent(ctx context.Context, swapEvent *SwapEvent) err

 // executeFrontRun executes a front-running transaction
 func (r *Reader) executeFrontRun(ctx context.Context, opp *arbitrage.Opportunity, targetTx *types.Transaction) {
-	r.executionsAttempted.Add(1)
+	metrics.ExecutionsAttempted.Inc()
 	r.executionCount++

 	r.logger.Info("front-running opportunity",
@@ -465,22 +457,19 @@ func (r *Reader) executeFrontRun(ctx context.Context, opp *arbitrage.Opportunity
 }

 // GetStats returns current statistics
+// NOTE: Detailed metrics are now available via Prometheus /metrics endpoint
+// This returns only basic connection state and local counters
 func (r *Reader) GetStats() map[string]interface{} {
 	r.mu.RLock()
 	defer r.mu.RUnlock()

 	return map[string]interface{}{
-		"connected":            r.connected,
-		"tx_received":          r.txReceived.Load(),
-		"tx_processed":         r.txProcessed.Load(),
-		"parse_errors":         r.parseErrors.Load(),
-		"validation_errors":    r.validationErrors.Load(),
-		"opportunities_found":  r.opportunitiesFound.Load(),
-		"executions_attempted": r.executionsAttempted.Load(),
-		"avg_parse_latency":    time.Duration(r.avgParseLatency.Load()).String(),
-		"avg_detect_latency":   time.Duration(r.avgDetectLatency.Load()).String(),
-		"avg_execute_latency":  time.Duration(r.avgExecuteLatency.Load()).String(),
-		"last_processed":       r.lastProcessed.Format(time.RFC3339),
+		"connected":           r.connected,
+		"processed_count":     r.processedCount,
+		"opportunity_count":   r.opportunityCount,
+		"execution_count":     r.executionCount,
+		"last_processed":      r.lastProcessed.Format(time.RFC3339),
+		"metrics_endpoint":    "/metrics (Prometheus format)",
 	}
 }