open-nomad/nomad/drainer/watch_nodes.go

package drainer

import (
	"context"
	"time"

	log "github.com/hashicorp/go-hclog"
	memdb "github.com/hashicorp/go-memdb"

	"github.com/hashicorp/nomad/nomad/state"
	"github.com/hashicorp/nomad/nomad/structs"
	"golang.org/x/time/rate"
)

// DrainingNodeWatcher is the interface for watching for draining nodes.
type DrainingNodeWatcher interface{}

// TrackedNodes returns the set of tracked nodes
func (n *NodeDrainer) TrackedNodes() map[string]*structs.Node {
	n.l.RLock()
	defer n.l.RUnlock()

	t := make(map[string]*structs.Node, len(n.nodes))
	for n, d := range n.nodes {
		t[n] = d.GetNode()
	}

	return t
}

// Remove removes the given node from being tracked
func (n *NodeDrainer) Remove(nodeID string) {
	n.l.Lock()
	defer n.l.Unlock()

	// TODO test the notifier is updated
	// Remove it from being tracked and remove it from the dealiner
	delete(n.nodes, nodeID)
	n.deadlineNotifier.Remove(nodeID)
}

// Update updates the node, either updating the tracked version or starting to
// track the node.
func (n *NodeDrainer) Update(node *structs.Node) {
	n.l.Lock()
	defer n.l.Unlock()

	if node == nil {
		return
	}

	draining, ok := n.nodes[node.ID]
	if !ok {
		draining = NewDrainingNode(node, n.state)
		n.nodes[node.ID] = draining
	} else {
		// Update it
		draining.Update(node)
	}

	// TODO test the notifier is updated
	if inf, deadline := node.DrainStrategy.DeadlineTime(); !inf {
		n.deadlineNotifier.Watch(node.ID, deadline)
	} else {
		// There is an infinite deadline so it shouldn't be tracked for
		// deadlining
		n.deadlineNotifier.Remove(node.ID)
	}

	// TODO Test this
	// Register interest in the draining jobs.
	jobs, err := draining.DrainingJobs()
	if err != nil {
		n.logger.Error("error retrieving draining jobs on node", "node_id", node.ID, "error", err)
		return
	}
	n.logger.Trace("node has draining jobs on it", "node_id", node.ID, "num_jobs", len(jobs))
	n.jobWatcher.RegisterJobs(jobs)

	// TODO Test at this layer as well that a node drain on a node without
	// allocs immediately gets unmarked as draining
	// Check if the node is done such that if an operator drains a node with
	// nothing on it we unset drain
	done, err := draining.IsDone()
	if err != nil {
		n.logger.Error("failed to check if node is done draining", "node_id", node.ID, "error", err)
		return
	}

	if done {
		// Node is done draining. Stop remaining system allocs before
		// marking node as complete.
		remaining, err := draining.RemainingAllocs()
		if err != nil {
			n.logger.Error("error getting remaining allocs on drained node", "node_id", node.ID, "error", err)
		} else if len(remaining) > 0 {
			future := structs.NewBatchFuture()
			n.drainAllocs(future, remaining)
			if err := future.Wait(); err != nil {
				n.logger.Error("failed to drain remaining allocs from done node", "num_allocs", len(remaining), "node_id", node.ID, "error", err)
			}
		}

		// Create the node event
		event := structs.NewNodeEvent().
			SetSubsystem(structs.NodeEventSubsystemDrain).
			SetMessage(NodeDrainEventComplete)

		index, err := n.raft.NodesDrainComplete([]string{node.ID}, event)
		if err != nil {
			n.logger.Error("failed to unset drain for node", "node_id", node.ID, "error", err)
		} else {
			n.logger.Info("node completed draining at index", "node_id", node.ID, "index", index)
		}
	}
}

// nodeDrainWatcher is used to watch nodes that are entering, leaving or
// changing their drain strategy.
type nodeDrainWatcher struct {
	ctx    context.Context
	logger log.Logger

	// state is the state that is watched for state changes.
	state *state.StateStore

	// limiter is used to limit the rate of blocking queries
	limiter *rate.Limiter

	// tracker is the object that is tracking the nodes and provides us with the
	// needed callbacks
	tracker NodeTracker
}

// NewNodeDrainWatcher returns a new node drain watcher.
func NewNodeDrainWatcher(ctx context.Context, limiter *rate.Limiter, state *state.StateStore, logger log.Logger, tracker NodeTracker) *nodeDrainWatcher {
	w := &nodeDrainWatcher{
		ctx:     ctx,
		limiter: limiter,
		logger:  logger.Named("node_watcher"),
		tracker: tracker,
		state:   state,
	}

	go w.watch()
	return w
}

// watch is the long lived watching routine that detects node changes.
func (w *nodeDrainWatcher) watch() {
	nindex := uint64(1)
	for {
		w.logger.Trace("getting nodes at index", "index", nindex)
		nodes, index, err := w.getNodes(nindex)
		w.logger.Trace("got nodes at index", "num_nodes", len(nodes), "index", nindex, "error", err)
		if err != nil {
			if err == context.Canceled {
				w.logger.Trace("shutting down")
				return
			}

			w.logger.Error("error watching node updates at index", "index", nindex, "error", err)
			select {
			case <-w.ctx.Done():
				w.logger.Trace("shutting down")
				return
			case <-time.After(stateReadErrorDelay):
				continue
			}
		}

		// update index for next run
		nindex = index

		tracked := w.tracker.TrackedNodes()
		for nodeID, node := range nodes {
			newDraining := node.DrainStrategy != nil
			currentNode, tracked := tracked[nodeID]

			switch {
			// If the node is tracked but not draining, untrack
			case tracked && !newDraining:
				w.logger.Trace("tracked node is no longer draining", "node_id", nodeID)
				w.tracker.Remove(nodeID)

				// If the node is not being tracked but is draining, track
			case !tracked && newDraining:
				w.logger.Trace("untracked node is draining", "node_id", nodeID)
				w.tracker.Update(node)

				// If the node is being tracked but has changed, update:
			case tracked && newDraining && !currentNode.DrainStrategy.Equal(node.DrainStrategy):
				w.logger.Trace("tracked node has updated drain", "node_id", nodeID)
				w.tracker.Update(node)
			default:
				w.logger.Trace("no changes for node", "node_id", nodeID, "node_modify_index", node.ModifyIndex, "tracked", tracked, "newly_draining", newDraining)
			}

			// TODO(schmichael) handle the case of a lost node
		}

		for nodeID := range tracked {
			if _, ok := nodes[nodeID]; !ok {
				w.logger.Trace("tracked node no longer exists", "node_id", nodeID)
				w.tracker.Remove(nodeID)
			}
		}
	}
}

// getNodes returns all nodes blocking until the nodes are after the given index.
func (w *nodeDrainWatcher) getNodes(minIndex uint64) (map[string]*structs.Node, uint64, error) {
	if err := w.limiter.Wait(w.ctx); err != nil {
		return nil, 0, err
	}

	resp, index, err := w.state.BlockingQuery(w.getNodesImpl, minIndex, w.ctx)
	if err != nil {
		return nil, 0, err
	}

	return resp.(map[string]*structs.Node), index, nil
}

// getNodesImpl is used to get nodes from the state store, returning the set of
// nodes and the given index.
func (w *nodeDrainWatcher) getNodesImpl(ws memdb.WatchSet, state *state.StateStore) (interface{}, uint64, error) {
	iter, err := state.Nodes(ws)
	if err != nil {
		return nil, 0, err
	}

	index, err := state.Index("nodes")
	if err != nil {
		return nil, 0, err
	}

	var maxIndex uint64 = 0
	resp := make(map[string]*structs.Node, 64)
	for {
		raw := iter.Next()
		if raw == nil {
			break
		}

		node := raw.(*structs.Node)
		resp[node.ID] = node
		if maxIndex < node.ModifyIndex {
			maxIndex = node.ModifyIndex
		}
	}

	// Prefer using the actual max index of affected nodes since it means less
	// unblocking
	if maxIndex != 0 {
		index = maxIndex
	}

	return resp, index, nil
}
Switch to drainerv2 impl 2018-03-08 23:08:23 +00:00			`package drainer`
Initial design 2018-03-02 00:37:19 +00:00
node watcher 2018-03-03 01:15:38 +00:00			`import (`
			`"context"`
			`"time"`
Initial design 2018-03-02 00:37:19 +00:00
server 2018-09-15 23:23:13 +00:00			`log "github.com/hashicorp/go-hclog"`
node watcher 2018-03-03 01:15:38 +00:00			`memdb "github.com/hashicorp/go-memdb"`
server 2018-09-15 23:23:13 +00:00
node watcher 2018-03-03 01:15:38 +00:00			`"github.com/hashicorp/nomad/nomad/state"`
			`"github.com/hashicorp/nomad/nomad/structs"`
			`"golang.org/x/time/rate"`
			`)`

			`// DrainingNodeWatcher is the interface for watching for draining nodes.`
			`type DrainingNodeWatcher interface{}`

job watcher 2018-03-06 18:12:17 +00:00			`// TrackedNodes returns the set of tracked nodes`
			`func (n NodeDrainer) TrackedNodes() map[string]structs.Node {`
node watcher 2018-03-03 01:15:38 +00:00			`n.l.RLock()`
			`defer n.l.RUnlock()`

job watcher 2018-03-06 18:12:17 +00:00			`t := make(map[string]*structs.Node, len(n.nodes))`
			`for n, d := range n.nodes {`
			`t[n] = d.GetNode()`
node watcher 2018-03-03 01:15:38 +00:00			`}`

job watcher 2018-03-06 18:12:17 +00:00			`return t`
node watcher 2018-03-03 01:15:38 +00:00			`}`

			`// Remove removes the given node from being tracked`
			`func (n *NodeDrainer) Remove(nodeID string) {`
			`n.l.Lock()`
			`defer n.l.Unlock()`
Node's being untracked or having updated deadlines, updates the deadliner 2018-03-03 01:24:48 +00:00
			`// TODO test the notifier is updated`
			`// Remove it from being tracked and remove it from the dealiner`
node watcher 2018-03-03 01:15:38 +00:00			`delete(n.nodes, nodeID)`
Node's being untracked or having updated deadlines, updates the deadliner 2018-03-03 01:24:48 +00:00			`n.deadlineNotifier.Remove(nodeID)`
node watcher 2018-03-03 01:15:38 +00:00			`}`

			`// Update updates the node, either updating the tracked version or starting to`
			`// track the node.`
			`func (n NodeDrainer) Update(node structs.Node) {`
			`n.l.Lock()`
			`defer n.l.Unlock()`

			`if node == nil {`
			`return`
			`}`

			`draining, ok := n.nodes[node.ID]`
			`if !ok {`
integration test and basic fixes 2018-03-07 22:57:35 +00:00			`draining = NewDrainingNode(node, n.state)`
			`n.nodes[node.ID] = draining`
			`} else {`
			`// Update it`
			`draining.Update(node)`
node watcher 2018-03-03 01:15:38 +00:00			`}`

Node's being untracked or having updated deadlines, updates the deadliner 2018-03-03 01:24:48 +00:00			`// TODO test the notifier is updated`
			`if inf, deadline := node.DrainStrategy.DeadlineTime(); !inf {`
			`n.deadlineNotifier.Watch(node.ID, deadline)`
			`} else {`
			`// There is an infinite deadline so it shouldn't be tracked for`
			`// deadlining`
			`n.deadlineNotifier.Remove(node.ID)`
			`}`

integration test and basic fixes 2018-03-07 22:57:35 +00:00			`// TODO Test this`
			`// Register interest in the draining jobs.`
Watch batch jobs 2018-03-29 21:30:38 +00:00			`jobs, err := draining.DrainingJobs()`
integration test and basic fixes 2018-03-07 22:57:35 +00:00			`if err != nil {`
server 2018-09-15 23:23:13 +00:00			`n.logger.Error("error retrieving draining jobs on node", "node_id", node.ID, "error", err)`
integration test and basic fixes 2018-03-07 22:57:35 +00:00			`return`
			`}`
server 2018-09-15 23:23:13 +00:00			`n.logger.Trace("node has draining jobs on it", "node_id", node.ID, "num_jobs", len(jobs))`
drainer: RegisterJob -> RegisterJobs Test job watcher 2018-03-10 00:25:46 +00:00			`n.jobWatcher.RegisterJobs(jobs)`
integration test and basic fixes 2018-03-07 22:57:35 +00:00
Comments 2018-03-07 23:42:17 +00:00			`// TODO Test at this layer as well that a node drain on a node without`
			`// allocs immediately gets unmarked as draining`
handle empty node case 2018-03-07 23:16:45 +00:00			`// Check if the node is done such that if an operator drains a node with`
			`// nothing on it we unset drain`
			`done, err := draining.IsDone()`
			`if err != nil {`
server 2018-09-15 23:23:13 +00:00			`n.logger.Error("failed to check if node is done draining", "node_id", node.ID, "error", err)`
handle empty node case 2018-03-07 23:16:45 +00:00			`return`
			`}`
integration test and basic fixes 2018-03-07 22:57:35 +00:00
handle empty node case 2018-03-07 23:16:45 +00:00			`if done {`
drain: stop sys jobs after drain completes System allocs should be drained when a node's deadline is hit or when all other allocs on the node have stopped/migrated. 2018-03-27 17:01:15 +00:00			`// Node is done draining. Stop remaining system allocs before`
			`// marking node as complete.`
			`remaining, err := draining.RemainingAllocs()`
			`if err != nil {`
server 2018-09-15 23:23:13 +00:00			`n.logger.Error("error getting remaining allocs on drained node", "node_id", node.ID, "error", err)`
drain: stop sys jobs after drain completes System allocs should be drained when a node's deadline is hit or when all other allocs on the node have stopped/migrated. 2018-03-27 17:01:15 +00:00			`} else if len(remaining) > 0 {`
			`future := structs.NewBatchFuture()`
			`n.drainAllocs(future, remaining)`
			`if err := future.Wait(); err != nil {`
server 2018-09-15 23:23:13 +00:00			`n.logger.Error("failed to drain remaining allocs from done node", "num_allocs", len(remaining), "node_id", node.ID, "error", err)`
drain: stop sys jobs after drain completes System allocs should be drained when a node's deadline is hit or when all other allocs on the node have stopped/migrated. 2018-03-27 17:01:15 +00:00			`}`
			`}`

Drain complete 2018-05-11 00:22:06 +00:00			`// Create the node event`
			`event := structs.NewNodeEvent().`
			`SetSubsystem(structs.NodeEventSubsystemDrain).`
			`SetMessage(NodeDrainEventComplete)`

			`index, err := n.raft.NodesDrainComplete([]string{node.ID}, event)`
handle empty node case 2018-03-07 23:16:45 +00:00			`if err != nil {`
server 2018-09-15 23:23:13 +00:00			`n.logger.Error("failed to unset drain for node", "node_id", node.ID, "error", err)`
handle empty node case 2018-03-07 23:16:45 +00:00			`} else {`
server 2018-09-15 23:23:13 +00:00			`n.logger.Info("node completed draining at index", "node_id", node.ID, "index", index)`
handle empty node case 2018-03-07 23:16:45 +00:00			`}`
			`}`
node watcher 2018-03-03 01:15:38 +00:00			`}`

			`// nodeDrainWatcher is used to watch nodes that are entering, leaving or`
			`// changing their drain strategy.`
			`type nodeDrainWatcher struct {`
			`ctx context.Context`
server 2018-09-15 23:23:13 +00:00			`logger log.Logger`
node watcher 2018-03-03 01:15:38 +00:00
			`// state is the state that is watched for state changes.`
			`state *state.StateStore`

			`// limiter is used to limit the rate of blocking queries`
			`limiter *rate.Limiter`

			`// tracker is the object that is tracking the nodes and provides us with the`
			`// needed callbacks`
			`tracker NodeTracker`
			`}`

			`// NewNodeDrainWatcher returns a new node drain watcher.`
server 2018-09-15 23:23:13 +00:00			`func NewNodeDrainWatcher(ctx context.Context, limiter rate.Limiter, state state.StateStore, logger log.Logger, tracker NodeTracker) *nodeDrainWatcher {`
node watcher 2018-03-03 01:15:38 +00:00			`w := &nodeDrainWatcher{`
			`ctx: ctx,`
			`limiter: limiter,`
server 2018-09-15 23:23:13 +00:00			`logger: logger.Named("node_watcher"),`
node watcher 2018-03-03 01:15:38 +00:00			`tracker: tracker,`
			`state: state,`
			`}`

			`go w.watch()`
			`return w`
			`}`

			`// watch is the long lived watching routine that detects node changes.`
			`func (w *nodeDrainWatcher) watch() {`
			`nindex := uint64(1)`
			`for {`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("getting nodes at index", "index", nindex)`
node watcher 2018-03-03 01:15:38 +00:00			`nodes, index, err := w.getNodes(nindex)`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("got nodes at index", "num_nodes", len(nodes), "index", nindex, "error", err)`
node watcher 2018-03-03 01:15:38 +00:00			`if err != nil {`
			`if err == context.Canceled {`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("shutting down")`
node watcher 2018-03-03 01:15:38 +00:00			`return`
			`}`

server 2018-09-15 23:23:13 +00:00			`w.logger.Error("error watching node updates at index", "index", nindex, "error", err)`
node watcher 2018-03-03 01:15:38 +00:00			`select {`
			`case <-w.ctx.Done():`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("shutting down")`
node watcher 2018-03-03 01:15:38 +00:00			`return`
			`case <-time.After(stateReadErrorDelay):`
			`continue`
			`}`
			`}`

			`// update index for next run`
			`nindex = index`

job watcher 2018-03-06 18:12:17 +00:00			`tracked := w.tracker.TrackedNodes()`
			`for nodeID, node := range nodes {`
node watcher 2018-03-03 01:15:38 +00:00			`newDraining := node.DrainStrategy != nil`
job watcher 2018-03-06 18:12:17 +00:00			`currentNode, tracked := tracked[nodeID]`
node watcher 2018-03-03 01:15:38 +00:00
			`switch {`
			`// If the node is tracked but not draining, untrack`
			`case tracked && !newDraining:`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("tracked node is no longer draining", "node_id", nodeID)`
job watcher 2018-03-06 18:12:17 +00:00			`w.tracker.Remove(nodeID)`
node watcher 2018-03-03 01:15:38 +00:00
			`// If the node is not being tracked but is draining, track`
			`case !tracked && newDraining:`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("untracked node is draining", "node_id", nodeID)`
node watcher 2018-03-03 01:15:38 +00:00			`w.tracker.Update(node)`

			`// If the node is being tracked but has changed, update:`
			`case tracked && newDraining && !currentNode.DrainStrategy.Equal(node.DrainStrategy):`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("tracked node has updated drain", "node_id", nodeID)`
node watcher 2018-03-03 01:15:38 +00:00			`w.tracker.Update(node)`
			`default:`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("no changes for node", "node_id", nodeID, "node_modify_index", node.ModifyIndex, "tracked", tracked, "newly_draining", newDraining)`
job watcher 2018-03-06 18:12:17 +00:00			`}`
Comments 2018-03-07 23:42:17 +00:00
			`// TODO(schmichael) handle the case of a lost node`
job watcher 2018-03-06 18:12:17 +00:00			`}`

			`for nodeID := range tracked {`
			`if _, ok := nodes[nodeID]; !ok {`
server 2018-09-15 23:23:13 +00:00			`w.logger.Trace("tracked node no longer exists", "node_id", nodeID)`
job watcher 2018-03-06 18:12:17 +00:00			`w.tracker.Remove(nodeID)`
node watcher 2018-03-03 01:15:38 +00:00			`}`
			`}`
			`}`
			`}`

			`// getNodes returns all nodes blocking until the nodes are after the given index.`
job watcher 2018-03-06 18:12:17 +00:00			`func (w nodeDrainWatcher) getNodes(minIndex uint64) (map[string]structs.Node, uint64, error) {`
node watcher 2018-03-03 01:15:38 +00:00			`if err := w.limiter.Wait(w.ctx); err != nil {`
			`return nil, 0, err`
			`}`

			`resp, index, err := w.state.BlockingQuery(w.getNodesImpl, minIndex, w.ctx)`
			`if err != nil {`
			`return nil, 0, err`
			`}`

job watcher 2018-03-06 18:12:17 +00:00			`return resp.(map[string]*structs.Node), index, nil`
node watcher 2018-03-03 01:15:38 +00:00			`}`

			`// getNodesImpl is used to get nodes from the state store, returning the set of`
			`// nodes and the given index.`
			`func (w nodeDrainWatcher) getNodesImpl(ws memdb.WatchSet, state state.StateStore) (interface{}, uint64, error) {`
			`iter, err := state.Nodes(ws)`
			`if err != nil {`
			`return nil, 0, err`
			`}`

			`index, err := state.Index("nodes")`
			`if err != nil {`
			`return nil, 0, err`
			`}`

Fix other instances of blocking queries 2018-09-24 20:50:57 +00:00			`var maxIndex uint64 = 0`
job watcher 2018-03-06 18:12:17 +00:00			`resp := make(map[string]*structs.Node, 64)`
node watcher 2018-03-03 01:15:38 +00:00			`for {`
			`raw := iter.Next()`
			`if raw == nil {`
			`break`
			`}`

			`node := raw.(*structs.Node)`
job watcher 2018-03-06 18:12:17 +00:00			`resp[node.ID] = node`
Fix other instances of blocking queries 2018-09-24 20:50:57 +00:00			`if maxIndex < node.ModifyIndex {`
			`maxIndex = node.ModifyIndex`
			`}`
			`}`

			`// Prefer using the actual max index of affected nodes since it means less`
			`// unblocking`
			`if maxIndex != 0 {`
			`index = maxIndex`
node watcher 2018-03-03 01:15:38 +00:00			`}`

			`return resp, index, nil`
Initial design 2018-03-02 00:37:19 +00:00			`}`