OpenTelemetry的概念有初步了解后,我们接着以Jaeger为例来演示如何在程序中使用实现链路追踪。

Jaeger

Jaeger\ˈyā-gər\ 是Uber开源的分布式追踪系统,是支持OpenTelemetry的系统之一,也是CNCF项目。本篇将使用Jaeger来演示如何在系统中引入分布式追踪。以下是Opentracing+Jaeger的架构图,针对于使用OpenTelemetry也是如此。

准备工作

Jaeger提供了all-in-one镜像,方便我们快速开始测试:

docker run -d --name jaeger \
-e COLLECTOR_ZIPKIN_HTTP_PORT=9411 \
-p 5775:5775/udp \
-p 6831:6831/udp \
-p 6832:6832/udp \
-p 5778:5778 \
-p 16686:16686 \
-p 14268:14268 \
-p 9411:9411 \
jaegertracing/all-in-one:1.14

如果docker镜像拉取太慢,您可以尝试修改docker拉取站点的镜像地址,例如:http://mirrors.ustc.edu.cn/help/dockerhub.html?highlight=docker

镜像启动后,通过 http://localhost:16686 可以打开Jaeger UI

下载客户端library,便于后续代码开发:

go get github.com/jaegertracing/jaeger-client-go

示例仓库地址

我们的示例代码托管到了github上,地址为:https://github.com/gogf/gf-tracing

下载到本地:

git clone https://github.com/gogf/gf-tracing

我们随后的示例介绍都将以此仓库代码为准。

单进程链路跟踪

单进程的链路跟踪即进程内方法之间的调用链关系。这种场景的跟踪没有涉及到分布式跟踪,比较简单,以该示例作为我们入门的一个例子吧。示例代码地址:https://github.com/gogf/gf-tracing/tree/master/examples/inprocess

TracerProvider

初始化Jaeger tracer

package tracing

import (
	"strings"

	"go.opentelemetry.io/otel"
	"go.opentelemetry.io/otel/exporters/jaeger"
	"go.opentelemetry.io/otel/sdk/resource"
	"go.opentelemetry.io/otel/sdk/trace"
	semconv "go.opentelemetry.io/otel/semconv/v1.4.0"
)

// InitJaeger initializes and registers jaeger to global TracerProvider.
//
// The output parameter `tp` is used for waiting exported trace spans to be uploaded,
// which is useful if your program is ending and you do not want to lose recent spans.
func InitJaeger(serviceName, endpoint string) (tp *trace.TracerProvider, err error) {
	var endpointOption jaeger.EndpointOption
	if strings.HasPrefix(endpoint, "http") {
		// HTTP.
		endpointOption = jaeger.WithCollectorEndpoint(jaeger.WithEndpoint(endpoint))
	} else {
		// UDP.
		endpointOption = jaeger.WithAgentEndpoint(jaeger.WithAgentHost(endpoint))
	}

	// Create the Jaeger exporter
	exp, err := jaeger.New(endpointOption)
	if err != nil {
		return nil, err
	}
	tp = trace.NewTracerProvider(
		// Always be sure to batch in production.
		trace.WithBatcher(exp),
		// Record information about this application in an Resource.
		trace.WithResource(resource.NewWithAttributes(
			semconv.SchemaURL,
			semconv.ServiceNameKey.String(serviceName),
		)),
	)
	otel.SetTracerProvider(tp)
	return tp, nil
}

Root Span

root span即链路中第一个span对象。在这里的单进程场景中,往往需要手动创建一个。随后在方法内部创建的span都会作为它的子级span

在分布式架构的服务间通信场景中,往往不需要开发者手动创建root span,而是由客户端/服务端请求的拦截器来自动创建。

创建tracer,生成root span

func main() {
	flush, err := tracing.InitJaeger(ServiceName, JaegerUdpEndpoint)
	if err != nil {
		g.Log().Fatal(err)
	}
	defer flush()

	ctx, span := gtrace.NewSpan(context.Background(), "main")
	defer span.End()

	user1 := GetUser(ctx, 1)
	g.Dump(user1)

	user100 := GetUser(ctx, 100)
	g.Dump(user100)
}

上述代码创建了一个root span,并将该span通过context传递给GetUser方法,以便在GetUser方法中将追踪链继续延续下去。

方法间Span创建

// GetUser retrieves and returns hard coded user data for demonstration.
func GetUser(ctx context.Context, id int) g.Map {
	ctx, span := gtrace.NewSpan(ctx, "GetUser")
	defer span.End()
	m := g.Map{}
	gutil.MapMerge(
		m,
		GetInfo(ctx, id),
		GetDetail(ctx, id),
		GetScores(ctx, id),
	)
	return m
}

// GetInfo retrieves and returns hard coded user info for demonstration.
func GetInfo(ctx context.Context, id int) g.Map {
	ctx, span := gtrace.NewSpan(ctx, "GetInfo")
	defer span.End()
	if id == 100 {
		return g.Map{
			"id":     100,
			"name":   "john",
			"gender": 1,
		}
	}
	return nil
}

// GetDetail retrieves and returns hard coded user detail for demonstration.
func GetDetail(ctx context.Context, id int) g.Map {
	ctx, span := gtrace.NewSpan(ctx, "GetDetail")
	defer span.End()
	if id == 100 {
		return g.Map{
			"site":  "https://goframe.org",
			"email": "john@goframe.org",
		}
	}
	return nil
}

// GetScores retrieves and returns hard coded user scores for demonstration.
func GetScores(ctx context.Context, id int) g.Map {
	ctx, span := gtrace.NewSpan(ctx, "GetScores")
	defer span.End()
	if id == 100 {
		return g.Map{
			"math":    100,
			"english": 60,
			"chinese": 50,
		}
	}
	return nil
}

该示例代码展示了多层级方法间的链路信息传递,即是把ctx上下文变量作为第一个方法参数传递即可。在方法内部,我们通过的固定语法来创建/开始一个Span

ctx, span := gtrace.NewSpan(ctx, "xxx")
defer span.End()

并通过defer的方式调用span.End来结束一个Span,这样可以很好地记录Span生命周期(开始和结束)信息,这些信息都将会展示到链路跟踪系统中。其中gtrace.NewSpan方法的第二个参数spanName我们直接给定方法的名称即可,这样在链路展示中比较有识别性。

效果查看

执行完上面的程序后,终端输出:

打开Jaeger UI: http://localhost:16686/search,可以看到链路追踪的结果:

点击详情可以查看具体信息,包括span的调用顺序、调用关系,执行时间轴,以及记录一些AttributesEvents信息,极大的方便我们定位系统中的异常和发现性能瓶颈。:

其中的tracing-inprocess是我们tracer的名称,该名称往往是服务名称,由于我们这里只有一个进程和一个tracer,因此这里只看得到一个服务名称。其中的main为我们创建的root span名称,其他的span为基于该root span创建的子级span。由于我们在程序中调用了两次GetUser方法,因此这里也展示了两次GetUser方法的调用。每一次GetUser调用的内部又分别去调用了GetIndo、GetDetail、GetScores三个方法,方法间的调用层级关系展示得非常清晰明了,并且每个方法的调用时长都可以看得到。

关于其中每个span记录的TagsProcess信息其实对应了OpenTelemetry中的AttributesEvents信息,这些信息我们放到后续章节去详细介绍。

Content Menu

  • No labels

3 Comments

  1. 有与阿里云打通的示例吗?

  2. 我司都是Py,Java使用官方Jaeger SDK,而官方sdk的propagation都是Uber’s original headers.而在gtrace使用了

    go.opentelemetry.io/otel/propagation.TraceContext是
    https://www.w3.org/TR/trace-context/标准.
    希望后面支持自定义该标准.导致使用goframe内置又不能别的我司别的语言traceid打通.如果强用官方sdk,tracerid在框架内又使用不了的窘境
    1. 这个Header对你业务影响大吗?如果大的话可以提个PR对外放开配置修改。