ddtrace versions 2.2.0 and above increase the duration of "django.request"

sebyul2 commented 8 months ago

Summary of problem

An overall increase in duration has been observed in ddtrace versions 2.2.0 and above. This has led to a significant increase in latency in actual user service environments, resulting in service delays and failures. The issue has been resolved by using ddtrace versions 2.1.9 and below.

스크린샷 2024-02-13 오후 6 54 40

api Latency increased during the patch period that included the ddtrace 2.2.0 upgrade (log scale) 스크린샷 2024-02-13 오후 7 02 57

Compare duration logs between ddtrace 2.1.9 and 2.2.0

ddtrace==2.1.9

DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 3 spans, 1 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=16317891994405528087 trace_id=17024872595290305570 parent_id=16239546284646930404 service='api' resource='django.middleware.security.SecurityMiddleware.process_request' type=None start=1707815288.227878 end=1707815288.2279074 duration=2.9376e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 5 spans, 2 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=6926619274114839707 trace_id=17024872595290305570 parent_id=4151285126783382763 service='api' resource='django.contrib.sessions.middleware.SessionMiddleware.process_request' type=None start=1707815288.2288742 end=1707815288.2289696 duration=9.5307e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 9 spans, 3 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=16745046542471717331 trace_id=17024872595290305570 parent_id=5861630985196119809 service='api' resource='django.middleware.common.CommonMiddleware.process_request' type=None start=1707815288.2294784 end=1707815288.229529 duration=5.0529e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 11 spans, 4 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=17355345353857446407 trace_id=17024872595290305570 parent_id=4452109439531021461 service='api' resource='django.contrib.auth.middleware.AuthenticationMiddleware.process_request' type=None start=1707815288.2299702 end=1707815288.230005 duration=3.4726e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 15 spans, 5 finished
DEBUG:ddtrace.tracer:finishing span name='django.view.setup' id=9251793810115389211 trace_id=17024872595290305570 parent_id=9138830743108567212 service='api' resource='django.views.generic.base.View.setup' type=None start=1707815288.2325754 end=1707815288.2326045 duration=2.8995e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 17 spans, 6 finished
DEBUG:ddtrace.tracer:finishing span name='django.view.get' id=3756831085461797043 trace_id=17024872595290305570 parent_id=6345072455361266057 service='api' resource='commons.views.HealthCheckApiView.get' type=None start=1707815288.2333138 end=1707815288.233577 duration=0.000263146error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 17 spans, 7 finished
DEBUG:ddtrace.tracer:finishing span name='django.view.dispatch' id=6345072455361266057 trace_id=17024872595290305570 parent_id=9138830743108567212 service='api' resource='rest_framework.views.APIView.dispatch' type=None start=1707815288.2329578 end=1707815288.2339025 duration=0.00094462 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 17 spans, 8 finished
DEBUG:ddtrace.tracer:finishing span name='django.view' id=9138830743108567212 trace_id=17024872595290305570 parent_id=18215871325472799391 service='api' resource='commons.views.HealthCheckApiView' type=None start=1707815288.2325218 end=1707815288.2341518 duration=0.001630001 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 17 spans, 9 finished
DEBUG:ddtrace.tracer:finishing span name='django.view' id=18215871325472799391 trace_id=17024872595290305570 parent_id=16630274398594285930 service='api' resource='commons.views.view' type=None start=1707815288.2324615 end=1707815288.2344093 duration=0.001947908 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 17 spans, 10 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=16630274398594285930 trace_id=17024872595290305570 parent_id=4452109439531021461 service='api' resource='live.live_token.LiveTokenAuthenticationMiddleware.__call__' type=None start=1707815288.2303343 end=1707815288.2370856 duration=0.006751341 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 17 spans, 11 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=4452109439531021461 trace_id=17024872595290305570 parent_id=5861630985196119809 service='api' resource='django.contrib.auth.middleware.AuthenticationMiddleware.__call__' type=None start=1707815288.229904 end=1707815288.237465 duration=0.007561081 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 18 spans, 12 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=7911231743159946588 trace_id=17024872595290305570 parent_id=5861630985196119809 service='api' resource='django.middleware.common.CommonMiddleware.process_response' type=None start=1707815288.2377648 end=1707815288.2378428 duration=7.8057e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 18 spans, 13 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=5861630985196119809 trace_id=17024872595290305570 parent_id=17821543946177627620 service='api' resource='django.middleware.common.CommonMiddleware.__call__' type=None start=1707815288.2294416 end=1707815288.2381792 duration=0.00873754 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 18 spans, 14 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=17821543946177627620 trace_id=17024872595290305570 parent_id=13446171626101104141 service='api' resource='corsheaders.middleware.CorsMiddleware.__call__' type=None start=1707815288.2293777 end=1707815288.2385056 duration=0.009127768 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 19 spans, 15 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=2031084375260430508 trace_id=17024872595290305570 parent_id=13446171626101104141 service='api' resource='django.middleware.clickjacking.XFrameOptionsMiddleware.process_response' type=None start=1707815288.2388184 end=1707815288.2388847 duration=6.6228e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 19 spans, 16 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=13446171626101104141 trace_id=17024872595290305570 parent_id=4151285126783382763 service='api' resource='django.middleware.clickjacking.XFrameOptionsMiddleware.__call__' type=None start=1707815288.2293127 end=1707815288.2392623 duration=0.009949764 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 20 spans, 17 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=7916849839709957155 trace_id=17024872595290305570 parent_id=4151285126783382763 service='api' resource='django.contrib.sessions.middleware.SessionMiddleware.process_response' type=None start=1707815288.2395792 end=1707815288.2396412 duration=6.1997e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 20 spans, 18 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=4151285126783382763 trace_id=17024872595290305570 parent_id=16239546284646930404 service='api' resource='django.contrib.sessions.middleware.SessionMiddleware.__call__' type=None start=1707815288.2285063 end=1707815288.2399502 duration=0.011443769 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 21 spans, 19 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=272880341141022558 trace_id=17024872595290305570 parent_id=16239546284646930404 service='api' resource='django.middleware.security.SecurityMiddleware.process_response' type=None start=1707815288.2403677 end=1707815288.2404413 duration=7.37e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 17024872595290305570 has 21 spans, 20 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=16239546284646930404 trace_id=17024872595290305570 parent_id=18380368452861044549 service='api' resource='django.middleware.security.SecurityMiddleware.__call__' type=None start=1707815288.227805 end=1707815288.240827duration=0.013022226 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.tracer:finishing span name='django.request' id=18380368452861044549 trace_id=17024872595290305570 parent_id=None service='api' resource='GET health/' type='web' start=1707815288.227434 end=1707815288.2413101 duration=0.013876148 error=0 tags={'_dd.p.dm': '-0', 'component': 'django', 'django.request.class': 'django.core.handlers.wsgi.WSGIRequest', 'django.response.class': 'rest_framework.response.Response', 'django.user.is_authenticated': 'False', 'django.view': 'health', 'env': 'stg', 'http.method': 'GET', 'http.route': 'health/', 'http.status_code': '200', 'http.url': 'https://*****.******.com/health/', 'http.useragent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', 'language': 'python', 'runtime-id': 'ea9eafc152e24b5082845a807dea6fb3', 'span.kind': 'server', 'version': 'release/v6.0.2'} metrics={'_dd.measured': 1, '_dd.top_level': 1, '_dd.tracer_kr': 1.0, '_sampling_priority_v1': 1, 'process_id': 1608} (enabled:True)

ddtrace==2.2.0

DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 3 spans, 1 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=3585011503975329128 trace_id=16627655963363543631 parent_id=5822218867136044254 service='api' resource='django.middleware.security.SecurityMiddleware.process_request' type=None start=1707814858.4184675 end=1707814858.4185991 duration=0.000131715 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 5 spans, 2 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=4692273091779955422 trace_id=16627655963363543631 parent_id=11478698369722503228 service='api' resource='django.contrib.sessions.middleware.SessionMiddleware.process_request' type=None start=1707814858.423754 end=1707814858.423885 duration=0.000131012 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 9 spans, 3 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=16213288945111586424 trace_id=16627655963363543631 parent_id=1200705021764867910 service='api' resource='django.middleware.common.CommonMiddleware.process_request' type=None start=1707814858.429415 end=1707814858.4295104 duration=9.5321e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 11 spans, 4 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=17017574418675850236 trace_id=16627655963363543631 parent_id=4754589477331861217 service='api' resource='django.contrib.auth.middleware.AuthenticationMiddleware.process_request' type=None start=1707814858.4322293 end=1707814858.4323368 duration=0.000107543 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 15 spans, 5 finished
DEBUG:ddtrace.tracer:finishing span name='django.view.setup' id=3857430489920826516 trace_id=16627655963363543631 parent_id=6154098509927020292 service='api' resource='django.views.generic.base.View.setup' type=None start=1707814858.4363368 end=1707814858.4364629 duration=0.000126083 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 17 spans, 6 finished
DEBUG:ddtrace.tracer:finishing span name='django.view.get' id=8776269857096026466 trace_id=16627655963363543631 parent_id=7631945779990628803 service='api' resource='commons.views.HealthCheckApiView.get' type=None start=1707814858.4378214 end=1707814858.438002 duration=0.000180699error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 17 spans, 7 finished
DEBUG:ddtrace.tracer:finishing span name='django.view.dispatch' id=7631945779990628803 trace_id=16627655963363543631 parent_id=6154098509927020292 service='api' resource='rest_framework.views.APIView.dispatch' type=None start=1707814858.4371054 end=1707814858.4385781 duration=0.001472674 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 17 spans, 8 finished
DEBUG:ddtrace.tracer:finishing span name='django.view' id=6154098509927020292 trace_id=16627655963363543631 parent_id=7472927903338986100 service='api' resource='commons.views.HealthCheckApiView' type=None start=1707814858.4360514 end=1707814858.438951 duration=0.002899725 error=0tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 17 spans, 9 finished
DEBUG:ddtrace.tracer:finishing span name='django.view' id=7472927903338986100 trace_id=16627655963363543631 parent_id=1518676652092350152 service='api' resource='commons.views.view' type=None start=1707814858.4357617 end=1707814858.4393332 duration=0.003571501 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 17 spans, 10 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=1518676652092350152 trace_id=16627655963363543631 parent_id=4754589477331861217 service='api' resource='live.live_token.LiveTokenAuthenticationMiddleware.__call__' type=None start=1707814858.4331634 end=1707814858.4399033 duration=0.006739842 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 17 spans, 11 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=4754589477331861217 trace_id=16627655963363543631 parent_id=1200705021764867910 service='api' resource='django.contrib.auth.middleware.AuthenticationMiddleware.__call__' type=None start=1707814858.4318187 end=1707814858.4402153 duration=0.008396679 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 18 spans, 12 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=12983041857673225617 trace_id=16627655963363543631 parent_id=1200705021764867910 service='api' resource='django.middleware.common.CommonMiddleware.process_response' type=None start=1707814858.440973 end=1707814858.441047 duration=7.3919e-05 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 18 spans, 13 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=1200705021764867910 trace_id=16627655963363543631 parent_id=5781594153519454795 service='api' resource='django.middleware.common.CommonMiddleware.__call__' type=None start=1707814858.4289184 end=1707814858.4414377 duration=0.012519401 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 18 spans, 14 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=5781594153519454795 trace_id=16627655963363543631 parent_id=369111751515097772 service='api' resource='corsheaders.middleware.CorsMiddleware.__call__' type=None start=1707814858.4279985 end=1707814858.4421046 duration=0.014105953 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 19 spans, 15 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=11190323009478121733 trace_id=16627655963363543631 parent_id=369111751515097772 service='api' resource='django.middleware.clickjacking.XFrameOptionsMiddleware.process_response' type=None start=1707814858.4429622 end=1707814858.4430652 duration=0.00010311 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 19 spans, 16 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=369111751515097772 trace_id=16627655963363543631 parent_id=11478698369722503228 service='api' resource='django.middleware.clickjacking.XFrameOptionsMiddleware.__call__' type=None start=1707814858.4276683 end=1707814858.4437969 duration=0.016128612 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 20 spans, 17 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=9092467160430655124 trace_id=16627655963363543631 parent_id=11478698369722503228 service='api' resource='django.contrib.sessions.middleware.SessionMiddleware.process_response' type=None start=1707814858.4445457 end=1707814858.4447787 duration=0.000233034 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 20 spans, 18 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=11478698369722503228 trace_id=16627655963363543631 parent_id=5822218867136044254 service='api' resource='django.contrib.sessions.middleware.SessionMiddleware.__call__' type=None start=1707814858.4227443 end=1707814858.4453032 duration=0.022558906 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 21 spans, 19 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=16113675175857958527 trace_id=16627655963363543631 parent_id=5822218867136044254 service='api' resource='django.middleware.security.SecurityMiddleware.process_response' type=None start=1707814858.4468622 end=1707814858.4470541 duration=0.000191862 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.internal.processor.trace:trace 16627655963363543631 has 21 spans, 20 finished
DEBUG:ddtrace.tracer:finishing span name='django.middleware' id=5822218867136044254 trace_id=16627655963363543631 parent_id=6522699228204643583 service='api' resource='django.middleware.security.SecurityMiddleware.__call__' type=None start=1707814858.4177802 end=1707814858.4479306duration=0.030150308 error=0 tags={'component': 'django', 'env': 'stg', 'version': 'release/v6.0.2'} metrics={} (enabled:True)
DEBUG:ddtrace.tracer:finishing span name='django.request' id=6522699228204643583 trace_id=16627655963363543631 parent_id=None service='api' resource='GET health/' type='web' start=1707814858.4138396 end=1707814858.4488318 duration=0.03499216 error=0 tags={'_dd.p.dm': '-0', 'component': 'django', 'django.request.class': 'django.core.handlers.wsgi.WSGIRequest', 'django.response.class': 'rest_framework.response.Response', 'django.user.is_authenticated': 'False', 'django.view': 'health', 'env': 'stg', 'http.method': 'GET', 'http.route': 'health/', 'http.status_code': '200', 'http.url': 'https://*****.******.com/health/', 'http.useragent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36', 'language': 'python', 'runtime-id': '28b41dddab2d40d69c165a92395d2d1e', 'span.kind': 'server', 'version': 'release/v6.0.2'} metrics={'_dd.measured': 1, '_dd.top_level': 1, '_dd.tracer_kr': 1.0, '_sampling_priority_v1': 1, 'process_id': 31342} (enabled:True)

Which version of dd-trace-py are you using?

2.2.0

Which version of pip are you using?

22.2.2

Which libraries and their versions are you using?

`pip freeze`

amqp==2.6.0 ansible==6.3.0 ansible-core==2.13.3 asgiref==3.7.2 astroid==1.6.0 attrs==20.1.0 awscli==1.25.67 bcrypt==4.0.0 billiard==3.6.3.0 boto3==1.14.19 botocore==1.17.19 bytecode==0.15.1 cattrs==23.1.2 celery==4.4.0 certifi==2018.8.24 cffi==1.15.1 chardet==3.0.4 charset-normalizer==2.1.1 colorama==0.4.4 coreapi==2.3.3 coreschema==0.0.4 coverage==4.4.2 cryptography==3.2 ddsketch==2.0.4 ddtrace==1.9.0 Deprecated==1.2.14 distlib==0.3.6 distro==1.7.0 Django==3.0.11 django-cacheops==5.1 django-cors-headers==2.1.0 django-redis==4.12.1 django-storages==1.10.1 django-utils-six==2.0 djangoql==0.13.1 djangorestframework==3.12.0 docker==6.0.0 docker-compose==1.29.2 dockerpty==0.4.1 docopt==0.6.2 docutils==0.14 drf-spectacular==0.17.2 elasticsearch==6.8.0 envier==0.5.1 exceptiongroup==1.2.0 facebook-sdk==3.0.0 filelock==3.8.0 freezegun==1.0.0 funcy==1.10 future==0.16.0 hashids==1.2.0 idna==2.7 inflection==0.5.1 isort==4.2.15 itypes==1.1.0 Jinja2==2.10 jmespath==0.9.3 jsonschema==3.2.0 jwcrypto==1.4.2 kombu==4.6.10 lazy-object-proxy==1.3.1 MarkupSafe==1.1.0 mccabe==0.6.1 msgpack-python==0.5.1 oauthlib==2.0.7 openapi-codec==1.3.2 packaging==21.3 paramiko==2.11.0 paypal-checkout-serversdk==1.0.1 paypalhttp==1.0.0 phonenumbers==8.10.22 platformdirs==2.5.2 ply==3.11 protobuf==4.25.2 psycopg2-binary==2.8.6 py==1.9.0 pyasn1==0.4.8 pybreaker==0.6.0 pycparser==2.21 pycryptodome==3.9.8 PyJWT==1.7.1 pymongo==3.9.0 PyNaCl==1.5.0 pyOpenSSL==20.0.1 pyparsing==3.0.9 pyrsistent==0.18.1 python-dateutil==2.7.3 python-dotenv==0.21.0 python-jwt==3.3.4 python-twitter==3.4 pytz==2017.3 PyYAML==5.3.1 redis==3.5.3 requests==2.19.1 requests-oauthlib==0.8.0 resolvelib==0.8.1 rsa==4.7.2 s3transfer==0.3.7 sentry-sdk==0.12.2 simplejson==3.13.2 six==1.16.0 sqlparse==0.3.0 tenacity==8.2.3 texttable==1.6.4 typing_extensions==4.9.0 ua-parser==0.18.0 uritemplate==3.0.0 urllib3==1.23 user-agents==1.1.0 uWSGI==2.0.23 vine==1.3.0 virtualenv==20.16.4 websocket-client==1.4.1 wrapt==1.10.11 xmltodict==0.13.0

How can we reproduce your problem?

Using ddtrace version >= 2.2.0

What is the result that you get?

An overall increase in latency (duration) is observed.

What is the result that you expected?

A similar level of duration as versions 2.1.9 and below.

emmettbutler commented 7 months ago

This seems likely to be related to the abstraction layer added to the Django integration in https://github.com/DataDog/dd-trace-py/pull/7011. It's worth looking into to understand what optimizations to that layer are available.

emmettbutler commented 7 months ago

Here's my first simple attempt at replicating this behavior. It makes a bunch of requests to a basic django ASGI app and averages the time they take.

from contextlib import contextmanager
import os
import subprocess
import time

from tests.webclient import Client

SERVER_PORT = 8008
ITERATIONS = 1000

@contextmanager
def daphne_client():
    env = os.environ.copy()
    env.update(
        {
            "DJANGO_SETTINGS_MODULE": "tests.contrib.django.django_app.settings",
        }
    )

    cmd = ["ddtrace-run", "daphne", "-p", str(SERVER_PORT), "tests.contrib.django.asgi:application"]
    proc = subprocess.Popen(
        cmd,
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        close_fds=True,
        env=env,
    )

    client = Client("http://localhost:%d" % SERVER_PORT)

    client.wait()

    try:
        yield (client, proc)
    finally:
        resp = client.get_ignored("/shutdown-tracer")
        assert resp.status_code == 200
        proc.terminate()

def main():
    request_durations = []
    with daphne_client() as tup:
        client, _ = tup
        for _ in range(ITERATIONS):
            start_time = time.time()
            client.get("/")
            request_durations.append(time.time() - start_time)
    avg = sum(request_durations) / len(request_durations)
    print(f"Avg {avg}s per request over {ITERATIONS} requests")

if __name__ == "__main__":
    main()

$ cd ddtrace
$ git checkout v2.1.9
$ python -m venv venv && source venv/bin/activate && pip install requests daphne django_q channels -e .
$ python django_benchmark.py
Avg 0.00252020263671875s per request over 1000 requests
$ git checkout v2.2.1
$ python -m venv venv && source venv/bin/activate && pip install requests daphne django_q channels -e .
$ python django_benchmark.py
Avg 0.00283501672744751s per request over 1000 requests

Running this test on my laptop shows a 12% difference between the two versions, which is far from the large difference you're seeing, @sebyul2.

Do you have any ideas on how I might adjust my benchmark case to make it more closely match the situation in your environment?

sebyul2 commented 7 months ago

Thanks @emmettbutler! However, my environment is a uwsgi environment, not an asgi, so it is likely caused by a uwsgi-related change in ddtrace.

sebyul2 commented 7 months ago

I closed the issue by mistake and reopened it.

emmettbutler commented 7 months ago

Here's a test that uses uwsgi, with similar performance results.

from contextlib import contextmanager
import os
import subprocess
import sys
import time

from django.core.wsgi import get_wsgi_application
from django.http import HttpResponse
from django.urls import path

from tests.webclient import Client

filepath, extension = os.path.splitext(__file__)
ROOT_URLCONF = os.path.basename(filepath)
WSGI_APPLICATION = os.path.basename(filepath) + ".app"
SERVER_PORT = 8008
ITERATIONS = 1000

def handler(_):
    return HttpResponse("Hello!")

os.environ["DJANGO_SETTINGS_MODULE"] = "django_benchmark"

urlpatterns = [path("", handler)]
app = get_wsgi_application()

@contextmanager
def django_client():
    cmd = [
        "uwsgi",
        "--master",
        "--enable-threads",
        "--lazy-apps",
        "--module=django_benchmark:app",
        "--http",
        f":{str(SERVER_PORT)}",
        "--import=ddtrace.bootstrap.sitecustomize",
    ]
    proc = subprocess.Popen(
        cmd,
        stdout=sys.stdout,
        stderr=sys.stderr,
        close_fds=True,
        env=os.environ.copy(),
    )

    client = Client("http://localhost:%d" % SERVER_PORT)

    client.wait()

    try:
        yield (client, proc)
    finally:
        proc.terminate()
        proc.kill()

def main():
    request_durations = []
    with django_client() as (client, _):
        for _ in range(ITERATIONS):
            start_time = time.time()
            client.get("/")
            request_durations.append(time.time() - start_time)
    avg = sum(request_durations) / len(request_durations)
    print(f"Avg {avg}s per request over {ITERATIONS} requests")

if __name__ == "__main__":
    main()

$ cd ddtrace
$ git checkout v2.1.9
$ python -m venv venv && source venv/bin/activate && pip install requests django_q channels pytest -e .
$ python django_benchmark.py
Avg 0.0013474271297454835s per request over 1000 requests
$ git checkout v2.2.1
$ python -m venv venv && source venv/bin/activate && pip install requests django_q channels pytest -e .
$ python django_benchmark.py
Avg 0.0017592124938964843s per request over 1000 requests

sebyul2 commented 7 months ago

It's not as big of a difference as I've experienced, but there seems to be a performance difference in the benchmark code anyway. Although it is a small number in absolute terms, there is a clear difference in latency in services that generate a lot of traffic, and there are many more timeout errors than usual. To counter this, the situation is leading to an increase in instance costs. Is there anything else I should look into?

스크린샷 2024-02-29 오전 10 44 42

emmettbutler commented 7 months ago

@sebyul2 I think the next step here is for our team to profile the benchmark code and understand the origin of the latency difference.

emmettbutler commented 7 months ago

Generating flamegraphs showing request servicing of a traced django uwsgi server under each version:

import argparse
from contextlib import contextmanager
from multiprocessing import Pipe
import os
import subprocess
import sys
import time

from django.core.wsgi import get_wsgi_application
from django.http import HttpResponse
from django.urls import path

from tests.webclient import Client

filepath, extension = os.path.splitext(__file__)
ROOT_URLCONF = os.path.basename(filepath)
WSGI_APPLICATION = os.path.basename(filepath) + ".app"
SERVER_PORT = 8008
ITERATIONS = 1000

def handler(_):
    return HttpResponse("Hello!")

os.environ["DJANGO_SETTINGS_MODULE"] = "django_benchmark"

urlpatterns = [path("", handler)]
app = get_wsgi_application()

@contextmanager
def django_client(flame_filename="flamegraph.svg"):
    flame_file = open(flame_filename, "w")
    uwsgi_cmd = [
        "uwsgi",
        "--master",
        "--enable-threads",
        "--lazy-apps",
        "--exit-on-reload",
        "--die-on-term",
        "--module=django_benchmark:app",
        "--http",
        f":{str(SERVER_PORT)}",
        "--import=ddtrace.bootstrap.sitecustomize",
    ]
    uwsgi_proc = subprocess.Popen(
        uwsgi_cmd,
        stderr=sys.stderr,
        stdout=sys.stdout,
        close_fds=True,
        env=os.environ.copy(),
    )
    austin_cmd = ["austin", "-C", "-P", f"--pid={uwsgi_proc.pid}"]
    austin_proc = subprocess.Popen(
        austin_cmd,
        stderr=sys.stderr,
        stdout=subprocess.PIPE,
        close_fds=True,
        env=os.environ.copy(),
    )
    graph_proc = subprocess.Popen(
        ["/Users/emmett.butler/git/FlameGraph/flamegraph.pl"],
        stdin=austin_proc.stdout,
        stdout=flame_file,
        stderr=sys.stderr,
    )

    client = Client("http://localhost:%d" % SERVER_PORT)

    client.wait()

    try:
        yield (client, uwsgi_proc)
    finally:
        print("killing austin")
        austin_proc.terminate()
        austin_proc.wait()
        print("terminating uwsgi")
        uwsgi_proc.terminate()
        print("waiting")
        time.sleep(2)
        print("killing uwsgi")
        uwsgi_proc.kill()
        print("closing flame file")
        flame_file.close()
        print("killing graph proc")
        graph_proc.terminate()
        graph_proc.wait()

def get_args():
    parser = argparse.ArgumentParser(
        description="Generate a flamegraph from a ddtrace'd django uwsgi server serving HTTP requests"
    )
    parser.add_argument(
        "-f", "--flame-filename", type=str, help="The file to which to write the flamegraph", default=""
    )
    return parser.parse_args()

def main():
    args = get_args()
    request_durations = []
    with django_client(flame_filename=args.flame_filename) as (client, _):
        for count in range(ITERATIONS):
            start_time = time.time()
            print(f"Doing request {count}")
            client.get("/")
            request_durations.append(time.time() - start_time)
    avg = sum(request_durations) / len(request_durations)
    print(f"Avg {avg}s per request over {ITERATIONS} requests")

if __name__ == "__main__":
    main()

$ brew install austin
$ git clone git@github.com:brendangregg/FlameGraph.git
$ cd ddtrace
$ git checkout v2.1.9
$ python -m venv venv && source venv/bin/activate && pip install requests django django_q channels pytest -e .
$ sudo python django_benchmark.py --flame-filename=flamegraph-2.1.9.svg
$ git checkout v2.2.1
$ python -m venv venv && source venv/bin/activate && pip install requests django django_q channels pytest -e .
$ sudo python django_benchmark.py --flame-filename=flamegraph-2.2.1.svg

The two resulting flamegraphs from my laptop are attached. I haven't dug into them yet.

flamegraph-2 1 9 flamegraph-2 2 1

emmettbutler commented 7 months ago

Here's some more detail on the performance comparison from the above script. The top graph is 2.1.9 and the bottom graph is 2.2.1.

flamecompzoom1 Here you can see that a bit longer is spent in trace_utils.py:wrapper, but there's no single function call that's primarily responsible. The clearest difference I can see is that the 2.2.1 flame graph shows slightly increased time spent and a deeper call stack around _start_span, which is circled and which the following images go deeper into.

flamecompzoom2 This shows a detail of the deeper call stack, with bits of overhead being added on by the various calls in core.py. Some amount of overhead is expected from a code change like the one we're examining, with a new abstraction layer having been added.

flamecompzoom3 This most zoomed-in screenshot shows that in _start_span itself there isn't much of a difference at all in time spent between the two versions.

This investigation paints a picture of an execution stack with some added layers and increased overhead in amounts basically consistent with what I'd expect from the addition of the Core API abstraction layer that happened in https://github.com/DataDog/dd-trace-py/pull/7011. The most readily apparent way to decrease the time spent in this new layer is to rewrite the slowest sections in Cython, which has been on the mid-term backlog since the Core API was introduced and might be more urgent now that we've migrated the Django integration to the Core API.

@sebyul2 in my estimation, these data don't completely account for the large latency disparity you noted in the original post. Even though my screenshots definitely show a performance degradation, it's only barely on the order of magnitude of your original post. I can't really think of a situation in which these deeper call stacks and little bits of added overhead would compound to result in a difference of that size. Given that, I think that going deeper on your particular case will require adjusting the benchmarking script above to be more similar to the code from which you generated the original post. Do you have any suggestions on how we might do that? Thanks again.

sebyul2 commented 7 months ago

There was no significant difference in the benchmark code you wrote. But actually, upgrading the ddtrace version on our server makes a big difference as follows: Increasing latency from 3ms to 9~15ms is a very big difference in commercial services. The screenshot is a photo compared at the same scale, and you can see that there is a very big difference. (Of course, the difference is smaller for APIs with higher database costs, but it is still a big difference.)

스크린샷 2024-03-11 오후 2 39 22

This difference cannot be reproduced with the benchmark code you provided, and even if you take a debug log, you cannot confirm exactly what the problem is, but what is clear is that the code changes in uwsgi and django of ddtrace are causing the above difference.

Since ddtrace version 1.9.0 does not support the latest versions of psycopg, pymongo, and redis-py libraries, upgrading the corresponding library versions is also not possible. How can we help you create benchmark code that reflects our commercial environment and identify any problems?

mccutchen commented 3 months ago

As another unhelpfully vague data point, we just upgraded a large, complex, monolithic Django service from ddtrace==1.20.19 to ddtrace==2.6.12 and saw significant latency spikes that forced us to downgrade back to 1.20.x.

Here's what p90/95/99/max latency looked like yesterday, using ddtrace==2.6.12, where each vertical bar indicates the completion of a rolling deploy:

Here's what it looks like today, after reverting back to ddtrace==1.20.19 in the second of the three deploys:

Additional context:

For us, the latency hit seems to be temporary, going back to normal after a spike during the deploy process. Unclear why this might be; maybe something like lazy initialization affecting the first few requests served?
So far, we haven't been able to reproduce the issue in our non-production environment or in smaller test cases like those posted above.

DataDog / dd-trace-py