CosmosDB `(*ContainerClient).ReadItem()` not thread safe (any longer)

calmh commented 4 months ago

When upgrading from azcosmos 0.3.6 to 1.0.1 we see race detector warnings when concurrently doing (*ContainerClient).ReadItem(). We do this in several places for performance/concurrency, and so far it has worked well. Now, however it gives us this:

WARNING: DATA RACE
Write at 0x00c0002e59f0 by goroutine 143:
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*clientRetryPolicy).resetPolicyCounters()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client_retry_policy.go:178 +0x70
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*clientRetryPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client_retry_policy.go:30 +0x68
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*sharedKeyCredPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/shared_key_credential.go:122 +0x466
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.(*retryPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/runtime/policy_retry.go:121 +0x739
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*globalEndpointManagerPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_global_endpoint_manager_policy.go:32 +0x14b
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*headerPolicies).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_headers_policy.go:51 +0x7f8
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.telemetryPolicy.Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/runtime/policy_telemetry.go:70 +0x2a5
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.(*telemetryPolicy).Do()
      <autogenerated>:1 +0x5a
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.includeResponsePolicy()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/runtime/policy_include_response.go:19 +0x2e
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.PolicyFunc.Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:177 +0x33
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.Pipeline.Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/pipeline.go:76 +0x8f
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*Client).executeAndEnsureSuccessResponse()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client.go:476 +0x113
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*Client).sendGetRequest()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client.go:357 +0x124
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*ContainerClient).ReadItem()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_container.go:350 +0x351
...

Previous write at 0x00c0002e59f0 by goroutine 142:
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*clientRetryPolicy).resetPolicyCounters()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client_retry_policy.go:178 +0x70
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*clientRetryPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client_retry_policy.go:30 +0x68
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*sharedKeyCredPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/shared_key_credential.go:122 +0x466
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.(*retryPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/runtime/policy_retry.go:121 +0x739
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*globalEndpointManagerPolicy).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_global_endpoint_manager_policy.go:32 +0x14b
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*headerPolicies).Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_headers_policy.go:51 +0x7f8
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.telemetryPolicy.Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/runtime/policy_telemetry.go:70 +0x2a5
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.(*telemetryPolicy).Do()
      <autogenerated>:1 +0x5a
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/runtime.includeResponsePolicy()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/runtime/policy_include_response.go:19 +0x2e
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.PolicyFunc.Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:177 +0x33
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.(*Request).Next()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/request.go:107 +0x218
  github.com/Azure/azure-sdk-for-go/sdk/azcore/internal/exported.Pipeline.Do()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/azcore@v1.11.1/internal/exported/pipeline.go:76 +0x8f
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*Client).executeAndEnsureSuccessResponse()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client.go:476 +0x113
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*Client).sendGetRequest()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_client.go:357 +0x124
  github.com/Azure/azure-sdk-for-go/sdk/data/azcosmos.(*ContainerClient).ReadItem()
      /home/runner/go/pkg/mod/github.com/!azure/azure-sdk-for-go/sdk/data/azcosmos@v1.0.1/cosmos_container.go:350 +0x351
...

The actual race seems to be on a counter of sorts, I'm not sure if this is new and should be fixed, of if it's intended that it's not supported to make concurrent requests to ReadItem? The latter would be a bit of a bummer, we have a lot of requests coming in to the database layer and having to create a client for each of them seems inefficient.

github-actions[bot] commented 4 months ago

Thanks for the feedback! We are routing this to the appropriate team for follow-up. cc @MehaKaushik @Pilchie @Wmengmsft.