acompany-develop / DCRtopics

Repository to research & share the data clean room articles.
4 stars 0 forks source link

[230516]Data Clean Room Topics #1

Open Hiro-mackay opened 1 year ago

Hiro-mackay commented 1 year ago

Introducing BigQuery differential privacy

概要

Big Query 差分プライバシーのパブリックプレビューがリリース。 将来的には、今回の差分プライバシーソリューションをBigQuery データ クリーン ルームと統合し、プライバシーを保護しながら組織が機密データを匿名化して共有できるようにする予定。

何がGood?

Googleがリリースしているdifferential-privacyというOSSを基盤として、Google SQL for BigQuery に差分プライバシーが追加された。

BigQuery の差分プライバシーは既存のセキュリティ制御とも連携するため、次のことが可能に。

Usage

差分プライバシーを次の集計関数に適用して、結果を匿名化できる。

SELECT
WITH
  DIFFERENTIAL_PRIVACY
    OPTIONS (
      epsilon = 1,
      delta = 1e-7,
      privacy_unit_column = npi)
    provider_type,
PERCENTILE_CONT(
  bene_unique_cnt, 0.5, contribution_bounds_per_row => (0, 10000))
  percentile_50th,
PERCENTILE_CONT(
  bene_unique_cnt, 0.9, contribution_bounds_per_row => (0, 10000))
  percentile_90th
FROM `bigquery-public-data.cms_medicare.physicians_and_other_supplier_2015`
WHERE provider_type IS NOT NULL
GROUP BY 1
ORDER BY 2 DESC
LIMIT 10;

-- Query results may differ slightly with each run due to noise being applied
/*--------------------------------------+-----------------+-----------------*
| provider_type                        | percentile_50th | percentile_90th |
+--------------------------------------+-----------------+-----------------+
| Peripheral Vascular Disease          | 132.95          | 3134.24         |
| Ambulance Service Supplier           | 101.81          | 697.79          |
| Multispecialty Clinic/Group Practice | 75.03           | 2316.40         |
| Addiction Medicine                   | 68.38           | 3811.18         |
| Public Health Welfare Agency         | 67.27           | 597.46          |
| Neuropsychiatry                      | 63.85           | 375.88          |
| Emergency Medicine                   | 62.86           | 272.00          |
| Centralized Flu                      | 52.97           | 216.98          |
| Clinical Laboratory                  | 52.04           | 744.01          |
| Ophthalmology                        | 49.93           | 282.12          |
*--------------------------------------+-----------------+-----------------*/
Hiro-mackay commented 1 year ago

(BigQuery)Object tables are now generally available (GA).

概要

オブジェクト テーブルは、Cloud Storage に保存されている非構造化データのメタデータを含む読み取り専用テーブルである。 BigQuery ML と BigQuery リモート関数を使用して、画像、音声ファイル、ドキュメント、その他のファイル タイプの分析推論を実行ができる。 オブジェクト テーブルは、現在構造化データに適用されているデータ セキュリティとガバナンスのベスト プラクティスを非構造化データにも拡張します。

何がGood?

BigLake テーブルと同様に、オブジェクト テーブルでもアクセス委任が使用されます。これにより、オブジェクト テーブルへのアクセスと Cloud Storage オブジェクトへのアクセスが切り離される。 サービス アカウントに関連付けられた外部接続を使用して Cloud Storage に接続するので、ユーザーにオブジェクト テーブルへのアクセス権を付与するだけでよく、行レベルのセキュリティを適用し、ユーザーがアクセスできるオブジェクトを管理可能。

Usage

他の BigQuery テーブルと同じ方法で、オブジェクト テーブルのメタデータをクエリができる。

BigQuery で非構造化データをネイティブに分析する利点

Hiro-mackay commented 1 year ago

(snowflake)Logging and Tracing in Procedures and Functions — Preview

概要

イベントテーブル、ロギング、トレースのプレビューをリリース。 この機能により、プロシージャや関数のハンドラコードからログメッセージデータやトレースデータを発し、そのデータをイベントテーブルに収集させて後で分析することが可能。

何がGood?

Snowflake 関数とプロシージャ ハンドラー コード ( Snowpark API を使用して作成したコードを含む) のアクティビティを記録する には、実行時にコードからログ メッセージとトレース イベントをキャプチャする。 データを収集したら、SQL でクエリを実行して結果を分析できる。

特に、次のものを記録して分析できます。

Hiro-mackay commented 1 year ago

(snowflake)Support for GEOMETRY Data Type — General Availability

概要

新しいGEOMETRYデータ型のサポートを一般的に提供開始。 GEOMETRYデータ型は、平面(ユークリッド、デカルト)座標系で表現。 このリリースには、GEOMETRY オブジェクト間の関係の構築、フォーマット、測定、および計算を行う関数が用意されている。

何がGood?

snowflake上で位置情報を取り扱い可能に。(とはいえプレビューはあったけど)

Usage

Snowflake での地理空間データの使用

Hiro-mackay commented 1 year ago

Snowsight でのデータ ガバナンスの管理 —プレビュー

概要

このリリースでは、Snowsight のデータ»ガバナンスインターフェイスのプレビューをリリース ガバナンス インターフェイスには、最も頻繁に使用されるマスキング ポリシー、行アクセス ポリシー、タグとテーブルと列での使用状況を監視するための [ダッシュボード]タブが含まれる。

Creating & Assigning Tags

Snowflake でタグを使用するための概要