socar-inc / techblog-comments

utterances를 사용해 기술 블로그 댓글을 저장합니다
1 stars 0 forks source link

data/2022/02/25/data-discovery-platform-01.html #22

Open socar-kyle opened 2 years ago

socar-kyle commented 2 years ago

데이터 디스커버리 플랫폼 도입기 - 1편. 데이터 디스커버리란?(feat. Datahub VS Amundsen 비교 분석)

https://tech.socarcorp.kr/data/2022/02/25/data-discovery-platform-01.html

socar-kyle commented 2 years ago

좋은 글 감사합니다.

> (최근에는 Datahub에 dbt 없이 BigQuery 자체에서도 데이터 계보를 가져오는 기능이 추가되었습니다)

이 부분이 흥미롭고, 어떤 얘기인지 더 궁금하네요. bigquery "view" 에 대해서, view definition 의 sql 을 parsing 하여, 어떤 table/view 에 의존하는지 파악하여 lineage 를 그려주는 거려나요?

This comment was made by Disqus. 2022-02-27 11:37:27 ChangHyun Lee

socar-kyle commented 2 years ago

안녕하세요 창현님, 댓글 감사합니다 :) 정확히는 BigQuery audit log의 destinationTable 와 referencedTable 필드를 참조하여 리니지를 생성한다고 합니다.

해당 기능 추가와 관련된 PR과 소스코드는 여기서 보실 수 있습니다. : https://github.com/linkedin/datahub/pull/3389

This comment was made by Disqus. 2022-02-28 10:03:49 윤혜진

socar-kyle commented 2 years ago

안녕하세요 창현님, 댓글 감사합니다 :) 정확히는 BigQuery audit log의 destinationTable 와 referencedTable 필드를 참조하여 리니지를 생성한다고 합니다.

해당 기능 추가와 관련된 PR과 소스코드는 여기서 보실 수 있습니다. : 깃헙.com/linkedin/datahub/pull/3389 (직접 링크 걸면 스팸 필터링에 걸리네요.. 대신 이렇게 남깁니다.ㅎㅎ)

This comment was made by Disqus. 2022-02-28 10:17:41 윤혜진

socar-kyle commented 2 years ago

안녕하세요 :)
디니 대신 댓글 남깁니다!
이 부분은 Audit Log의 destinationTable, referenceTable를 참고해서 만든다고 하네요
관련 PR은 https://github.com/linkedin... 에서 확인할 수 있습니다 :)

This comment was made by Disqus. 2022-02-28 10:22:49 Seong Yun Byeon

socar-kyle commented 2 years ago

오! 답변 감사합니다.

오, 그렇네요. "Audit Log의 destinationTable, referenceTable" 를 사용하면, lineage 를 만들어낼 수 있겠네요.

This comment was made by Disqus. 2022-02-28 11:31:09 ChangHyun Lee

socar-kyle commented 2 years ago

안녕하세요 아문센에서 지원하는 데이터 소스에 pandas, log4j 가 있다고 설명해주셨는데

https://www.amundsen.io/amu...
공식홈페이지의 목록에는 찾을수가없네요 혹시 어느 부분을 통해 확인하셨을까요?

This comment was made by Disqus. 2022-03-03 01:10:37 서지웅

socar-kyle commented 2 years ago

https://github.com/amundsen...
위 링크가 amundsen에서 지원해주는 data source 리스트이고, 코드상에서 pandas schema그대로 넣는 방법은 없는듯 합니다
다만 amundsen은 이 글에서 설명되어있듯이 코드 구현을 통해서 data source를 직접 연결 할 수 있어요

amundsen 홈페이지는 up-to-date 하지않고 실제로 잘 동작하지 않는 설명도 꽤 있습니다 ㅎ.

This comment was made by Disqus. 2022-03-06 10:31:27 김문섭

HONGJI5526 commented 2 years ago

안녕하세요. 좋은 글 감사합니다!

data catalog 관련해서 data에 대한 description, column 정보, tag 등을 정의할 때, 어떤 기준으로 정의를 내렸는지 궁금합니다. 실제 데이터들을 사용하는 사용자들에게 의견을 들으셨는지, 아니면 data engineer의 관점으로 데이터들을 분류하여 tagging 했는지가 궁금하네요..!

또한, 이런 labeling작업을 하실 때, 몇 개의 데이터 또는 몇 개의 테이블을 정의하는데 있어서 얼만큼의 시간이 들었는지도 답변주시면 감사하겠습니다!