ftnext / PyConTalkSummary

PyConで聞いたトークのサマリーをIssueに蓄積(arXivTimesリスペクト)
0 stars 0 forks source link

[PyCon JP 2022] Pandas卒業?大規模データを様々なパッケージで高速処理してみる #50

Open ftnext opened 1 year ago

ftnext commented 1 year ago

一言でいうと

大規模データについてpandasの限界を示すとともに、dask, vaex, PySparkでの扱いをAPIの違いや実行速度、メモリ使用量で比較

発表資料リンク

https://2022.pycon.jp/timetable?id=7YAHLF

発表者/所属

fujineさん

発表日付

2022/10/14 (「Pythonとアスタリスク」を発表していた裏のトーク)

概要

https://scrapbox.io/nikkie-memos/Pandas%E5%8D%92%E6%A5%AD%EF%BC%9F%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E6%A7%98%E3%80%85%E3%81%AA%E3%83%91%E3%83%83%E3%82%B1%E3%83%BC%E3%82%B8%E3%81%A7%E9%AB%98%E9%80%9F%E5%87%A6%E7%90%86%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B

まとめスライド:https://speakerdeck.com/mhrtech/pyconjp2022-hpc?slide=41


[以下はオプション]

新規性・差分

トークで知って試したいこと

Pandasまわりの色々なパッケージが知られた。 pandasをバリバリ使うことになったら思い出したい

感想

エコシステムのライブラリの比較という発表形式も興味深かった