mazyu36の日記

某SIer所属のクラウドエンジニアのブログ

PySpark

Glueの個人的チートシート

AWS Glueは個人的に好きなサービスでよく使います。 自分がよく使う情報源やメモについてまとめておきます。 ※PySparkジョブをよく使うのでそれ関連のメモが中心です

PySparkの個人的チートシート

PySparkを使用する機会が増えてきたので、個人的によく見返しすメモをまとめておきます。全般的にRDDではなくDataFrameを使用しています。 AWSでSparkが使えるサービスと言うとGlueやEMRが定番の印象ですが、最近ではAthenaやRedshiftでも使えるようになりま…