ニュース

Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1 ...
Spark SQLはこれらを1個のステージ内にあるこういったオペレーターを全部一緒にCode Generationして、こういうシンプルなかたちのコードにして、よりコンパクトで高速なJavaコードになるようになっています。 ただ、これはちょっと欠点があります。
SQLインターフェースを提供する「Spark SQL」、グラフ化機能の「GraphX」、ストリーミングを扱う「Spark Streaming」、機械学習機能の「MLlib」という4つの標準ライブラリのほか、必要に応じて他のライブラリを組み合わせて利用することが可能だ。
現在、D2Cでは、このApache Sparkベースのテキストマイニング、データマイニング技術をサービスに適用し始めています。
At GTC 2023, Nvidia's director of engineering Sameer Raheja shared how Rapids can accelerate Apache Spark data jobs at much lower cost.