コンサルでデータサイエンティスト

仕事でPythonを書いてます。機械学習、Webマーケティングに興味があります。趣味は旅です。

Scala

Sparkで使える機械学習(ML)パッケージについてまとめる

機械学習を扱うSparkアプリケーションの開発を行うにあたり、Spark上で使用することのできる機械学習パッケージ(ライブラリ)について調べてみたのでまとめます。 はじめに 機械学習を扱うような分析タスクや、機械学習を活用したソリューションの開発タスク…

Scalaの配列(リスト)の各要素の出現個数をカウントする

Scalaの配列(リスト)の各要素の出現個数をカウントする方法について調べたのでまとめます。Pythonであればcollections.Counterやcountメソッドで実現できることを、Scalaでは関数型言語の思想に近い形で記述することができます。記事の後半ではおまけとし…

Scalaでパッケージをインポートする

Scalaでパッケージおよびライブラリをインポート(import) する方法についてご紹介します。 Scalaに入門したばかりの私が、次の入門書を参考にしながらまとめました。実践Scala入門作者: 瀬良和弘,水島宏太,河内崇,麻植泰輔,青山直紀出版社/メーカー: 技術評…

【Scala入門】 ScalaでFizzBuzz問題を解く

Apache Sparkの学習の一環としてScalaに触れてみることにしました。 本記事では、Scalaの基本的な構文を確認した後にFizzBuzz問題を解いていきます。 SparkとScalaの関係性について詳しく知りたい方はこちら hktech.hatenablog.com FizzBuzz問題とは FizzBuz…

Apache Spark: PythonとScalaのどっちを使うべきか比較する

データサイエンスプロジェクトで Spark を使う場合、必ず議論に上がるのがPythonとScalaのどちらのプログラミング言語を採用すべきかということです。Sparkは元来Scalaで書かれているため、Scalaで処理コードを書いていくのが直感的にも自然なことです。しか…