コンサルでデータサイエンティスト

仕事でPythonを書いてます。機械学習、Webマーケティングに興味があります。趣味は旅です。

Python

Amazon Location APIとPythonを使って住所を緯度経度に変換する

位置情報系の分析をしていると、店舗などの住所情報を緯度経度に変換したいケースがあるかと思います。今回は2020年12月にリリースされたAWSの位置情報サービスであるAmazon LocationをPythonから操作することでテキストの住所から緯度経度情報を取得してみ…

Sparkで使える機械学習(ML)パッケージについてまとめる

機械学習を扱うSparkアプリケーションの開発を行うにあたり、Spark上で使用することのできる機械学習パッケージ(ライブラリ)について調べてみたのでまとめます。 はじめに 機械学習を扱うような分析タスクや、機械学習を活用したソリューションの開発タスク…

データサイエンティストが競技プログラミングをやるべき理由

前回の記事からだいぶ時間があいてしまいましたが、平成最後ということでひとつ書かせてください。 はじめに 先日登壇した勉強会で「データサイエンティストはエンジニアリングスキルを高めるべき」という趣旨の主張を展開した上で、「エンジニアリングスキ…

Apache Spark: PythonとScalaのどっちを使うべきか比較する

データサイエンスプロジェクトで Spark を使う場合、必ず議論に上がるのがPythonとScalaのどちらのプログラミング言語を採用すべきかということです。Sparkは元来Scalaで書かれているため、Scalaで処理コードを書いていくのが直感的にも自然なことです。しか…

pandasのTimestampで決まった範囲の時刻リストを作る

Python で日時関連のデータ操作をするときにdatetime モジュールを使用されている方も多いと思いますが、pandasを使ったTimestamp関連の操作が便利なので個人的にはおすすめです。本記事は時刻を含むデータを処理する際に、決まった範囲の時刻リストを作りた…

Pythonでk-NNをフルスクラッチで実装してみた

Scikit-learnを始めとしたパッケージが充実してきているおかげで、データ分析に関わる人もスクラッチから機械学習モデルを実装する機会が少なくなっています。しかし、機械学習モデルを理解するためにはそのモデルを実装してみるのが一番早いと言われていま…

One class SVM による外れ値検知についてまとめた

はじめに 異常検知技術が実用システムに導入される例が増えています。今回は外れ値検知手法として人気が高いアルゴリズムのひとつであるOne class SVMについてご紹介します。One class SVMとは、機械学習の分類アルゴリズムである Support Vector Machine (S…

PythonでLocal Outlier Factor (LOF)を実装してみた

目次 はじめに Scikit-learnによるLOFの実装 まとめ はじめに 教師なし学習のひとつとして異常検知という分野があります。その中に含まれる手法として、正常時の状態から外れた点を見つけ出す外れ値検知手法があります。外れ値検知は実アプリケーションにも…

Pythonで決定木分類器をフルスクラッチで実装してみた

機械学習モデルをスクラッチから実装しようと思い立ったので、第一歩として決定木分類器(Decision Tree Classifer) をPythonで実装してみました。RandomForestやXGBoostなどといった決定木系の機械学習アルゴリズムを使う場面も多いと思うので、その基礎とな…

Pythonを使ってカメラ映像をプレビュー表示しながら動画として保存する

画像を扱う仕事をしていると、カメラを使って自ら画像を撮影しなければいけない場面がありますよね。今回はPCの内臓カメラやUSBカメラを使って、カメラ映像を動画として保存するコードを実装したのでご紹介します。 準備 OpenCVをインストールします。 pip i…

Pythonを使ってDynamoDBにJSONデータをインポート(アップロード)する

Pythonを使って、AWSを代表するNoSQLデータベースであるDynamoDBにJSONデータをインポート(アップロード)する手順およびスクリプトについてご紹介します。目次 DynamoDBのテーブルを作成する Python を使ってDynamoDBにJSONデータをインポートする まとめ …

リスト内包表記を使ってPythonのリストの要素を条件付きで検索・抽出

コードを書く仕事をしていると、Pythonでリストの中から条件に一致する要素だけを抽出するようなスクリプトを書く機会も少なくないと思います。このようなとき、普通はforループを使って書いてしまいたくなるのですが、Pythonのリスト内包表記を使えば、「こ…

PythonのおすすめWebフレームワーク flask 入門

初心者向けに、おすすめのPythonのWeb開発フレームワークのひとつである flask の概要と簡単な実装例についてご紹介します。 目次 PythonのWebフレームワーク Django と flask の違い Django flask flask で Webサイトを作る 準備 ファイル構成 Python ファ…

PythonでCSVからJSON形式に変換する方法

Pythonを用いてCSVからJSON形式に変換する方法についてソースコードと共にご紹介します。目次 CSVデータの1行目にヘッダーがある場合 CSVデータの1行目にヘッダーがなく、自分で指定したい場合 まとめ 参考 CSVデータの1行目にヘッダーがある場合 import jso…

【Python】ゼロから始めるWindowsユーザ向け環境構築のすすめ

Python を始めてみようかな〜というWindowsユーザーの方のために、最速で簡単にPythonのコードを書き始められる方法をご紹介します。 特に、Windows は Mac と比べて仮想OSのインストールが必要だったりとプログラミング初心者にはとっつきにくいところがあ…