2018-09-10

PythonでCSVからJSON形式に変換する方法

Pythonを用いてCSVからJSON形式に変換する方法についてソースコードと共にご紹介します。

CSVデータの1行目にヘッダーがある場合
CSVデータの1行目にヘッダーがなく、自分で指定したい場合
まとめ
参考

f:id:hktech:20180911214935p:plain

CSVデータの1行目にヘッダーがある場合

import json
import csv

json_list = []

# CSV ファイルの読み込み
with open('input_data.csv', 'r') as f:
    for row in csv.DictReader(f):
        json_list.append(row)

# JSON ファイルへの書き込み
with open('output.json', 'w') as f:
    json.dump(json_list, f)

# JSONファイルのロード
with open('output.json', 'r') as f:
    json_output = json.load(f)

CSVデータの1行目にヘッダーがなく、自分で指定したい場合

import json
import csv

json_list = []
keys = ('column1', 'column2', 'column3') # 列数と要素数を一致させる

# CSV ファイルの読み込み
with open('input_data.csv', 'r') as f:
    for row in csv.DictReader(f, keys):
        json_list.append(row)

# JSON ファイルへの書き込み
with open('output.json', 'w') as f:
    json.dump(json_list, f)

# JSONファイルのロード
with open('output.json', 'r') as f:
    json_output = json.load(f)

まとめ

PythonでCSVデータをJSON形式に変換する方法についてご紹介しました。最近よく使われているNoSQLデータベースなどでは、入力がJSON形式に限定されていることも多いので、この記事を参考にしてみてはいかがでしょうか。

参考

14.1. csv — CSV ファイルの読み書き — Python 3.3.6 ドキュメント

2018-09-09

はてなブログでソースコードを表示させる方法

はてなブログ

エンジニアの方のブログでよく見かける、プログラムなどのソースコードを載せる方法についてまとめます。

準備
- はてな記法モードへの変更方法
はてなブログにソースコードを表示させる
まとめ

準備

大前提として、ブログの設定を「はてな記法モード」に変更する必要があります。

はてな記法モードへの変更方法

[設定] タブ＞ [基本設定] に移動します。

f:id:hktech:20180909030246p:plain

デフォルトでは「見たままモード」になっているので、「はてな記法モード」に変更しましょう。

f:id:hktech:20180909030251p:plain

ソースコードを載せたのにうまく表示されないという場合のほとんどはこのステップが抜けていると思うので確認してみてください。

はてなブログにソースコードを表示させる

Python のソースコードを表示させるためには、下記のように記述してください。

>|python|
import numpy as np
arr = np.array([1, 2, 3])
||<

私たちが見慣れたソースコードの表示スタイルになりましたね

import numpy as np
arr = np.array([1, 2, 3])

||の中身は他のプログラミング言語に変更することもできるので、表示させたいプログラミング言語の種類に応じて変えてみてください

例: java, javascript, ruby ....

(参考: ソースコードを色付けして記述する（シンタックス・ハイライト） - はてなダイアリーのヘルプ)

まとめ

はてなブログでソースコードを表示させる方法についてまとめました。普段は見たままモードで編集している方も、ソースコードを表示させたいときだけはてな記法モードに切り替えるなど工夫をしてみてはいかがでしょうか。

2018-09-06

【Python】ゼロから始めるWindowsユーザ向け環境構築のすすめ

Python Jupyter notebook

Python を始めてみようかな〜というWindowsユーザーの方のために、最速で簡単にPythonのコードを書き始められる方法をご紹介します。

特に、Windows は Mac と比べて仮想OSのインストールが必要だったりとプログラミング初心者にはとっつきにくいところがあります。また、Python入門サイトや初心者向けの記事をみても、Python2系と3系のどちらがいいとか、ディストリビューションはどれがいいかなどといった議論が展開されていて結局なにをすればいいかわからないまま諦めてしまう方も多いかと思います。そんなみなさんにおすすめの環境構築方法を紹介します。

結論
インストール
Python のコードを書き始める
まとめ

結論

Anacondaというパッケージを使いましょう。

Pythonを始めたいと考えた方の中には、いま流行りの機械学習やディープラーニングなどを試してみたいと考えている方もいるでしょう。こちらのパッケージを使えば、あとから色々とインストールをする必要もなく、手軽にプログラミングを始めることができます。

インストール

まず、下記サイトからインストーラーをダウンロードしてください。

www.anaconda.com

Python2系 (2.x version) または Python3系 (3.x version)の選択を求められますが、ここはなにも考えずに左側のPython3系をダウンロードしましょう。

f:id:hktech:20180906000542p:plain

ダウンロードが終わったらインストーラを実行しましょう。

インストーラは全て英語なのでここで挫折してしまう人もいるかもしれません。しかし、ここはなにも変えずに Next, Install, Finish を押しまくればOKです。

Python のコードを書き始める

Finishでインストールが完了したら、スタートメニューの検索ボックスで Anaconda と検索しましょう。正常にインストールされていれば、Anaconda3というフォルダが見つかると思います。こちらの Jupyter Notebook をクリックしましょう。

f:id:hktech:20180906002650p:plain

すると、ブラウザが立ち上がり、次のような画面が現れると思います。

このとき立ち上がるブラウザはみなさんの既定となります。基本的に Google Chrome が推奨されていますが、他のブラウザでも動くと思います。もし気になる方は、アドレスバーのリンクをコピーして、Google Chrome のアドレスバーに貼り付けましょう。

f:id:hktech:20180906002917p:plain

ここで見えているのは、Windows上のディレクトリ階層です。これはWindowsのエクスプローラと対応しています (Desktop → デスクトップ、 Documents -> ドキュメント)。コードを書くファイルをどこに置くかという話なので基本的にはどこでもいいですが、よくわからない方は適当にDocumentsをクリックしてその階層に入りましょう。階層が切り替わったら、右上の New ボタンを押し、Python 3 と書かれたボタンを押します。

f:id:hktech:20180906003711p:plain

あとは好きにコードを書くだけです。Python はスクリプト言語なので、1行ずつ実行できます。Jupyter notebookでは1行ずつ出力しながら、必要に応じて文章なども差し込むことができてとても便利です。

まとめ

Windows で Python の開発環境を構築する方法についてご紹介しました。半ば押し付けるようにAnacondaがおすすめと書きましたが、基本的に後悔することはないと思います。また、Jupyter notebookについては、初めは多少違和感があるものの、Python コードを試し書きする上では最善のツールだと思います。今後は初心者向けにPythonのコーディング入門を紹介したいと思います。

2018-09-05

オートエンコーダを用いた異常検知についてまとめた

異常検知機械学習

ニューラルネットワークおよび Deep Learning の応用として、オートエンコーダを用いた異常検知について紹介します。

オートエンコーダとは
オートエンコーダを用いた異常検知
まとめ

オートエンコーダとは

オートエンコーダ (Auto encoder) とは自己符号器と呼ばれるニューラルネットワークの一種です。ニューラルネットワークにはさまざまな役割を果たすものがありますが、オートエンコーダは入力データを次元削減して圧縮し、出力データを生成するニューラルネットワークです。この圧縮処理はエンコードと呼ばれ、オートエンコーダの名前の由来となっています。

統計・機械学習分野で使われている次元圧縮手法としては主成分分析 (PCA) が有名ですが、オートエンコーダの圧縮処理はこれとほとんど同じであると考えてよいでしょう。

ニューラルネットワークは入力データに対して、所望の出力になるように内部の重みを調整していくことで学習を行います。オートエンコーダでは、入力と出力が同じになるようにネットワークの学習を進めます。

オートエンコーダを用いた異常検知

オートエンコーダを用いて異常検知を行う方法についてご紹介します。オートエンコーダは学習された入力データについては、同じようなデータを出力しようとします。ここで、入出力されるデータとしては波形を想像してみてください。

学習がうまくできているオートエンコーダを使えば下記のような結果が得られます。

正常波形入力 → 学習した波形と同じような波形の出力
異常波形入力 → 学習した波形とは異なる波形の出力

このように、オートエンコーダの復元結果をもとに異常検知を実現することができます。

まとめ

オートエンコーダを用いた異常検知について紹介しました。ニューラルネットワークを用いることから、構造データや時系列データに限らず、画像データや文書データなどにも使えるという利点があります。簡単な異常検知手法がうまく適用できないような場面で、ぜひ試してみてはいかがでしょうか。

深層学習 (機械学習プロフェッショナルシリーズ)

作者: 岡谷貴之
出版社/メーカー: 講談社
発売日: 2015/04/08
メディア: 単行本（ソフトカバー）
この商品を含むブログ (13件) を見る

2018-09-04

Local Outlier Factor (LOF) による外れ値検知についてまとめた

異常検知機械学習

教師なし学習に分類される異常検知技術のなかでも、外れ値検知という分野は近年多くのシステムで導入され始めています。今回は、外れ値検知技術のひとつであるLocal Outlier Factor (LOF) について紹介します。

Local Outlier Factor (LOF) とは
定式化
まとめ

Local Outlier Factor (LOF) とは

LOF はあるデータの集まりの中から外れ値を見つけ出す外れ値検知アルゴリズムのひとつです。原論文*1は2000年に発表で最新技術とは言えないものの、現在も実務に耐えうる検知性能とシンプルな実装が魅力的な手法です。

LOFは空間におけるデータの密度に着目します。特に、自身の点から近傍 k 個の点といかに密かであるかを表す局所密度 (Local density) という指標に注目します。なお、ここでいう k 近傍とはある点から最も距離が近い k 個の点のことです。この辺りが怪しい方は k-means や k-NNについて確認しておくといいでしょう。

hktech.hatenablog.com

局所密度は、周りにある点との密度であるということをお伝えしました。これを簡単な式で書くと下記のように表すことができます。

$局所密度 = \frac{1}{近傍 k 個の点との距離の平均}$