馬の脳: 2月 2013

2013年2月11日月曜日

GitLab4.1（Ubuntu 10.04 LTS + RVM）をインストールしてみた

GitLabとはGitHub4.3のクローンのオープンソースソフトウェアです。
今回は仮想マシンにUbuntu 10.04 LTS 64-bitをクリーンインストールしてやってみた。
基本的に本家のGitページのdoc/install/installation.mdを参考に行っただけ。
ただし、RVM（ルビーの仮想環境）を使ったのでやり方が微妙に異なります。
普通のやり方と異なるところだけ書きます。それ以外は１から順番にやってください。

2. Ruby

RubyはソースからインストールしないでRVMからインストールする。ユーザーtaro（Admin）がいるとします。taroでインストールしていきます。今回はMulti-Userモードでインストールして、どのユーザーもRVMを使えることを想定しています。
まず、RVMのインストール。通常は次のコマンドでOK。

taro$ \curl -L https://get.rvm.io | sudo bash -s stable

もしプロキシを使っていてうまく行かなかった場合は、環境変数HTTPS_PROXYをtaroで設定していたら、sudoに環境変数を渡すために-Eオプションをつけます。この後も、ネットワーク問題でハマったら、sudo -Eとしてください。

taro$ \curl -L https://get.rvm.io | sudo -E bash -s stable

これで、/usr/loca/rvmにrvmがインストールされました。

今回は、taroをrvmのAdminにするためにグループにtaroを追加して書き込み権限を付与します。

taro$ sudo usermod -aG rvm taro

~/.bashrcなどに以下を追加。

source /etc/profile.d/rvm.sh

ログインしなおして

taro$ id

...rvmがグループに追加されているのを確認

ruby 1.9.3のインストール

taro$ rvm install 1.9.3
taro$ rvm use --default 1.9.3

この時点ではbundlerはインストールしない。あとで、ユーザーgitlab（3. System Usersで追加される）だけにインストールする。

Install Gems

ユーザーgitlabにrvm環境を設定する。

taro$ sudo su - gitlab

~/.bashrcなどに"source /etc/profile.d/rvm.sh"を追加して再読み込み。

gitlab$ source .bashrc

gitlabユーザー固有のgemsetを作る。

gitlab$ rvm user gemsets
gitlab$ rvm istall 1.9.3
gitlab$ rvm use --default 1.9.3
gitlab$ rvm gemset create
gitlab$ rvm gemset use default
gitlab$ rvm gemset install bundler
gitlab$ rvm gemset install charlock_holmes --version '0.6.9'

DBにはMySQLを使ったので、without postgresでインストール。

gitlab$ cd /home/gitlab/gitlab
gitlab$ bundle install --deployment --without development test postgres

Initialise Database and Activate Advanced Features

taro$ sudo su - gitlab
gitlab$ cd gitlab
gitlab$ bundle exec rake gitlab:setup RAILS_ENV=production

ここでしくじる。execコマンドがないと怒られる。調べると、issueが投稿されてた。Squeeze-backportsリポジトリからredis-serverを入れなおせとのこと。多分RedisServerが古かったのかと思われる。Ubuntu10.04。リポジトリを追加するために、/etc/apt/sources.list.d/squeeze-backports.listというファイルに

deb http://backports.debian.org/debian-backports squeeze-backports main

を書いて保存

taro$ sudo apt-get update

キーが認証されてないとか言われたので、

taro$ sudo -E apt-key adv --keyserver keyserver.ubuntu.com --recv-keys AED4B06F473041FA
taro$ sudo apt-get update
taro$ sudo apt-get remove redis-server
taro$ sudo apt-get -t squeeze-backports install redis-server

インストールされたので、再度

gitlab$ bundle exec rake gitlab:setup RAILS_ENV=production

Check Application Status

taro$ sudo su - gitlab
gitlab$ cd gitlab
gitlab$ bundle exec rake gitlab:env:info RAILS_ENV=production
gitlab$ bundle exec rake gitlab:check RAILS_ENV=production

これで動きました。ローカルではない場合もservernameなどちゃんと設定すれば動きます。参考： http://d.hatena.ne.jp/hiro_nemu/20120811/1344656084

2013年2月6日水曜日

Chromeで埋め込みのyoutube動画が再生されないときの対処法

要はクッキーを削除すれば良いとか。設定を開く（英語ですがわかりますよね。まんまコピってきました。）

設定（Settings）を開く

下の方にあるShow advanced settings（上級者向け設定？）をクリック

プライバシー設定のところの「ブラウジングデータ消去」的なことが書かれているボタンを押す。

すると下のボックスが表示されれるので、「最初」とか「全部」とかに合わせて上の4つをチェックして消去ボタンを押す。

これで動いた。

2013年2月5日火曜日

Scipy.WeaveでPythonにC++埋め込み 5 Numpyの利用

前回の続き
前回はweave.inlineメソッドへのNumpy受け渡しの基本事項について書きました。今回は実際に計算をしていきます。
まず、前回にもお見せした、行と列のインデックスを足して3の倍数となる要素を0にする計算のpure Pythonバージョンをお見せします。

def numpy_mult3_0_pure(npArr):
    for r in xrange(npArr.shape[0]):
        for c in xrange(npArr.shape[1]):
            if (r + c) % 3 == 0:
                npArr[r, c] = 0

これを次のように呼び出す。

>>> side = 1000
>>> npArr = np.ones((side, side))
>>> numpy_mult3_0_pure(npArr)
>>> print npArr

結果は、以下。

[[ 0.  1.  1. ...,  1.  1.  0.]
 [ 1.  1.  0. ...,  1.  0.  1.]
 [ 1.  0.  1. ...,  0.  1.  1.]
 ..., 
 [ 1.  1.  0. ...,  1.  0.  1.]
 [ 1.  0.  1. ...,  0.  1.  1.]
 [ 0.  1.  1. ...,  1.  1.  0.]]

まったく前回のコピペです。
これのweaveバージョンは以下のようになります。

def numpy_mult3_0_weave(npArr):
    code = """
    for(int r = 0; r < NnpArr[0]; r++) { 
        for(int c = 0; c < NnpArr[1]; c++) {
            if((r + c) % 3 == 0) {
                NPARR2(r, c) = 0;
            }
        }
    }
    """
    weave.inline(code, ['npArr'])

前回やった、N+（変数名）, （変数名大文字）+（次元数）のアクセス用マクロ関数を使えば、上のように書けるのです。どのくらい早くなるのか時間を計測してみます。

side = 1000
npArr = np.ones((side, side))
from context_timer import Timer
with Timer("Pure"):
    numpy_mult3_0_pure(npArr)
with Timer("Weave"):
    numpy_mult3_0_weave(npArr)

このTimerについてはこちらの記事をご覧ください。出力は以下です。

[Pure] Elapsed: 0.272620201111
[Weave] Elapsed: 0.00578308105469

Weaveの方が50倍近く早くなっていることがわかります。こんな感じにPythonコードにC++のコードを書くことで高速化することができます。

Scipy.WeaveでPythonにC++埋め込み 4 Numpyの基本

前回
PythonにはNumpy（とScipy）というMatlabに似たインターフェースを持つ数値計算に非常に便利なパッケージがあるのはご存知でしょう。というか、Weaveについて調べてココにたどり着いたなら、知っていて当然ですね。例えばこんな感じ。

import numpy as np # numpyのインポート

# 乱数配列の生成 2行3列
a = np.random.rand(2,3)
b = np.random.rand(2,3)

# 各要素ごとの掛け算　Matlabだと a .* b
c = a * b

# 行列としての掛け算 Matlabだと a' * b
d = np.dot(a.T, b) # C = A^T * B （Cは2行2列になります）

# 固有値分解
[E, V] = np.linalg.eig(d)

Matlabでできることはほぼ全部できます。しかも、無料で。このページは参考になります。Numpy for Matlab Users
行列演算や要素同士、固有値計算などのメソッドなどはCで実装されているので高速に実行できます。しかし、こういった汎用的な演算でない場合はPython上でループを回したりして配列にランダムアクセスするようなコードを書く必要がでてきます。 Pythonのようなスクリプト言語でそういったコードを書くと激遅になりますよね。例えば、ある配列の行のインデックスと列のインデックスを足した値が3の倍数だったら0に書き換えるというコードをPythonで書くと次のようになります（あまり良い例ではないですが、お許しください！）。

def numpy_mult3_0_pure(npArr):
    for r in xrange(npArr.shape[0]):
        for c in xrange(npArr.shape[1]):
            if (r + c) % 3 == 0:
                npArr[r, c] = 0

これを次のように呼び出す。

>>> side = 1000
>>> npArr = np.ones((side, side))
>>> numpy_mult3_0_pure(npArr)
>>> print npArr

結果は、以下。

[[ 0.  1.  1. ...,  1.  1.  0.]
 [ 1.  1.  0. ...,  1.  0.  1.]
 [ 1.  0.  1. ...,  0.  1.  1.]
 ..., 
 [ 1.  1.  0. ...,  1.  0.  1.]
 [ 1.  0.  1. ...,  0.  1.  1.]
 [ 0.  1.  1. ...,  1.  1.  0.]]

時間を計測すると、0.384463787079[秒]でした。これをWeaveを使ってC化して高速化します。この例に移る前にNumpyをWeaveに使う場合の基本から見ていきます。 weave.inlineはPython変数を渡すと自動的にC内で適当な型に変換してくれます（converterを指定することも可能）。Numpyのndarrayを渡した場合も自動で色々と変換を施してくれます。次の例を見てみます。

def numpy_converted_vars():
    npArr = np.zeros((2, 3, 4), dtype=np.uint16)
    npArr[1, 1, 3] = 1
    print '(py) ndim:', npArr.ndim
    print '(py) shape:', npArr.shape
    print '(py) strides:', npArr.strides
    code = """
    // Number of dimension
    std::cout << "ndim: " << DnpArr << std::endl;
    
    // Shape
    std::cout << "shape:";
    for (int i = 0; i < DnpArr; i++) std::cout << " " << NnpArr[i];
    std::cout << std::endl;
    
    // Strides
    std::cout << "strides:";
    for (int i = 0; i < DnpArr; i++) std::cout << " " << SnpArr[i];
    std::cout << std::endl;
    
    // Access to data as a three dimensional array
    std::cout << "npArr[1, 1, 3]: " << NPARR3(1, 1, 3) << std::endl;
    """
    weave.inline(code, [u'npArr'])

このメソッド内では、まず2×3×4の形のすべての要素が0の３次元配列を作ります。確認の為に[1,1,3]の要素だけ1を代入しておきます。データ型がuint16=2[bytes]で、3次元、C-contiguousのメモリ上のデータ配置で、2 * 3 * 4の形なので、上の3つのprintの結果は

(py) ndim: 3
(py) shape: (2, 3, 4)
(py) strides: (24, 8, 2)

となります。stridesのところとかよくわからない人はこの画像を見て理解するかググってください。

Cのinlineコードの中でこれらにアクセスする方法を見ていきます。ndim, shape, stridesはinlineメソッドの内部でN, D, Sという接頭辞をつけてNnpArr（int）, DnpArr（npy_int*）, SnpArr（npy_int*）という名前で使用可能になります。npy_int型はint64かint32（環境に依存）のtypedefだと思います。実際にCの内部でどのように変換されているかを生成された.cファイルを見てみます。npArrのオブジェクトはCコードの中では、PyArrayObjectというNumpyのC内部での構造体として解釈し、npArr_arrayという名前で使えるようにしてくれています。

PyArrayObject* npArr_array = convert_to_numpy(py_npArr,"npArr");

NumpyのC APIについては各自ぐぐって欲しいのですが、PyArrayObject構造体のメンバにstridesなどがあるので、

npy_intp* NnpArr = npArr_array->dimensions;
npy_intp* SnpArr = npArr_array->strides;
int DnpArr = npArr_array->nd;

で値を取り出してくれています。inlineコードのndim, shape, stridesの出力は次のようになり、python側での出力と一致しています。

ndim: 3
shape: 2 3 4
strides: 24 8 2

肝心のnpArrという名前は以下のように配列のデータへの先頭ポインタのアドレスを取り出したものとして宣言しています。

double* npArr = (double*) npArr_array->data;

一次元配列としてアクセスする場合はnpArr[0]などとアクセスすれば値を取り出せますが、この例では3次元配列なので、stridesを使って要素にアクセス必要があります。たとえばnpArr[i, j, k]にアクセスしたい場合は、以下のようにする必要があります（PyArrayObject*->dataはchar*型）。

*((double*)(npArr_array->data + (i * SnpArr[0] + j * SnpArr[1] + k * SnpArr[2])))

しかし、これはめんどくさい。実はこれをやるためのマクロ関数を最高4次元配列の場合まで定義してくれています。

#define NPARR1(i) (*((double*)(npArr_array->data + (i)*SnpArr[0])))
#define NPARR2(i,j) (*((double*)(npArr_array->data + (i)*SnpArr[0] + (j)*SnpArr[1])))
#define NPARR3(i,j,k) (*((double*)(npArr_array->data + (i)*SnpArr[0] + (j)*SnpArr[1] + (k)*SnpArr[2])))
#define NPARR4(i,j,k,l) (*((double*)(npArr_array->data + (i)*SnpArr[0] + (j)*SnpArr[1] + (k)*SnpArr[2] + (l)*SnpArr[3])

3次元配列の場合はnpArrの名前を大文字にして後ろに3をつけた名前が付けられていますので、上のようにpython側でnpArr[1,1,3]=1で変更した値にNPARR3(1,1,3)でアクセスできています。

npArr[1, 1, 3]: 1

今回はNumpyのweave.inlineへの受け渡しの基本を紹介しました。次回に実際計算してみます。

[Python] try/except/else/finally, with/asなどについてわからなくなったら

初めてのPython(27章) | kobakoba0723の日記
このお方のブログを見る。

[Python] with文を使った実行時間計測クラス（コンテキストマネージャー）

時間計測にはtimeitとかもありますが、もっとお気楽に測る場合の話です。
Matlab - tic, toc functions analog in Python
ここで紹介されていたやり方です。with文では、withの後ろに与えたコンテキストマネージャクラスがステートメント内に入るときに__enter__が呼ばれ（本来asで受け取る変数を返す）、終わりに__exit__が呼ばれます。これを利用して__enter__で時間計測開始を、__exit__で時間計測結果の出力を行い、with文のステートメントの中のプログラムの実行時間を表示します。with文の詳細については「python with文」でぐぐってください。

# context_timer.py
import time
import sys

class Timer(object):
    def __init__(self, name=None, out=sys.stdout):
        self.name = name
        self.out = out

    def __enter__(self):
        self.tstart = time.time()

    def __exit__(self, type, value, traceback):
        if self.name:
            print >> self.out, '[%s]' % self.name,
        print >> self.out, 'Elapsed: %s' % (time.time() - self.tstart)

これを使って、1から1000までの整数の和を計算する時間を測る場合は次のようにwith文を使います。

from context_timer import Timer
with Timer("Sum"):
    val = 0
    for i in xrange(1, 1001):
        val += i
    print val

出力は次のようになります。

500500
[Sum] Elapsed: 0.00104784965515

2013年2月3日日曜日

Windows 7 64bit でPython環境構築

科学計算をやっている人向けにPythonの環境を簡単に構築できるPython(x,y)は非常に便利ですが、32bit向けのインストーラしか用意されていません。そのため、64-bit版を自分でビルドする必要があります。BLASだATLASだ、色々依存するライブラリをインストールしなくてはならないので結構大変です。そこで、UCIのGohlkeさんという方が公開しているインストーラ群を利用します。

まず、Pythonの64bit版を自分でインストールします。
例えば、Pythonのバージョン2.7でのインストールの場合、下記URLから「Python 2.7.3 Windows X86-64 Installer」のリンクをクリックしてインストーラをダウンロード、インストールしてください。
http://www.python.org/getit/
http://www.python.org/ftp/python/2.7.3/python-2.7.3.amd64.msi（インストーラ直リンク）

ここまでは非常に簡単です。本来、ココからがNumpyやScipyなどをインストールするのは大変な作業ですが、Gohlkeさんのページにあるインストーラを使えば簡単です。感謝です。
Unofficial Windows Binaries for Python Extension Packages
インストールしたいパッケージを探し、利用するPythonのバージョンと「amd64」をファイル名に含むインストーラをダウンロードしてインストールしてください。例えば、Scipyをインストールする場合、「scipy-0.11.0.win-amd64-py2.7.‌exe」を利用します。「Requires Numpy-MKL. 」と書かれているので、「numpy-MKL-1.6.2.win-amd64-py2.7.‌exe」もインストールします。この要領でその他のパッケージもインストールできます。

2013年2月1日金曜日

Numpy.Arrayが整数（Integer）型か浮動少数（Float）型か調べる

数値計算していると、整数型の配列を数値で割ったりすると

>>> a= np.ones(10, dtype=np.uint8)
>>> a /= 10.0
>>> print a
[0 0 0 0 0 0 0 0 0 0]

てな具合に0.1ではない結果になってしまう。

こんな場合は、arrayが整数型か浮動少数型か分けて処理をしたいとか、整数型だったら例外を投げるとかいう処理する必要があります。
例えば、

def normalize(arr):
    arr /= arr.sum()

というメソッドがあったとして、これに整数型を渡すと切り捨てられてしまうので、浮動少数型に限定したい。この場合、np.issubdtypeというメソッドで型が整数か浮動少数か調べます。

def normalize(arr):
    if np.issubdtype(arr.dtype, np.integer):
        raise ValueError("arr must be float.")
    arr /= arr.sum()

みたいな感じ。浮動少数か調べるにはnp.floatを使えばいいはず。
他に良い方法があったら教えて欲しいです。

登録: 投稿 (Atom)