時には機動警察パトレーバーのように、あるいは、600 万件のデータ加工を

投稿日: 2011/05/31 作成者: masuda

たまぁーに、１巻だけ取り出して読み進めて、最後の熊耳巡査が出てくるところ（手元にあるのは文庫本）で、毎度思うところがある。

泉巡査がイングラムの能力を十分引き出せないのは何故か？格闘技術に疎いから、という結論になるのだけれど、イングラムというハードウェアに、イングラムを動かすソフトウェア（学習機能付き）が乗り、更に人の動かし方が最終的にイングラムの能力を決定づける（「個性」ともいうし、「個体差」ともいう）、という流れになる。

ハードウェアというのは、パソコンだったり、CPU だったり、メモリだったりするわけで、OS というのは、Windows だったり、Mac だったりする。いや、OSの取り方をもうちょっと広げれば、SQL Server だったり、Oracle だったり、.NET Framework だたり、するわけです。で、これを使うのが人なわけで、この場合はプログラマなのですね。

最近のハードウェアは 10 年前よりもぐんと良くなっているわけで、メモリが 2GB なんてのは当たり前で、HDD も 500GB という形で桁が違います。なので、同じ大量のデータを扱うにしても、昔のデータベースの扱い方と、最近の扱い方では全く違う…と言いますか、ハードウェアが違うところに人が関わって、でてくる性能に大きな違いがでます…と言いますか、作り方によって全く違うってのを実感しています。

たまたま、600 万件のアクセスログを解析しようと思ったわけですが、この 600 万件というデータ、10 年前だったら Oracle でもひいこらいう程度のものなので、ちょっと躊躇しました。テキストデータで 2GB 弱あるわけです。
で、ひとまず、手元の SQL Server 2008 Experss Edition にテキストデータを入れて、データ解析をしてみると、これが早い早い。最初のインポート（C# で作りました）はツールの作りが悪いのか、2 時間程データ挿入に掛かるのですが、その後データを加工する場合は、クエリを使うと結構のスピードで動きます。

インデックスが無い状態でも、全検索で 3 分位で結果がでるし、適当なインデックスをつければ 2,3 秒かからずに結果がでてきます。データの加工ですら、1 分位で済みます。

データ加工するところは、

25/May/2011:23:58:39 +0900

のようなアクセスログの日付データを、データベースの Datetime 型に直します。
なので、update 文で使えるように、

2011-5-25 23:58:39

な風に変えないと駄目なわけです。

最初は、C# のツールを使ってやろうと思ったのですが、そもそも SqlCommand を使って insert 文を使ってデータ挿入をすると、600 万件挿入するのに 2 時間かかるわけです。ということは、同じように SqlCommand を使って update 文を使ってデータを変更すると、2 時間掛かるのではないか？という予想が経ちますね。
データ加工のたびに、こんなに時間が掛かってしまってはろくなデータ解析ができません。

で、この遅い理由としては、

SqlCommand の呼び出しで、SQL Server との通信が入っている。
SqlCommand の呼び出しで、.NET Framework とネイティブデータの変換が入っている。
SqlCommand の呼び出しで、insert 文の解析が Sql Server で行われている。

が考えられるわけです。

1 の場合は、データ通信がなくなるように直接 SQL Server 上で行います。今回は、同じパソコン内でデータベースを動かしているので、あまり関係がないでしょう。
2 の場合は、C# でツールを作る限り駄目です。.NET Framework(実は Java も同じ)の場合は、.NET とネイティブデータの変換が必ず入ってしまうので、C/C++ で直接データを書き込むよりも遅くなるのは当たり前なのです。これは、SQL Server 自体が C/C++ で書かれている（内部データ自体は単なるバイナリ形式）であろうことから予想ができます。
3. SQL 文を解析しないようにして、bulk データを挿入できればよいのですが、あいにく SQL Server には bulk 以外にデータを挿入する方法がありません。SQLite みたいに SQL 文ではない形でデータ加工ができればよいんですけどね。

という訳で、2 時間の作業を短縮させるためには、2 のように .NET で書かないという方法を取らないと駄目なのです。

さて、ツールを作るならば C/C++ を使ってもよいのですが、結構面倒です（ADOを扱えばいいんですが、まぁ、面倒と言えば面倒）。なので、SQL Server で直接クエリを実行するようにします。

直接クエリを実行する場合は、SQL Server Management Studio でクエリ文を作るか、最終的にファンクションあるいはストアドプロシージャにしてしまうかです。

で、ざっくりと作ったの以下です。

CREATE function [dbo].[getltime]
( @d as varchar(50) )
returns datetime
as
begin
declare @dt varchar(50)
declare @i int
declare @day   varchar(10)
declare @month varchar(10)
declare @year  varchar(10)
declare @time  varchar(20)
declare @gmt   varchar(20)
declare @ltime datetime
declare @gtime datetime

if @d is null 
  return null

set @dt = @d
set @i = CHARINDEX( '/', @dt )
if @i = 0 
 return @d

set @day = SUBSTRING( @dt,0,@i )
set @dt = RIGHT(@dt,LEN(@dt)-@i)
set @i = CHARINDEX( '/', @dt )
if @i = 0 
 return @d
set @month = SUBSTRING( @dt,0,@i )
set @dt = RIGHT(@dt,LEN(@dt)-@i)
set @i = CHARINDEX( ':', @dt )
if @i = 0 
 return @d
set @year = SUBSTRING( @dt,0,@i )
set @dt = RIGHT(@dt,LEN(@dt)-@i)
set @i = CHARINDEX( ' ', @dt )
if @i = 0 
 return @d
set @time = SUBSTRING( @dt,0,@i )
set @gmt = RIGHT( @dt, len(@dt)-@i )
set @month = REPLACE(@month,'May','5')

set @gtime = CAST( @year+'-'+@month+'-'+@day+' '+@time as datetime )
if SUBSTRING(@gmt,0,1) = '+' 
begin
	set @gmt = (SUBSTRING(@gmt,2,2)+':'+SUBSTRING(@gmt,4,2))
	set @ltime = @gtime - @gmt
end
else
begin
	set @gmt = (SUBSTRING(@gmt,2,2)+':'+SUBSTRING(@gmt,4,2))
	set @ltime = @gtime + @gmt
end 

-- select @year, @month, @day, @time, @gmt, @ltime, @gtime , @gmt 
return @ltime
end

月の表示(May)が、いい加減ですが、まぁ汎用的に作るつもりはないので、これで良しとします。

これをあらかじめ作成しておいて、

update log set ltime = getltime([date])

で動かせばよいわけです。

これがどのくらいのスピードで動くのかというと、600 万件のデータを加工するに 3 分程度なんですね。
その、なんといいますか、ADO.NET が如何に遅いか、というのが分かるのです。いや、こんなに違うとは思わなかったのですが…ちょっと、.NET でデータベースを扱うときは、加工の仕方を考え直したほうがいいですね。

という話でした。

カテゴリー: 開発, C# パーマリンク

時には機動警察パトレーバーのように、あるいは、600 万件のデータ加工をへの5件のフィードバック

konica のコメント:

2011/05/31 9:51 am

最初からMySQLにぶち込めばよかったと今理解ｗ
そうすれば、独自の解析をＷＥＢ上で見れたと・・・
どんまい私ｗ
masuda のコメント:

2011/05/31 10:07 am

いやぁ、MySQL だと 600 万件はきついかも。Web 上で PHP 経由でアクセスしようとすると、途中で止めれなくなるので、MySQL が暴走しかねないです。。。１ヶ月前、この wordpress でつかっている MySQL も無駄にホスト会社経由でリセットしたし。
データ量が多い場合は、手元のローカルマシンを使うほうがベターです。

ちなみに、先の解析は、2GHz 2GB の３年前ほどのパソコン。

MySQL で 600 万件の場合は、実体験したほうがいいなぁと思うけど、どうなんでしょうねぇ？
- masuda のコメント:
  
  2011/05/31 10:08 am
  
  追記
  考えてみたら twitter のバックエンドは MySQL だから、そこそこデータ量が多くてもいけるのかな。
konica のコメント:

2011/05/31 11:01 pm

一応テストした（´・ω・）ｽ
・・・現実問題無理。

インサート自体もPHPからは入れ込み設定で許容しても、
止まるし、かつハングぎみ(XEON3.0)
twitter やら他の場合、クエリ出すならどうにか分散でいけるかと思うけど、
その場合でも入れ込む時に2G近いとbigdumpみたいに分けるし、
分けるには一回のインサートを分割となると・・・・

700MBまでですね・・・なんとなく。
- masuda のコメント:
  
  2011/06/07 4:25 pm
  
  むしろ、.NET から MySQL に insert するとうまくいったりして、とか思ったり。
  アクセスリストを１ヶ月分ぐらいは手軽に扱いたいので、インサートを含めてちょっと調査中です。
  SqlBulkCopy を使うと、とんでもなく早いので、解析は SQL Server 上でも良いかと思ったり。.NET -> MySQL でインポートして、MySQL -> PHP で表示でも良いんだなぁと。

コメントは停止中です。

検索:
2024年5月

日月火水木金土

1 2 3 4

5 6 7 8 9 10 11

12 13 14 15 16 17 18

19 20 21 22 23 24 25

26 27 28 29 30 31

« 4月
MVP Visual C++ 2011-
MVP ASP.NET/IIS 2012-
MVP Visual C# 2013, 2014
MVP Windows Development 2015-2023
■ ■ ■ ■
最近の投稿
最近のコメント
- 学童でプログラミング教室を開いた3年間の話に masuda より
- 学童でプログラミング教室を開いた3年間の話につっちんより
- Windows で Raspberry Pi のバックアップを取る方法に Raspberry Piでキオスク端末を | Nacky – Snowland.net より
- Microsoft OCR をデスクトップのWFPアプリで動かす方法に Office系ソフトでOCRしたい　より
- SQLite で LINQ を使うに C#でSQLite3を使ってみる | IT技術情報局より
- Xamarin.Forms でドラッグを実装しよう（Xamarin.Forms on Android編）に GITARAKULU より
- HDDのアクセススピードは VMWare に影響するのか？に SIREN より
- [win8] 画像加工をDirectXに任せて、UIはC#にする技に WindowsストアアプリでDirect2D描画のRGB値を得る方法を考えてみた。 « M-AE、山科駐在員のブログより
- [win8] metro アプリケーションからデスクトップアプリにプロセス間通信するに jun maeda より
- 必ず成功するための100の開発手順(メモ) に masuda より
menu
アーカイブ
- 2024年5月 (1)
- 2024年4月 (10)
- 2024年3月 (4)
- 2023年7月 (1)
- 2023年6月 (2)
- 2023年5月 (6)
- 2022年12月 (1)
- 2022年9月 (2)
- 2022年8月 (1)
- 2022年7月 (1)
- 2022年2月 (1)
- 2021年12月 (1)
- 2021年11月 (3)
- 2021年10月 (2)
- 2021年9月 (2)
- 2021年3月 (2)
- 2021年1月 (3)
- 2020年12月 (3)
- 2020年8月 (2)
- 2020年7月 (3)
- 2020年4月 (4)
- 2020年3月 (1)
- 2020年2月 (1)
- 2019年11月 (1)
- 2019年10月 (2)
- 2019年9月 (6)
- 2019年8月 (5)
- 2019年7月 (2)
- 2019年6月 (1)
- 2019年5月 (1)
- 2019年4月 (2)
- 2019年3月 (2)
- 2019年2月 (8)
- 2019年1月 (4)
- 2018年12月 (3)
- 2018年11月 (4)
- 2018年10月 (7)
- 2018年9月 (2)
- 2018年8月 (1)
- 2018年7月 (3)
- 2018年6月 (12)
- 2018年5月 (15)
- 2018年4月 (1)
- 2018年1月 (1)
- 2017年12月 (3)
- 2017年11月 (2)
- 2017年10月 (4)
- 2017年9月 (4)
- 2017年8月 (3)
- 2017年7月 (4)
- 2017年6月 (7)
- 2017年5月 (1)
- 2017年4月 (1)
- 2017年2月 (1)
- 2017年1月 (3)
- 2016年12月 (10)
- 2016年11月 (9)
- 2016年10月 (10)
- 2016年9月 (20)
- 2016年8月 (8)
- 2016年6月 (4)
- 2016年4月 (5)
- 2016年3月 (3)
- 2016年2月 (7)
- 2016年1月 (11)
- 2015年12月 (9)
- 2015年11月 (4)
- 2015年10月 (8)
- 2015年9月 (8)
- 2015年8月 (3)
- 2015年7月 (5)
- 2015年6月 (4)
- 2015年5月 (16)
- 2015年4月 (7)
- 2015年3月 (14)
- 2015年2月 (9)
- 2015年1月 (1)
- 2014年12月 (11)
- 2014年11月 (8)
- 2014年10月 (19)
- 2014年9月 (15)
- 2014年8月 (12)
- 2014年7月 (11)
- 2014年6月 (16)
- 2014年5月 (8)
- 2014年4月 (12)
- 2014年3月 (19)
- 2014年2月 (11)
- 2014年1月 (16)
- 2013年12月 (4)
- 2013年11月 (1)
- 2013年10月 (2)
- 2013年9月 (16)
- 2013年8月 (4)
- 2013年7月 (12)
- 2013年6月 (5)
- 2013年5月 (6)
- 2013年4月 (24)
- 2013年3月 (29)
- 2013年2月 (21)
- 2013年1月 (2)
- 2012年12月 (4)
- 2012年11月 (12)
- 2012年10月 (13)
- 2012年9月 (19)
- 2012年8月 (17)
- 2012年7月 (12)
- 2012年6月 (11)
- 2012年5月 (17)
- 2012年4月 (20)
- 2012年3月 (11)
- 2012年2月 (19)
- 2012年1月 (30)
- 2011年12月 (27)
- 2011年11月 (13)
- 2011年10月 (5)
- 2011年9月 (15)
- 2011年8月 (10)
- 2011年7月 (12)
- 2011年6月 (6)
- 2011年5月 (6)
- 2011年4月 (13)
- 2011年3月 (20)
- 2011年2月 (40)
- 2011年1月 (20)
- 2010年12月 (10)
- 2010年11月 (15)
- 2010年10月 (6)
- 2010年9月 (16)
- 2010年8月 (25)
- 2010年7月 (31)
- 2010年6月 (7)
- 2010年5月 (20)
- 2010年4月 (13)
- 2010年3月 (10)
- 2010年2月 (10)
- 2010年1月 (1)
- 2009年12月 (11)
- 2009年11月 (15)
- 2009年10月 (15)
- 2009年9月 (7)
- 2009年8月 (1)
- 2009年7月 (2)
- 2009年6月 (14)
- 2009年5月 (23)
- 2009年4月 (19)
カテゴリー
- 開発 (933)
  - ASP.NET (26)
  - AllJoyn (2)
  - Android (22)
  - Arduino (22)
  - Azure (15)
  - Azure Functions (1)
  - Bluetooth (5)
  - C# (223)
  - C++ (61)
  - C++/CX (9)
  - CakePHP (36)
  - Docker (1)
  - Excel VBA (2)
  - F# (51)
  - Fortran (10)
  - Javascript (1)
  - M5Stack (2)
  - MonoBrick (2)
  - MySQL (11)
  - NET Core (7)
  - Netduino (2)
  - Objective-C (18)
  - OpenCV (13)
  - PHP (2)
  - PIC (1)
  - Perl (1)
  - QXエディタ (5)
  - ROS (2)
  - RaspberryPi (48)
  - RmClient (1)
  - SQLite (4)
  - Scratch (4)
  - Slack (3)
  - Smalltalk (1)
  - Swift (1)
  - TDD (7)
  - TiddlyBot (1)
  - Trac (4)
  - Umbraco (1)
  - VB (19)
  - WPF (11)
  - Win IoT (19)
  - WinRT (60)
  - Windows 10 (5)
  - Windows Phone (2)
  - Wordpress (20)
  - XAML (12)
  - Xamarin (85)
  - iOS (13)
  - iPad (5)
  - mBot (1)
  - mbed (1)
  - python (2)
  - xUnit (12)
  - サイドバーガジェット (5)
  - データベース (4)
  - ブログパーツ (15)
  - 子供ツイッター (3)
  - 技術メルマガ (3)
  - 組み込みボード (4)
- 設計 (33)
- UIDD (7)
- プロジェクト管理 (42)
- Plan Language (7)
- 仕事 (21)
- ツール (49)
  - EXDoc (9)
  - XmlDom (3)
  - 花札ゲーム (4)
- 起業塾 (12)
- 書籍 (9)
- ブログ (5)
- 雑談 (153)
- PDA (11)
- インストールマニアックス2009 (7)
- EV3 (5)
- FEM (1)
- OpenCCPM (5)
- PLEN2 (2)
- PP-Club (3)
- RealSense (2)
- chu (5)
- windows 8 (59)
- windows 8.1 (4)
- のだめ開発プロセス (5)
- アズレン (1)
- ギター (2)
- ソフトウェア開発者の道具箱 (4)
- トラブルシューティング (7)
- パフォーマンス (7)
- プチロボ (6)
- ロボットアーム (2)
- 勉強会 (12)
- 最強.NET開発PC (13)
- 段取り (3)
- 艦これ (12)
Blogroll
リファレンス
メタ情報

2024年5月
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

時には機動警察パトレーバーのように、あるいは、600 万件のデータ加工を

時には機動警察パトレーバーのように、あるいは、600 万件のデータ加工を への5件のフィードバック

最近の投稿

最近のコメント

menu

アーカイブ

カテゴリー

Blogroll

リファレンス

メタ情報

時には機動警察パトレーバーのように、あるいは、600 万件のデータ加工をへの5件のフィードバック