ブログ検索

投稿日: 2009/05/19 作成者: masuda

SQL Server 2008で全文検索/XMLで検索/OpenXML で考えていたら思いついた。

ブログ検索って、HTMLを解析したり文章を解析したり（多少はいるけど）はあまり必要ないのでは？

最近のブログの場合 rss が貼ってあるのが普通なので、これをXMLで解析するだけで余分な広告やらアフリエイトやらを読み込まずに済む。もっとも、ブログ自身にアクセスさせるように（アクセス数を稼ぐとか、アフリエイト利用として）するために「続きを読む」が多いわけだけど、それはそれで再度取り直しをすれば良い。

この方法を取れば、がっつりとブログ記事をクローリングして、目的/興味にマッチした検索結果を得られることができるのでは？

なぞと夢想してみました。
ここに至るまでの発想の過程（シミュレーション）はこんな感じです。

1.とあるアルファブログで、ある本の評判を見つけた。
2.べた褒めなんだけど、本当にそうかわからない。
3.ひとまず、amazon で表紙を確認した。
4.著者のほかの作品も確認した。まぁ、これならよさそう。
5.amazon で評判を確認した。ちょっと負な意見もあるなぁ。
6.じゃあ、他の書評ではどうなんだろう？
7.google 書名だけで検索すると、amazon やら book1st しか出てこない。
8.書評サイトで検索したけど、なんか、一言感想とか、amazon へのリンクしか出てこない。
9.面倒だなぁ、なんかこう、うまくマッチする方法はないだろうか？

以下は、妄想

10.書名/著者について、うまいリンクなり評判なりが出てきた。
11.うまいことに、アフリエイトオンリーのブログが省かれている。
12.うまいことに、amazon や book1st へのリンクも外れている。
13.うまいことに、良し悪し、両方の評判がのっている。
14.まぁ、これなら買ってもよさそうかな。
15.いや、これと似たようなので、もっといいのがありそうだ。
16. 10番へ繰り返し。ぐるぐるぐる。

なんて感じで購買には関与しないのですが（図書館で借りるという手もありますしね）

というサイト/データがあれば良かろうと妄想したわけです。
google のキーワード検索、予想キーワードの組み合わせは、非常に便利なのですが、ランキングの関係で書評を検索しようとすると必ず書店がランクの上にあがってしまいます（商業主義だから当然だけど）。

あと、ブログ検索をするときに HTML から抽出するにせよ、そんなにブログのパターンはありません。自作の場合は別でしょうが、たいていは無料のブログか、個人のサイトであっても OSS を使っているだろうから抽出パターンは限られています（このあたりは、google の全文検索よりもかなり楽なはず）。

クラウド関係の本が売れている/売れていない、みたいですが↓は結構面白かったです。
分散ストレージ/検索エンジンのあたりが非常に参考になります（概念的には単純というところがいい）。

Googleを支える技術 ‾巨大システムの内側の世界 (WEB+DB PRESSプラスシリーズ)

カテゴリー: 雑談パーマリンク

ブログ検索への3件のフィードバック

k1496 のコメント:

2009/05/20 9:49 am

SPIDERING HACKSはご覧になりました？
http://www.amazon.co.jp/Spidering-hacks%E2%80%95%E3%82%A6%E3%82%A7%E3%83%96%E6%83%85%E5%A0%B1%E3%83%A9%E3%82%AF%E3%83%A9%E3%82%AF%E5%8F%96%E5%BE%97%E3%83%86%E3%82%AF%E3%83%8B%E3%83%83%E3%82%AF101%E9%81%B8-Kevin-Hemenway/dp/4873111870

この本はHTMLの構造になってない構造wをPerlで解析して
自分に有用な情報を取ってくる方法が載ってました。
(言語は何でもいいのですが)

RSS部分だけ、というのは、この本のときには無かったかも
しれませんが。。

これを読んでActive Perlを入れてみたんですが、USERAGENTを
使ったくらいで止まってます。。
masuda のコメント:

2009/05/20 10:26 am

覧になっておりませんでいた Thx ^^; そうか、だから最近 IIS のログを見ていると spider という単語をよく見かけるのか。perl で spilder というモジュールが存在するのですね。

発端は「モノ」を検索しているのに「モノ」の購入方法は出てくるけど「モノの評判」は出てこない、というイライラなのです。後は、情報にならないブログ。ブログ検索も検索の幅が広がり過ぎて（カテゴリが多すぎて）目的なものに辿りつかない。結局、昔懐かしのリンク集かブックマーク（お気に入り）が最適なのか。まぁ、このあたりは「人が処理できる情報量を超えてはいけない」に反した作りになっているのが問題なのかなぁ、と考えてたりします。

ブログに対するクローリング（スパイダリング）については、自作するつもりだったけど spider を試してみようかな。いま、考えていたのは、

– 日本の主要な無料ブログの新着を見張っておく。
– 新規ブログに対してクローリング（wgetかrss）
– ブログ解析は各ブログアプリに依って自作（30種程度で済む）
– 興味がなかったら（利用価値がなかったら）クロールから外す。
– １日１回クローリング、更新がなければ週１回とか更新を伸ばす。

主要キーワードなんかは、
– ブログのタイトルから単語抽出
– ニュースサイトのタイトルから単語抽出
ってな感じで。人が作ったタイトルのほうが、内容を表している（要約されている）しね。
k1496 のコメント:

2009/05/20 5:53 pm

クロールして必要な情報を取ってくることをspideringというらしいです。

Perlはライブラリが超充実していて、UserAgentというクラスは、
ブラウザ同等の動きをしてくれました。
もちろん、取得結果を画面に表示する必要はないので、あとは内々に
処理して、、、という感じです。

更新してるかどうかも、HTMLヘッダを見たりなどなど小回りの利く
感じです。

コメントは停止中です。

検索:
2026年6月

日月火水木金土

1 2 3 4 5 6

7 8 9 10 11 12 13

14 15 16 17 18 19 20

21 22 23 24 25 26 27

28 29 30

« 5月
最近の投稿
最近のコメント
- 学童でプログラミング教室を開いた3年間の話に masuda より
- 学童でプログラミング教室を開いた3年間の話につっちんより
- Windows で Raspberry Pi のバックアップを取る方法に Raspberry Piでキオスク端末を | Nacky – Snowland.net より
- Microsoft OCR をデスクトップのWFPアプリで動かす方法に Office系ソフトでOCRしたい　より
- SQLite で LINQ を使うに C#でSQLite3を使ってみる | IT技術情報局より
- Xamarin.Forms でドラッグを実装しよう（Xamarin.Forms on Android編）に GITARAKULU より
- HDDのアクセススピードは VMWare に影響するのか？に SIREN より
- [win8] 画像加工をDirectXに任せて、UIはC#にする技に WindowsストアアプリでDirect2D描画のRGB値を得る方法を考えてみた。 « M-AE、山科駐在員のブログより
- [win8] metro アプリケーションからデスクトップアプリにプロセス間通信するに jun maeda より
- 必ず成功するための100の開発手順(メモ) に masuda より
menu
アーカイブ
- 2026年6月 (2)
- 2026年5月 (6)
- 2026年4月 (6)
- 2026年2月 (15)
- 2026年1月 (8)
- 2025年12月 (16)
- 2025年11月 (5)
- 2025年10月 (7)
- 2025年9月 (6)
- 2025年8月 (8)
- 2025年7月 (11)
- 2025年2月 (2)
- 2025年1月 (5)
- 2024年12月 (3)
- 2024年9月 (1)
- 2024年7月 (7)
- 2024年6月 (8)
- 2024年5月 (3)
- 2024年4月 (10)
- 2024年3月 (4)
- 2023年7月 (1)
- 2023年6月 (2)
- 2023年5月 (6)
- 2022年12月 (1)
- 2022年9月 (2)
- 2022年8月 (1)
- 2022年7月 (1)
- 2022年2月 (1)
- 2021年12月 (1)
- 2021年11月 (3)
- 2021年10月 (2)
- 2021年9月 (2)
- 2021年3月 (2)
- 2021年1月 (3)
- 2020年12月 (3)
- 2020年8月 (2)
- 2020年7月 (3)
- 2020年4月 (4)
- 2020年3月 (1)
- 2020年2月 (1)
- 2019年11月 (1)
- 2019年10月 (2)
- 2019年9月 (6)
- 2019年8月 (5)
- 2019年7月 (2)
- 2019年6月 (1)
- 2019年5月 (1)
- 2019年4月 (2)
- 2019年3月 (2)
- 2019年2月 (8)
- 2019年1月 (4)
- 2018年12月 (3)
- 2018年11月 (4)
- 2018年10月 (7)
- 2018年9月 (2)
- 2018年8月 (1)
- 2018年7月 (3)
- 2018年6月 (12)
- 2018年5月 (15)
- 2018年4月 (1)
- 2018年1月 (1)
- 2017年12月 (3)
- 2017年11月 (2)
- 2017年10月 (4)
- 2017年9月 (4)
- 2017年8月 (3)
- 2017年7月 (4)
- 2017年6月 (7)
- 2017年5月 (1)
- 2017年4月 (1)
- 2017年2月 (1)
- 2017年1月 (3)
- 2016年12月 (10)
- 2016年11月 (9)
- 2016年10月 (10)
- 2016年9月 (20)
- 2016年8月 (8)
- 2016年6月 (4)
- 2016年4月 (5)
- 2016年3月 (3)
- 2016年2月 (7)
- 2016年1月 (11)
- 2015年12月 (9)
- 2015年11月 (4)
- 2015年10月 (8)
- 2015年9月 (8)
- 2015年8月 (3)
- 2015年7月 (5)
- 2015年6月 (4)
- 2015年5月 (16)
- 2015年4月 (7)
- 2015年3月 (14)
- 2015年2月 (9)
- 2015年1月 (1)
- 2014年12月 (11)
- 2014年11月 (8)
- 2014年10月 (19)
- 2014年9月 (15)
- 2014年8月 (12)
- 2014年7月 (11)
- 2014年6月 (16)
- 2014年5月 (8)
- 2014年4月 (12)
- 2014年3月 (19)
- 2014年2月 (11)
- 2014年1月 (16)
- 2013年12月 (4)
- 2013年11月 (1)
- 2013年10月 (2)
- 2013年9月 (16)
- 2013年8月 (4)
- 2013年7月 (12)
- 2013年6月 (5)
- 2013年5月 (6)
- 2013年4月 (24)
- 2013年3月 (29)
- 2013年2月 (21)
- 2013年1月 (2)
- 2012年12月 (4)
- 2012年11月 (12)
- 2012年10月 (13)
- 2012年9月 (19)
- 2012年8月 (17)
- 2012年7月 (12)
- 2012年6月 (11)
- 2012年5月 (17)
- 2012年4月 (20)
- 2012年3月 (11)
- 2012年2月 (19)
- 2012年1月 (30)
- 2011年12月 (27)
- 2011年11月 (13)
- 2011年10月 (5)
- 2011年9月 (15)
- 2011年8月 (10)
- 2011年7月 (12)
- 2011年6月 (6)
- 2011年5月 (6)
- 2011年4月 (13)
- 2011年3月 (20)
- 2011年2月 (40)
- 2011年1月 (20)
- 2010年12月 (10)
- 2010年11月 (15)
- 2010年10月 (6)
- 2010年9月 (16)
- 2010年8月 (25)
- 2010年7月 (31)
- 2010年6月 (7)
- 2010年5月 (20)
- 2010年4月 (13)
- 2010年3月 (10)
- 2010年2月 (10)
- 2010年1月 (1)
- 2009年12月 (11)
- 2009年11月 (15)
- 2009年10月 (15)
- 2009年9月 (7)
- 2009年8月 (1)
- 2009年7月 (2)
- 2009年6月 (14)
- 2009年5月 (23)
- 2009年4月 (19)
カテゴリー
- 開発 (1,048)
  - ASP.NET (26)
  - AllJoyn (2)
  - Android (22)
  - Arduino (22)
  - Azure (15)
  - Azure Functions (1)
  - Bluetooth (5)
  - C# (223)
  - C++ (61)
  - C++/CX (9)
  - CakePHP (36)
  - Docker (1)
  - Excel VBA (2)
  - F# (51)
  - FolkBears (17)
  - Fortran (10)
  - Javascript (1)
  - LibreOffice (13)
  - M5Stack (2)
  - MonoBrick (2)
  - MySQL (11)
  - NET Core (7)
  - Netduino (2)
  - Objective-C (18)
  - OpenCV (13)
  - PHP (2)
  - PIC (1)
  - Perl (1)
  - QXエディタ (5)
  - ROS (2)
  - RaspberryPi (48)
  - RmClient (1)
  - SQLite (4)
  - Scratch (4)
  - Slack (3)
  - Smalltalk (1)
  - Swift (1)
  - TDD (7)
  - TiddlyBot (1)
  - Trac (4)
  - Umbraco (1)
  - VB (19)
  - WPF (11)
  - Win IoT (19)
  - WinRT (60)
  - Windows 10 (5)
  - Windows Phone (2)
  - Wordpress (20)
  - XAML (12)
  - Xamarin (85)
  - iOS (13)
  - iPad (5)
  - mBot (1)
  - mbed (1)
  - python (3)
  - xUnit (12)
  - サイドバーガジェット (5)
  - データベース (8)
  - ブログパーツ (15)
  - 子供ツイッター (3)
  - 技術メルマガ (3)
  - 組み込みボード (4)
- 設計 (33)
- UIDD (7)
- プロジェクト管理 (42)
- Plan Language (7)
- 仕事 (21)
- ツール (49)
  - EXDoc (9)
  - XmlDom (3)
  - 花札ゲーム (4)
- 起業塾 (12)
- 書籍 (9)
- ブログ (5)
- 雑談 (154)
- PDA (11)
- インストールマニアックス2009 (7)
- EV3 (5)
- FEM (1)
- OpenCCPM (5)
- PLEN2 (2)
- PP-Club (3)
- RealSense (2)
- chu (5)
- windows 8 (59)
- windows 8.1 (4)
- のだめ開発プロセス (5)
- アズレン (1)
- ギター (2)
- ソフトウェア開発者の道具箱 (4)
- トラブルシューティング (7)
- パフォーマンス (7)
- プチロボ (6)
- ロボットアーム (2)
- 勉強会 (12)
- 最強.NET開発PC (13)
- 段取り (4)
- 艦これ (12)
Blogroll
リファレンス
メタ情報

2026年6月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ブログ検索

ブログ検索 への3件のフィードバック

最近の投稿

最近のコメント

menu

アーカイブ

カテゴリー

Blogroll

リファレンス

メタ情報

ブログ検索への3件のフィードバック