ツイッターの全発言を取得する perl スクリプトを以前書いたので、
指定したTwitterアカウントの全ツイートを取得(perl版)
http://www.moonmile.net/blog/archives/860
今回は、C# を使ってもう少し分かりやすく書き直します。ひとまず、抜粋だけアップして、後でツールをアップということで。
public class TwiBack
{
protected string _user;
/// <summary>
/// アカウント
/// </summary>
public string User
{
get { return _user; }
set { _user = value; }
}
protected const string HTTPTWI = "http://twitter.com";
/// <summary>
/// ツイート数
/// </summary>
/// <returns></returns>
public int GetTweetCount()
{
string url = string.Format("{0}/{1}", HTTPTWI, _user);
WebClient web = new WebClient();
StreamReader sr = new StreamReader( web.OpenRead(url));
// <span id="update_count" class="stat_count">2,153</span>
Regex rx = new Regex(">([0-9,]+)<");
while (sr.EndOfStream == false)
{
string line = sr.ReadLine();
if (line.IndexOf("<span id=\"update_count\"") >= 0)
{
Match mt = rx.Match(line);
int count = int.Parse(mt.Groups[1].Value.Replace(",", ""));
return count;
}
// Console.WriteLine(line);
}
return 0;
}
/// <summary>
/// ページ番号でツイートを取得
/// </summary>
/// <param name="page"></param>
/// <returns></returns>
public string GetTweetPage(int page)
{
string url = string.Format("{0}/{1}?page={2}", HTTPTWI, _user, page);
WebClient web = new WebClient();
StreamReader sr = new StreamReader(web.OpenRead(url));
// <li class="hentry u-moonmile status" id="status_41673902056935425"
List<string> lines = new List<string>();
while (sr.EndOfStream == false)
{
string line = sr.ReadLine();
if (line.IndexOf("<li class=\"hentry") >= 0)
{
lines.Add(line + "\n");
while (sr.EndOfStream == false)
{
line = sr.ReadLine();
lines.Add( line + "\n" );
if ( line.IndexOf("</li>") >= 0 ) {
break;
}
}
}
}
string ss = "";
foreach ( string s in lines ) {
ss += s ;
}
return ss ;
}
/// <summary>
/// ツイートXMLをコンバート
/// </summary>
/// <param name="xml"></param>
/// <returns></returns>
public string ConvXml(string xml)
{
EXDoc.EXDocument doc = new EXDocument();
doc.LoadXML(xml);
EXDocument dout = new EXDocument();
// ルート要素を作る
dout += "tweets";
// 変換元をループ
foreach (EXElement twi in doc * "li" )
{
// 変換元から取り出す
string id = twi["id"].Replace("status_", "");
string content = ((EXElement)(twi * "span" % "class" == "entry-content")).Xml;
string date = twi * "span" % "class" == "published timestamp";
Console.WriteLine(id);
// 要素を作る
EXElement tweet = dout.Root.Append("tweet");
tweet.Append("id").Value = id;
tweet.Append("content").Value = content;
tweet.Append("date").Value = date;
}
return dout.Xml;
}
}
TwiBack クラスの中で、GetTweetCount メソッドと GetTweetPage メソッドはノーマルに Twitter の Web ページから発言数と発言を取得しているところです。perl 版と同様に、ブラウザ経由で取得するので、アクセス数制限はありません。ただ、返信とかしているのは取れないので、いまいちですけどね。このあたりは、OAuth でログインした後にブラウザ経由で取るように修正してきます。
# 当初の目的が人様の発言を全部取ってくるので、バックアップとはちょっとニュアンスが違うのです。
で、取得した HTML タグは、以下の形式で取得できます。
<li class="hentry u-moonmile status latest-status" id="status_42686164938932224">
<span class="status-body">
<span class="status-content">
<span class="entry-content">【メモ】 クローラのせいで重くなった MT4i の対策 - Movable Type運営記
<a href="http://bit.ly/es5CWf" class="tweet-url web" rel="nofollow" target="_blank">http://bit.ly/es5CWf</a> -- 以前から気になっていたけど、yeti は韓国系のクローラーなのか。これもブロック。</span>
</span>
<span class="meta entry-meta" data='{}'>
<a class="entry-date" rel="bookmark" href="http://twitter.com/moonmile/status/42686164938932224">
<span class="published timestamp" data="{time:'Tue Mar 01 20:42:29 +0000 2011'}">12:42 PM Mar 1st</span>
</a>
<span><a href="http://moonmile.net/" rel="nofollow">TwiNetBot</a>から</span>
</span>
<ul class="meta-data clearfix"></ul>
</span>
</li>
このままだと使いづらいので、分かりやすいように整形します。ってところで普通ならば LINQ to XML を使うのでしょうが、ええッそうですッ!!! 自前の EXDoc を使います。
/// <summary>
/// ツイートXMLをコンバート
/// </summary>
/// <param name="xml"></param>
/// <returns></returns>
public string ConvXml(string xml)
{
EXDoc.EXDocument doc = new EXDocument();
doc.LoadXML(xml);
EXDocument dout = new EXDocument();
// ルート要素を作る
dout += "tweets";
// 変換元をループ
foreach (EXElement twi in doc * "li" )
{
// 変換元から取り出す
string id = twi["id"].Replace("status_", "");
string content = ((EXElement)(twi * "span" % "class" == "entry-content")).Xml;
string date = twi * "span" % "class" == "published timestamp";
Console.WriteLine(id);
// 要素を作る
EXElement tweet = dout.Root.Append("tweet");
tweet.Append("id").Value = id;
tweet.Append("content").Value = content;
tweet.Append("date").Value = date;
}
return dout.Xml;
}
なんか不思議な記号がいっぱいになってきてしまいましたがw、変換元から、
・id
・content(発言)
・date(発言した日時)
を拾ってきて、
<tweet> <id>...</id> <content>...</content> <date>...</date> </tweet>
な形に整形します。
要素を追加するのに、いろいろ多重定義する演算子を探してみたのですが、結局のところ、Append メソッドに落ち着きました。デリゲートの追加演算子のように += 演算子を使おうとしたのですが(実装はしています)、+= 演算子を使った後に、追加した要素が取れないことになるので、やめました。
C++ だと、
EXElement *tweet = dout.Root += "tweet"; (tweet += "id") = id; (tweet += "content") = content; (tweet += "date") = date;
な感じで作れるんですけどね…C# だと左辺に式を置けないので、これができないのです。
あと、cout などで定番の << 演算子も C# ではなぜか数値しか使えないので、【使えない】演算子になっています。このあたりの制限が、C# はかなり変です。
とは言え、メソッドチェーンと配列を使いながら、イメージしやすい形でコーディングができます。特に、XML を作成するときは、Append を続けて子を作っていくというのがイメージしやすいと思います。これが普通の XML の構築だと、CreateNode した後に、AppendChild するので、なんか作成と挿入が遠い感じになってしまいます(まあ、作成した途端に追加すればいいだけなんですけどね)。
