Twitterの全文ダウンロードがはじまったので早速ダウンロードしてみたら日本語が文字化けしています - blog.jgs.me

Twitterの全文ダウンロードがはじまり、これは自然言語処理界隈やTwitterアーカイブサービスをやっている人たちにはハレルヤ!といったところだろうとおもいます。
今のところ、英語圏ユーザから順次はじまっているそうで僕もダウンロードできるようになっていたのでさっそくリクエストを送りました。
設定画面にリクエストのボタンが追加されています。
リクエストを送ると、しばらくしてTwitterからメールがくるのでそのリンクからzipファイルをダウンロードします。何時間かかるのかしら!と身構えていたら、200kツイート超えの僕でもものの3分程度でダウンロードが完了しました。
zipを解凍すると
こういう構成になっていて、index.htmlをブラウザで開くとアーカイブを閲覧できます。
これは、data/js/tweets/の中にJavascriptで書かれたjsonっぽいデータが大量にあってそれを読んでいる感じです。ここは問題なくUTF-8のTwitterらしいモダンな感じのページをモリモリ見れます。
で、問題はdata/csv/の方で、こちらはどのエンコードで読んでも日本語文字化けしていて読めません。
HEXで読んでみると、文字化けしたデータが大元のデータに入っているようです。
そういうわけなので、とりあえずはdata/js/tweets/*.jsの方を解析しましょう、という感じですね。
それにしても、なにがどうしてcsvだけ化けてるんだろう・・・。

December 20th, 2012 5:41pm