Twitterの全文ダウンロードがはじまったので早速ダウンロードしてみたら日本語が文字化けしています - blog.jgs.me
今のところ、英語圏ユーザから順次はじまっているそうで僕もダウンロードできるようになっていたのでさっそくリクエストを送りました。
設定画面にリクエストのボタンが追加されています。
リクエストを送ると、しばらくしてTwitterから
メールがくるのでそのリンクからzipファイルをダウンロードします。何時間かかるのかしら!と身構えていたら、200kツイート超えの僕でもものの3分程度でダウンロードが完了しました。
zipを解凍すると
これは、data/js/tweets/の中に
Javascriptで書かれた
jsonっぽいデータが大量にあってそれを読んでいる感じです。ここは問題なく
UTF-8のTwitterらしいモダンな感じのページをモリモリ見れます。
HEXで読んでみると、文字化けしたデータが大元のデータに入っているようです。
そういうわけなので、とりあえずはdata/js/tweets/*.jsの方を解析しましょう、という感じですね。
それにしても、なにがどうして
csvだけ化けてるんだろう・・・。
December 20th, 2012 5:41pm