githubのtimelineがbigqueryで解析できる - dev.jgs.me


Githutという Github の解析サイトがあって、仕掛けを調べていたらGithubはpublicなtimelineオープンデータとして公開しているらしい。

GithutREADMEにもある通り

_

              select
  repository_language,
  count(distinct(repository_url)) as active_repos_by_url,
  YEAR(created_at) as year,
  QUARTER(created_at) as quarter,
from [githubarchive:github.timeline]
where
    type="PushEvent"
group by
  repository_language,
  year,
  quarter
order by
  repository_language,
  year DESC,
  quarter DESC
            

みたいなSQLを書くと言語毎のPush量みたいなやつが見れたりする。ほいではStarはどうなのかなあ、とおもったらgithubarchive:github.timelineのスキーマのtypeにStar的なやつがなかったので見れなかった。

#20140926 現在、githubarchive:github.timeline249,308,569Rowがあって、サイズは154GBもあるんだそうだ。それがものの10s程度で解析できるのでBigQueryスゲーなとおもいます。