netkeiba のデータをスクレイピングして LOD 化する(7)
前回の記事では、構想を練るところまでやった。
苦節一ヶ月、ついに実現し毎日自動でデータを集め、それが BigQuery にロードされるようになったので、苦労した点をつらつらと書いていく。
前回の記事では、構想を練るところまでやった。
苦節一ヶ月、ついに実現し毎日自動でデータを集め、それが BigQuery にロードされるようになったので、苦労した点をつらつらと書いていく。
ML4Keiba に関する昨年の記事でも書いたように、ローカルだけでなくクラウド側にデータを保存し、それらをクラウド上の DB におさめて分析あるいはサービス提供できるようにしたいと考えている。
そんな折、以下の書籍を読む機会があり、そこでおおよその方向性がつかめたのでそれをまとめる。
一言で言えば、 Cloud Functions x GCS x BigQuery で DWH をつくる構想 といったところだろうか。