netkeiba のデータをスクレイピングして LOD 化する(3)
前回はスクレイピング効率を高めるため にプロキシサーバを作ろうという試みを行なって終わった. 今回は具体的にどのようにデータを集めるか検討する.
前回はスクレイピング効率を高めるため にプロキシサーバを作ろうという試みを行なって終わった. 今回は具体的にどのようにデータを集めるか検討する.
LOD チャレンジ 2021に昨年秋~年末にかけて制作したものを応募した. 本命の方は受賞を逃したが,副産物として生まれた記事がLOD プロモーション賞を受賞した.
https://zenn.dev/ningensei848/articles/virtuoso_on_gcp_faster_with_cos
python でデータを扱うにあたり,Notebook を使わない選択肢はないだろう. Google が提供する Colaboratory を使って,「下書き」的にコードを書いていく.
改めて,Netkeiba からスクレイピングをやっていく. Python でやるのは,リクエストに間隔を開ける都合上,多少時間がかかっても問題がないことや,DataFrame 系の資産を使い回せることが利点として挙げられる
もともとは Next.js の知見を貯めるために vercel では普通のアプリとして,GitHub Pages では SSG としてブログをつくる予定だった.が, Docusaurus で全然いいしむしろデザイン対応の手間を考えたら Next.js で全部自分でやるのは(無限にこだわり続けてしまって)完成しない!という結論を得た.