9 posts tagged with "python"

View All Tags

netkeiba のデータをスクレイピングして LOD 化する（7）

March 3, 2023

Kiai

@Ningensei848

前回の記事では、構想を練るところまでやった。

ML4Keiba Workflow

苦節一ヶ月、ついに実現し毎日自動でデータを集め、それが BigQuery にロードされるようになったので、苦労した点をつらつらと書いていく。

netkeiba のデータをスクレイピングして LOD 化する（6）

February 7, 2023

Kiai

@Ningensei848

ML4Keiba に関する昨年の記事でも書いたように、ローカルだけでなくクラウド側にデータを保存し、それらをクラウド上の DB におさめて分析あるいはサービス提供できるようにしたいと考えている。

そんな折、以下の書籍を読む機会があり、そこでおおよその方向性がつかめたのでそれをまとめる。

https://amzn.to/3DMKKQS

一言で言えば、　Cloud Functions x GCS x BigQuery で DWH をつくる構想 といったところだろうか。

ML4Keiba を具体的に考えていく

November 14, 2022

Kiai

@Ningensei848

前回までの記事では、 ML4Keiba の理想的な機能について考えた

今回は、具体的にどのようにデータを「状態」として保持するか・引き出すかを考える（まぁつまり ETL ってやつだ）

glyph-neue-horse

ML4Keiba の展望

June 9, 2022

Kiai

@Ningensei848

ML4Keiba としてデータを集めるのはいいが、その後についてきちんと考えをまとめていなかった。マイルストーンというほど定かではないが、現在考えているいろいろなことをメモとして残す。

What までは書いてあるが、実際の具体的な How については自分の頭の中にあるだけだ。これもどこかきちんと出力しておきたいが……また別の問題が生じるかもしれないので、後々考えることにする。

netkeiba のデータをスクレイピングして LOD 化する（５）

March 30, 2022

Kiai

@Ningensei848

まだ zenn.dev に記事としてまとめることは出来ていないが，着々と自動化処理が作成できてきた．

一方で，エラーに関してもエッジケースが現れたのでその例外処理もプチプチやっていく．

netkeiba のデータをスクレイピングして LOD 化する（４）

March 28, 2022

Kiai

@Ningensei848

JSON-LD のコンテキストもどうにか定義し，半信半疑だった API Gateway を活用した~~サーバ負荷回避~~ リクエスト制限の回避も実現できた．これでようやくスクレピングによるデータ収集が始められる．

今回得た知見は，後ほど Zenn にまとめることとする．

netkeiba のデータをスクレイピングして LOD 化する（３）

March 23, 2022

Kiai

@Ningensei848

前回はスクレイピング効率を高めるためにプロキシサーバを作ろうという試みを行なって終わった．今回は具体的にどのようにデータを集めるか検討する．

netkeiba のデータをスクレイピングして LOD 化する（２）

March 12, 2022

Kiai

@Ningensei848

python でデータを扱うにあたり，Notebook を使わない選択肢はないだろう． Google が提供する Colaboratory を使って，「下書き」的にコードを書いていく．

https://colab.research.google.com/

netkeiba のデータをスクレイピングして LOD 化する（１）

March 8, 2022

Kiai

@Ningensei848

改めて，Netkeiba からスクレイピングをやっていく． Python でやるのは，リクエストに間隔を開ける都合上，多少時間がかかっても問題がないことや，DataFrame 系の資産を使い回せることが利点として挙げられる

https://github.com/Ningensei848/ml4keiba