Docusaurus v2.2 へ更新した
半年近く放置してしまったが、どうにかして本ブログの諸々を更新した
特に、docusaurus
を v2.2 まで上げられたのは快挙であろう
半年近く放置してしまったが、どうにかして本ブログの諸々を更新した
特に、docusaurus
を v2.2 まで上げられたのは快挙であろう
「~を利用して」という表現には「個々人に "集めさせる"」という意図がある。 すなわち、Twitter API を個人で利用する分にはたかだか50万 tw/month 程度までしか収集できない一方で、複数人の力を合わせればその量を N 倍に増やせるという企みである。
じゃあ、どうやってそれを実現するのか?ということを考えているので、それをメモしておく。
ML4Keiba としてデータを集めるのはいいが、その後についてきちんと考えをまとめていなかった。 マイルストーンというほど定かではないが、現在考えているいろいろなことをメモとして残す。
What までは書いてあるが、実際の具体的な How については自分の頭の中にあるだけだ。 これもどこかきちんと出力しておきたいが……また別の問題が生じるかもしれないので、後々考えることにする。
3月末に申請していた "GitHub Codespaces" のベータ版が今月初旬に到来していた。 4 月の冒頭で苦労していたことが嘘のように解決してしまい、今後も手放せないプロダクトとなりそうな予感がある。
早速使ってみた感想を述べる。
故あって Twitter API を利用してデータを取得している。 netkeiba.com をスクレイピングするときのように、"餅から米を得る" みたいなことはしなくて済むのがありがたい。 ドキュメントも整理されており文句は無い……と言いたいが、痒いところに手が届かなかったので、その愚痴を纏める。
なお、本記事では公式 のドキュメント以上の新しい情報は無い。 本当に使ってみた感想と、今後に期待する要望、それと少しの workaround があるかも〜程度である。
4 月の冒頭でも紹介したように、PC 環境が無くなって一か月が経とうとしている。 三月末のギリギリになって無線キーボードとマウスを購入し、どうにか物理入力インタフェースは確保したが、プログラミング環境は満足に得られていない状況が続いている。
色々と足掻けば何かしら解決したのかもしれないが、その代わりにもっと別の価値ある(と思い込んでいる)ことに勤しんで 4 月は消えた(ついでに GW も)。
とはいうものの、実際に作ったのはひと月ほど前だしサイト全体としては全然不完全なものなので、満足いっているかと云うとそうでもない。
シェアする際にパスが抜け落ちる不具合があるらしく、意気揚々と Twitter でシェアしたリンクが製作者のブログにしか通じていないとかいうホンマごめん案件もちらほら……(かくいうこの記事に辿り着いた人々もそれに該当するかもしれない)
実際に署名者検索ができるのはこちらです → https://ningensei848.github.io/againstc/topic/open-letters/search
(※以下、蛇足というか解説というか雑感)
というわけで、この記事の投稿は粉骨砕身、iPad 経由で頑張った記録となります。
探せば色々あるんだなぁ……
まだ zenn.dev に記事としてまとめることは出来ていないが,着々と自動化処理が作成できてきた.
一方で,エラーに関してもエッジケースが現れたのでその例外処理もプチプチやっていく.
JSON-LD
のコンテキストもどうにか定義し,半信半疑だった API Gateway を活用したサーバ負荷回避 リクエスト制限の回避も実現できた.
これでようやくスクレピングによるデータ収集が始められる.
今回得た知見は,後ほど Zenn にまとめることとする.