2018年1月13日にリリースしたリゾートバイト求人検索サイト「RESORN(リゾーン)」のクローラーを開発中だ。言語はPython3。RESORNはWordpressを使用しており、WordpressのMySQLに格納して求人情報を反映したいと考えている。だから、ローカル環境で開発してきたスクリプトが無事動き、そしてMySQLに格納できるか簡単にテストしたい、というのが前提としてある。
しかし、使用しているエックスサーバーは管理者権限がないためPythonインストール時にエラーが出る、MySQLをいじったことがないためどういう方針で動かせば良いかイメージが掴めないという問題が浮上してきた。
そこでTwitterで繋がりのある玉浦パイセンに話を聞いてきた。今回はその備忘録である。
クローラー開発に立ちはだかる3つの壁
管理者権限がないのでPythonを導入できないのだが…
エックスサーバーでPythonが導入されているのなら、エックスサーバーのPython使っちゃえば?
もしくはサーバー変えちゃえば?
スクレイピングの取得結果の前処理はどうしたら良いだろう?Pythonでやるべき?MySQLでやるべき?
※たとえば、時給のフォーマットを統一を考えるとする。最終的には”数値”としてSQLに格納したいが、リゾートバイトの派遣会社により給与面の記載が異なり、これらを整形しなければならぬのだ。
Pythonでやるべき。MySQLはデータの取得には向いてるが加工には向かないから。
WordPressのテーブルとスクレイピング結果(月〜金の夜に取得を考えてる)を日次で格納するテーブルに分けようと考えてるが、考え方はそれでおK?
日次データを全て格納するのだるくない?てかリゾバ求人の最終更新日時を見て取得するかどうか決めたら?
他に玉浦パイセンから出た意見
RESORNの時給とかタグで判断してやってるけど、SQLで条件指定して出す形式にした方がいいんじゃね?
whereとかorder byとかで出せるんだっけ…?忘れた。ただRESORNで使用しているテンプレートの中身、特に検索条件周りは俺には解読不能で手がつけられないのだ。だから優先順位は後回しだなぁ。解決したいところではあるのだがw
てか考えること多すぎィ!8月のリリースへの絶望感が漂ってきた。Python3で開発しているものの、開発環境の構築でやたらめったら時間がかかるんだよなあ。そこがクリアできれば自動化できるんだけど。だから、手っ取り早くやるならGoogle Apps Scriptってはっきりわかんだね。
コメントを残す