【開発日記】クローラー開発でつまずいたので玉浦パイセンに話を聞いた

2018年1月13日にリリースしたリゾートバイト求人検索サイト「RESORN(リゾーン)」のクローラーを開発中だ。言語はPython3。RESORNはWordpressを使用しており、WordpressのMySQLに格納して求人情報を反映したいと考えている。だから、ローカル環境で開発してきたスクリプトが無事動き、そしてMySQLに格納できるか簡単にテストしたい、というのが前提としてある。

しかし、使用しているエックスサーバーは管理者権限がないためPythonインストール時にエラーが出る、MySQLをいじったことがないためどういう方針で動かせば良いかイメージが掴めないという問題が浮上してきた。

そこでTwitterで繋がりのある玉浦パイセンに話を聞いてきた。今回はその備忘録である。

クローラー開発に立ちはだかる3つの壁

管理者権限がないのでPythonを導入できないのだが…

エックスサーバーでPythonが導入されているのなら、エックスサーバーのPython使っちゃえば?
もしくはサーバー変えちゃえば?

スクレイピングの取得結果の前処理はどうしたら良いだろう?Pythonでやるべき?MySQLでやるべき?

※たとえば、時給のフォーマットを統一を考えるとする。最終的には”数値”としてSQLに格納したいが、リゾートバイトの派遣会社により給与面の記載が異なり、これらを整形しなければならぬのだ。
Pythonでやるべき。MySQLはデータの取得には向いてるが加工には向かないから。

WordPressのテーブルとスクレイピング結果(月〜金の夜に取得を考えてる)を日次で格納するテーブルに分けようと考えてるが、考え方はそれでおK?

日次データを全て格納するのだるくない?てかリゾバ求人の最終更新日時を見て取得するかどうか決めたら?

他に玉浦パイセンから出た意見

RESORNの時給とかタグで判断してやってるけど、SQLで条件指定して出す形式にした方がいいんじゃね?

whereとかorder byとかで出せるんだっけ…?忘れた。ただRESORNで使用しているテンプレートの中身、特に検索条件周りは俺には解読不能で手がつけられないのだ。だから優先順位は後回しだなぁ。解決したいところではあるのだがw

てか考えること多すぎィ!8月のリリースへの絶望感が漂ってきた。Python3で開発しているものの、開発環境の構築でやたらめったら時間がかかるんだよなあ。そこがクリアできれば自動化できるんだけど。だから、手っ取り早くやるならGoogle Apps Scriptってはっきりわかんだね。

この記事をシェアしてみよう!



コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ABOUTこの記事をかいた人

アバター

元公務員。「ゆるく生きたい…!」「夢がありそう…!」と希望を持って地方から上京したものの、東京の荒波に晒され地獄感を味わう。過労とストレスで体を壊すぐらいなら冷蔵庫を壊そう。