Pythonで
クローリング&スクレイピングを始めたく
この本を買ってみました。
まだ勉強途中ですが
整理したことやつまずいたことを
残しておこうと思います。
Pythonの環境構築
VirtualBoxとVagrant
自PCのOSはWindows10ですが
ここにPythonが実行できる環境を作ります!
ホストOS:Windows
仮想マシン:VirtualBox
仮想マシン操作ソフト:Vagrant
ゲストOS:Ubuntu
何がどこの名称か分からなくなってしまったので
上記に整理しました。
PythonはOSがWindowsよりも
Linuxの方が便利に使えるらしく
本書でも推奨されていました。
細かな手順は省きますが
大枠として以下3つの準備を行いました。
①自PC(物理マシン)に仮想マシン(VirtualBox)構築
②仮想マシン内にゲストOS(Ubuntu)構築
③VirtualBoxを操作可能なソフトVagrantをインストール
vagrantで仮想マシン(VirtualBox)操作
コマンドだけ整理すると
接続:vagrant ssh
再起動:vagrant reload
終了:vagrant halt
最初こんがらがってしまったのですが
これは仮想マシンに対する操作
であって
ゲストOSに対する操作ではない!ということ。
当たり前っちゃ当たり前だけど
初めはすっと飲み込めなかった…。
要は
①仮想マシンを起動、仮想マシンに接続
②ゲストOSを操作
③仮想マシンを終了
普段PCを立ち上げて使う事と
なんら変わりませんね。
あとはPythonをインストールすれば
とりあえずスクリプトファイル(.py)が
動く環境になります!
ホスト・ゲスト間でフォルダがマウントされない
本書ではまずWgetというソフトを使って
Web上の画像をダウンロードしてみよう!
という事でやってみました。
ゲストOS内で実行しているので
ゲストOS内のフォルダにダウンロードされました。
通常ホストOSの共有フォルダにも
ダウンロードした画像が出てくるのですが…
全く出てきません・・・。
②ゲストOS:/vagrant/ フォルダ
①と②は共有フォルダ
以下2つを試して直すことが出来ました!
※参考サイト
vagrant up 時の共有フォルダのマウントエラー解消方法
Vagrantfileに追記
ホストOSにあるVagrantfileに以下を追記しました
「/home/vagrant/」
type: “virtualbox”
vagrant-vbguestのインストール
ホストOSにて以下コマンドを実行
実は仮想マシン立上げの際出ていたエラーを
見落としていまして…
「Guest Addtionsをインストールして」と出ておりました。
このコマンドを実行すると更新されて
マウント成功することができました!
Pythonでクローリング挑戦中!
Wgetでクローリングを体験してみて
イメージを掴むことが出来ました!
いま本書を見ながらPyhtonで挑戦しています!
記事がまだ本格的な内容ではありませんでしたが
環境構築にて少しでも参考になれば幸いです。
また習得していく中で
共有できる部分を発信していきます!