04_ページの内部リンクを可視化して、内部SEOを強化しよう

難易度
初級
ステータス
習得完了
開始日
2021/05/06
終了日
2021/05/07

Pythonでページの内部リンクを取得してみよう①

notion image
ポイント SEO向上のコツとして、同一カテゴリの内部リンクを多くする(ただし健全にね)。

Pythonでページの内部リンクを取得してみよう②

notion image
ポイント 正規表現チェッカーをつかって、取得したい正規表現を調査しプログラムに反映します。 またSETでリンクが入っていないことを確認してからaddする書き方の記載もあります。便利。
 
 

Pythonでネットワーク図を書いてみよう

notion image
ポイント ここは覚えなくてもネットワーク図が必要になったらポイントを抑えればOK
 
networkxの構成
notion image
 
この段階ではまだ綺麗じゃないけど、ネットワーク図に表せられた
notion image
 
 
 

ネットワーク図を見やすく整えていこう

notion image
ポイント re.subで不要な文字列を消していくところが要チェック
 
スタイルの調整
notion image
 
 
notion image
 
正規化がうまくいって、Notion内の#block関連を消すことができた
Python
Notionのリンクだと[#block]系を入れようか悩む
 
うまくいくと👇のように不要文字列を消せる
notion image
 
 

エラーを素早く解決するために、デバッグについて学ぼう

notion image
ポイント VS CodeとPythonのデバッグがこんなに優秀だとは・・・エラーがすぐわかります。
 
notion image
 
そして完成
 
スクレイピングにおいて、調査のためには不要なデータも取得されることが多いので、正規表現を巧みに操り、適切なデータを取得できるようにすることが大事とわかった。
 
 
さぁ、次の章は初級編の最後。
いよいよTwitterデータの分析です、楽しみ٩( 'ω' )و