PowerShell/HTMLのtableタグをスクレイピング

PowerShellでHTMLのtableタグをスクレイピング・解析する・XmlDocument †

tableタグで作成された表を解析しcsvなどにしたい場合はありませんか？
本資料では、単純なHTMLを用意しHTMLファイルのスクレイピングをしてみます。

PowerShellでHTMLのtableタグをスクレイピング・解析する・XmlDocument
使用したWindowsとPowerShell
関連記事
[xml]を使用してtableタグ内の情報をスクレイピングする
HTMLファイルをXmlDocumentオブジェクトに読み込み操作する

使用したWindowsとPowerShell †

Windows

PowerShell

PS C:\> $PSVersionTable.PSVersion

Major  Minor  Build  Revision
-----  -----  -----  --------
5      1      18362  145

↑

[xml]を使用してtableタグ内の情報をスクレイピングする †

以下のHTMLファイルを用意しました。

sample.html sample.zip

<html>
    <head>
        <title>sample</title>
    </head>
    <body>
        sample table
        <table>
            <tr>
                <th>No</th><th>value1</th><th>value2</th>
            </tr>
            <tr>
                <td>1</td><td>11</td><td>12</td>
            </tr>
            <tr>
                <td>2</td><td>21</td><td>22</td>
            </tr>
            <tr>
                <td>3</td><td>31</td><td>32</td>
            </tr>
        </table>
    </body>
</html>

htmlファイルをSystem.Xml.XmlDocumentオブジェクトとして読み込むためには、以下の構文になります。

$obj = [xml](Get-Content ファイル名)

上記の通り、htmlファイルをXmlDocumentオブジェクトに読み込み操作することになります。

↑

HTMLファイルをXmlDocumentオブジェクトに読み込み操作する †

以下は、用意したsample.htmlをDドライブ直下に置いてPowerShellにて操作した実行例となります。

htmlファイルを読み込みます。

PS D:\> $obj = [xml](Get-Content D:\sample.html)
#br

読み込んだ情報($objに格納)を表示するとhtmlタグがあることが確認できます。

PS D:\> $obj                                                                                                            
html
----
html
#br

htmlタグを指定し表示しています。headとbodyがあることが確認できます。

PS D:\> $obj.html                                                                                                       
head body
---- ----
head body
#br

bodyタグを指定すると、テキストとtableタグがあることが確認できます。

PS D:\> $obj.html.body                                                                                                  
#text                          table
-----                          -----
...                            table

textの内容を取ってみます。
HTML内のテキストを取得することができました。

PS D:\> $obj.html.body.'#text'                                                                                          
        sample table

tableタグを指定すると、trが4つ存在しているのが確認できます。

PS D:\> $obj.html.body.table                                                                                            
tr
--
{tr, tr, tr, tr}

PS D:\> $obj.html.body.table.tr.count
4

実際にtr分ループしtr内の要素を表示してみます。
以下のスクリプトをコピー＆ペーストしEnterキーを押して実行してみてください。
```
$table = $obj.html.body.table
$tr_count = $table.tr.Count
for ($i=0; $i -lt $tr_count; $i++) {
  if ($i -eq 0) { $table.tr[$i].th } else { $table.tr[$i].td }
}
```

csv文字列としてとして出力してみます。

$table = $obj.html.body.table
$tr_count = $table.tr.Count
for ($i=0; $i -lt $tr_count; $i++) {
  if ($i -eq 0) { $t = $table.tr[$i].th } else { $t = $table.tr[$i].td }
  $t[0] + "," + $t[1] + "," + $t[2]
}

以上、XmlDocumentオブジェクトを使って、HTMLをスクレイピングするサンプルでした。

PowerShell/HTMLのtableタグをスクレイピング

オンライン数 : 49

ご利用にあたり

公開サイト

Twitter

最新の30件

今日の30件

人気の30件

PowerShellでHTMLのtableタグをスクレイピング・解析する・XmlDocument †

使用したWindowsとPowerShell †

関連記事 †

[xml]を使用してtableタグ内の情報をスクレイピングする †

HTMLファイルをXmlDocumentオブジェクトに読み込み操作する †