楽天モバイル[UNLIMITが今なら1円]
ECナビでポインと Yahoo 楽天
LINEがデータ消費ゼロで月額500円〜!
無料ホームページ 無料のクレジットカード 海外格安航空券 解約手数料0円【あしたでんき】
海外旅行保険が無料! 海外ホテル
■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50
メモ3
- 713 :名無しさん@停滞中 ★:08/06/03 19:19:40 ID:???
- さて
>>699のhtmlをdat化する正規表現を考えたんですが
前処理がうまく合致しないです
元html
http://tieba.baidu.com/f?kz=190540976
のままだと文字化けが激しいので
とりあえずShift_Jisで保存し直してアップ
http://mirror.sarashi.com/htmltodat/190540976.html
htmltodatで呼び出したら
3行目からbodyタグ直前の404行目あたりまで削除して
下記を実行
正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik
変換結果式
$4<>$3<>$5<>$2<>
これでいちおうdat化出来るです
- 714 :名無しさん@停滞中 ★:08/06/03 19:29:14 ID:???
- 正規表現は&nbspが変換表示されてしまっとるです
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mik
↑これなんですが
最初「〜&nbsp;〜」とやったらレス3がマッチしなくて
「〜&nbsp〜」とコロン「;」を消したらマッチしたです
何でだろう
不思議だ
で
問題は前処理ですが
s#\n(?:<meta|<link|</?style|div|a|\.|</?script).+?\n#\n#ig
s#\n\..+?\n#\n#ig
s#\n .+?\n#\n#ig
s#\n +formname.+?\n#\n#ig
w C:\My Documents\テスト.html
これだけやってC:\My Documentsに生成された「テスト.html」を開いてみても
3行目から404行目までのガラガラが全然消えてない。
いったいどこが悪いのだろう
何でだろう
不思議だ
500KB
続きを読む
掲示板に戻る 全部 前100 次100 最新50