楽天モバイル[UNLIMITが今なら1円] ECナビでポインと Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜!


無料ホームページ 無料のクレジットカード 海外格安航空券 解約手数料0円【あしたでんき】 海外旅行保険が無料! 海外ホテル
告知欄です


■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50
メモ3

713 :名無しさん@停滞中 ★:08/06/03 19:19:40 ID:???
さて
>>699のhtmlをdat化する正規表現を考えたんですが
前処理がうまく合致しないです

元html
http://tieba.baidu.com/f?kz=190540976
のままだと文字化けが激しいので
とりあえずShift_Jisで保存し直してアップ

http://mirror.sarashi.com/htmltodat/190540976.html

htmltodatで呼び出したら
3行目からbodyタグ直前の404行目あたりまで削除して
下記を実行


正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik

変換結果式
$4<>$3<>$5<>$2<>


これでいちおうdat化出来るです

714 :名無しさん@停滞中 ★:08/06/03 19:29:14 ID:???
正規表現は&nbspが変換表示されてしまっとるです

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mik

↑これなんですが
最初「〜&nbsp;〜」とやったらレス3がマッチしなくて
「〜&nbsp〜」とコロン「;」を消したらマッチしたです
何でだろう
不思議だ





問題は前処理ですが

s#\n(?:<meta|<link|</?style|div|a|\.|</?script).+?\n#\n#ig
s#\n\..+?\n#\n#ig
s#\n .+?\n#\n#ig
s#\n +formname.+?\n#\n#ig
w C:\My Documents\テスト.html

これだけやってC:\My Documentsに生成された「テスト.html」を開いてみても
3行目から404行目までのガラガラが全然消えてない。
いったいどこが悪いのだろう
何でだろう
不思議だ

500KB
続きを読む

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail(省略可)

0ch BBS 2006-02-27