テレワークならECナビ Yahoo 楽天
LINEがデータ消費ゼロで月額500円〜!
無料ホームページ 無料のクレジットカード 海外格安航空券 海外旅行保険が無料! 海外ホテル
■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 最新50
メモ4
- 325 :名無しさん@停滞中 ★:09/08/17 18:47:05 ID:???
- メモ
テレビジン(http://tvz.in/)のdat化について
URL例
http://tvz.in/thread/anb/1250259291/
http://mirror.sarashi.com/htmltodat/tvz_in/1250259291.html
正規表現
m#\[<a name="\d+">([0-9]+)</a>\]()<b>(.+?)</b>([^◆]+?)</div><div style.+?>(.+?)</div>#mik
前処理
s#(<title>.+?)(?:\n|\r)#$1</title>#ik
s#\t##igk
「透明あぼーんを補う」にチェックを入れる
後処理
s#</?div.*?>##igk
メール欄は最初から省略されているみたい。
あと、元からレス番が飛びまくりなので「透明あぼーんを補う」にチェックを入れる必要があるです。
ソースを見るとやたらタブが多くてそれを削除する前処理を入れたのですが
その処理が結構時間がかかるです。
タブ削除ってhtmltodat内部でやっていると思っていたのですがそうではなかったみたい。
違ったらごめんなさいですが
タブも改行同様にhtmltodat側で削除するようなオプションを付けて頂けたら嬉しいです(私が)
500KB
続きを読む
掲示板に戻る 全部 前100 次100 最新50