テレワークならECナビ Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜!
無料ホームページ 無料のクレジットカード 海外格安航空券 海外旅行保険が無料! 海外ホテル


告知欄です

■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 801- 最新50
メモ4

325 :名無しさん@停滞中 ★:09/08/17 18:47:05 ID:???
メモ
テレビジン(http://tvz.in/)のdat化について

URL例
http://tvz.in/thread/anb/1250259291/
http://mirror.sarashi.com/htmltodat/tvz_in/1250259291.html

正規表現
m#\[<a name="\d+">([0-9]+)</a>\]()<b>(.+?)</b>([^◆]+?)</div><div style.+?>(.+?)</div>#mik

前処理
s#(<title>.+?)(?:\n|\r)#$1</title>#ik
s#\t##igk

「透明あぼーんを補う」にチェックを入れる

後処理
s#</?div.*?>##igk


メール欄は最初から省略されているみたい。
あと、元からレス番が飛びまくりなので「透明あぼーんを補う」にチェックを入れる必要があるです。


ソースを見るとやたらタブが多くてそれを削除する前処理を入れたのですが
その処理が結構時間がかかるです。
タブ削除ってhtmltodat内部でやっていると思っていたのですがそうではなかったみたい。
違ったらごめんなさいですが



タブも改行同様にhtmltodat側で削除するようなオプションを付けて頂けたら嬉しいです(私が)

500KB
続きを読む

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail(省略可)

0ch BBS 2006-02-27