メモ３

テレワークならECナビ Yahoo 楽天 LINEがデータ消費ゼロで月額500円～！
無料ホームページ無料のクレジットカード海外格安航空券　海外旅行保険が無料！海外ホテル

告知欄です

■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50

1 ：名無しさん＠勉強中 ★：07/08/04 06:09:43 ID:???: またまた思いついた事など
705 ：昼休み＠名無しさん＠停滞中 ★：08/05/28 12:44:45 ID:???: やりかけメモ

http://modoki.mine.nu/log/read.php/gline/1165245437/

正規表現
m#<dl><dt><a.+?>([0-9]+)</a>：名前：(?:<a href="mailto:(.+?)">)?(.+?)</a> \[.*?\] 投稿日：(.+?)<dd>(.+?) </dl>#mik

前処理
s#(ID:)<a href="read.php/.+?>(.+?)</a> (?:$\d+$)?(<dd.*?>)#$1$2<dd>#igk

ちょっと集中出来ないのでやりかけメモ
デバッグは余裕が出来た時に

それにしても、onmouseoverが消してないもんで
htmltodatのプレビュー部分にマウスを動かすとエラーダイアログが頻繁に出るんですが
何とかなりませんかね？
706 ：名無しさん＠停滞中 ★：08/05/29 21:17:53 ID:???: http://society6.2ch.net/test/read.cgi/gline/1165245437/592

ちょっと面倒だったのでずっとやってなかったですが
html化されたURLでの入力変換にもいちおう対応させたつもり

あと「その１８a」を追加
そこ知らなかったです
707 ：名無しさん＠停滞中 ★：08/05/31 12:18:39 ID:???: メモ
もどきもどき（http://modoki.mine.nu/）のdat化について

URL例
http://modoki.mine.nu/log/read.php/gline/1165245437/1-9999

正規表現
m#<dl><dt><a.+?>([0-9]+)</a>：名前：.*?(?:<a href="mailto:(.+?)">)?(.+?).+? \[.*?\] 投稿日：(.+?)<dd>(.+?) </dl>#mik

前処理
s#<a href="read.php/.+?>(.+?)</a>(?: $\d+$)?#$1#igk
s#(ID:)( BE:\d+.+?$\d+$)(.+?)(<dd>)#$1$3$2$4#igk
s#<a target.+?>-キャッシュ-</a>##igk
s#<a target.+?>(.+?)</a>#$1#igk
s#.+?\n##igk
s#</dd>###igk
s#<dd class.+?>##igk
s#<img.+?>##ig
708 ：名無しさん＠停滞中 ★：08/06/01 10:56:24 ID:???: 上の前処理中で

s#</dd>###igk

は

s#</dd>##igk

の間違いでした。
大勢に影響ありそうな気がしますがとりあえず変換出来てるのかな。

まあ「変換出来ないぞこら」という反応はあっても
うまく変換出来た場合は無反応な場合が多いかなと
勿論「変換出来ましたかっこいい素敵キャー！」みたいな反応があってもいいけど

あと思ったのは
<a href ～>hoge</a>の形式のタグはhtmltodat側で削除してくれますが
<a target ～>hoge</a>のほうは自分でやらないといけないみたいですね。
これが可能なら上の前処理も２行減らせるんですが。
709 ：名無しさん＠停滞中 ★：08/06/01 11:02:52 ID:???: DinoSwiftさん復活おめでとうございますありがとうございます
あまり無理なさらずに

ところで最近
http://www.nicovideo.jp/watch/sm2242781
を見たんですが
もしかしてサイトのタイトルは
リリィ・シュシュの「Glide」の一節から取っておられるのかなとか
710 ： ◆/vmukiyuzw ：08/06/01 21:00:08 ID:N7t4xUrt: >>708
> s#</dd>###igk
変換できるかどうか以前に「セパレータの数がマッチしてません」エラーになるかと思ったのですが
特にエラーにはならないし処理も正常に行われるようですね。
ここはbregexp.dllに丸投げの処理なんで、アルゴリズムを推測するしかないのですが
sコマンドで３つめの#（セパレータ）を見つけた時点でセパレータ終了とみなし
以降はオプションとして解析してるんじゃないですかね。
で「#」なんてオプションは存在しないので無視されてるという状況ではないかと。

> <a href ～>hoge</a>の形式のタグはhtmltodat側で削除してくれますが
> <a target ～>hoge</a>のほうは自分でやらないといけないみたいですね。
単純に<a ～> は全部削除するようにしちゃえばいいのかなあ・・・
今<a href ～>しか削除してないのは単にそれ以外のものを見かけたことがない
だけの理由なんで。
711 ：名無しさん＠停滞中 ★：08/06/02 19:43:56 ID:???: >>710
> 変換できるかどうか以前に「セパレータの数がマッチしてません」エラーになるかと思ったのですが

自分もそう思ってたので「おっ」と思ったです

> 単純に<a ～> は全部削除するようにしちゃえばいいのかなあ・・・
> 今<a href ～>しか削除してないのは単にそれ以外のものを見かけたことがない
> だけの理由なんで。

>>497でも出していますが
最近のsnapshot（てかrep2)のhtmlでは
<a target～>形式のもの混じりになってるみたいです。
対処して頂ければ嬉しいです。

まあこの場合は今のままでも前処理で対処出来るのですが
現状では対処できない
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/498-499
を思い出して頂けると小躍りしますです。
MegaBBSや苺BBS等のdat化の際にも使えますので。

・・・自分に出来ない事を要望するのは後ろめたいもんです。
712 ：名無しさん＠停滞中 ★：08/06/03 07:29:48 ID:???: メモ

PHPでutf-8へのURLエンコードをする方法について WikipediaやGoogleで使われているURLエンコードはutf-8のようです $keyword ="緑茶"; と変数に入っているとします。これ.. - 人力検索はてな
http://q.hatena.ne.jp/1196772104
PHP基礎：文字のエンコードを変更する｜webnote
http://a-cot.jp/webnote/2007/05/php_2.html
phpのmb_convert_encodingでutf-8からgb2312に変換したいと考えています。 utf-8で書かれたページのフォームから入力し、gb2312で書かれたページに文字を表示したいのです.. - 人力検索はてな
http://q.hatena.ne.jp/1172565776
大猩猩的後花園:PHP中GB2312轉UTF-8的三種方法 - livedoor Blog（ブログ）
http://blog.livedoor.jp/chrisliu/archives/50799724.html

猿頁
http://salv.miscnotes.com/

やっつけ
http://dexi.sytes.net/log/
百度_日本文化?_日本的２ＣＨ相当于中国的什?？
http://tieba.baidu.com/f?kz=385040063
713 ：名無しさん＠停滞中 ★：08/06/03 19:19:40 ID:???: さて
 >>699のhtmlをdat化する正規表現を考えたんですが
前処理がうまく合致しないです

元html
http://tieba.baidu.com/f?kz=190540976
のままだと文字化けが激しいので
とりあえずShift_Jisで保存し直してアップ

http://mirror.sarashi.com/htmltodat/190540976.html

htmltodatで呼び出したら
３行目からbodyタグ直前の４０４行目あたりまで削除して
下記を実行

正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者： (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?(.+?)#mik

変換結果式
$4<>$3<>$5<>$2<>

これでいちおうdat化出来るです
714 ：名無しさん＠停滞中 ★：08/06/03 19:29:14 ID:???: 正規表現は＆nbspが変換表示されてしまっとるです

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者： (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?＆nbsp.+?(.+?)#mik

↑これなんですが
最初「～＆nbsp;～」とやったらレス３がマッチしなくて
「～＆nbsp～」とコロン「;」を消したらマッチしたです
何でだろう
不思議だ

で
問題は前処理ですが

s#\n(?:<meta|<link|</?style|div|a|\.|</?script).+?\n#\n#ig
s#\n\..+?\n#\n#ig
s#\n .+?\n#\n#ig
s#\n +formname.+?\n#\n#ig
w C:\My Documents\テスト.html

これだけやってC:\My Documentsに生成された「テスト.html」を開いてみても
３行目から４０４行目までのガラガラが全然消えてない。
いったいどこが悪いのだろう
何でだろう
不思議だ
715 ：名無しさん＠停滞中 ★：08/06/03 20:15:10 ID:???: 念のため書いておくと
これ文字化けは承知の上でやっており
正規表現その他が何とか確定したら
htmltodat.phpでdat化させてJaneNidaで読み込んでみようかなと。

スレッド一覧からsubject.txtを生成するスクリプトも何とかなりそうですが
その生成したsubject.txtを該当フォルダに放り込む為には
板一覧で外部コマンドが実行出来るようになれば良いのですが
残念ながらkoreawatcher ◆Nida.eneRAさんのほうでは実装予定は無いそうで。

http://pc11.2ch.net/test/read.cgi/software/1201790889/254

そういえばtatsuさんのdat2html最新版をＤＬさせて頂いたのですが
内部処理をUTF-8にされたみたいで。
Delphiでは難しいのかな

http://pc11.2ch.net/test/read.cgi/win/1202424797/840
716 ： ◆/vmukiyuzw ：08/06/04 19:04:14 ID:mjeajOrF: >>714
例えば

s#\n\..+?\n#\n#ig

ですが、

.p14{font-size:14px;}
.gray{color:#0033cc;}
～

のような繰り返しを削除したいのだと思いますが、意図に反して
１行目は削除できるけど２行目はできないと思います。
２つめの\nにマッチした時点で正規表現の検索のポインタは次の文字へと
進んでしまうので、２行目にマッチさせようとしてせっかく変換した\nは
読み飛ばされてしまうのです。

これに対処するには「先読み」の機能(?=文字列)を使うといいと思います。
マッチはするけどポインタは進めない、ような感じで処理されます。

s#\n\..+?(?=\n)##ig

だと意図した結果が得られると思います。

# 実をいうと先読み機能はオリジナルのbregexp.dllでは
# サポートされてないのではないかと思っていたのです。ドキュメントにも書いてませんし。
# でもやってみたらたまたまできちゃった、てな次第です
717 ：名無しさん＠停滞中 ★：08/06/04 22:29:15 ID:???: >>716

おお！
すっげー！
変換できたです！
ありがとうございます！

先読み使えるのですか。
先読み記号で指定した部分はマッチするだけで置換する際に削除も何ももされないんですか（って自分で書いてても意味不明ですが）
しかし正規表現は奥が深いです
ミノフスキー粒子が濃すぎて先が見えません

中国繋がりでいうと
今日は天安門事件19周年だそうですが
何かニュースで触れられてるのかな。

てか19年前なのか…
718 ：名無しさん＠停滞中 ★：08/06/05 08:20:06 ID:???: PHPリファレンス－PHP基本構文 > 基本その他 > $_SERVER["QUERY_STRING"]
http://www.yaskey.cside.tv/php/referdb/index.php?mode=detail&KEY=95
$_SERVER["QUERY_STRING"]の仕様について - 教えて！goo
http://oshiete1.goo.ne.jp/qa1060139.html
719 ：名無しさん＠停滞中 ★：08/06/05 12:09:54 ID:???: http://com-nika.osask.jp/test/read.cgi/bbs/1166882974/194
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－
[194] nika@管理人★◆nika/si95E : 2008/06/04(水) 19:33:57 ID:TJP3rFKX0
重要なお知らせ

現在このサイトは自宅サーバーで運営されていますが、
今後も継続的に自宅サーバーで運営することが困難になるため、
外部掲示板の保管機能は2008年6月中に終了することになりました。

継続的に利用されている方には申し訳ありませんが、
終了後には基本的にdat落ちしたスレッドは見られなくなりますので
ご了承頂けますよう、お願いいたします。
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

お疲れ様でした。
720 ：名無しさん＠停滞中 ★：08/06/05 19:51:21 ID:???: まあ色々ありますが
そうそう落ち込んでいる余裕もなく

万が一
http://tmp6.2ch.net/test/read.cgi/download/1164164363/269
のように「お前のせいだ」とか言う人が居ても
ただただ困惑するのみで
721 ：名無しさん＠停滞中 ★：08/06/05 20:05:58 ID:???: という事で
ガラガラを取り除いたhtmlを出力出来たかなと

元URL
http://tieba.baidu.com/f?kz=386794671

ガラガラ除去（ソースを御覧あれ）
http://mirror.s206.xrea.com/x/cn/string.php?http://tieba.baidu.com/f?kz=386794671

で、次の問題は
 >>714の正規表現にある２バイト文字で。

具体的に書くと

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者： (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?＆nbsp.+?(.+?)#mik

上の「作者：」という箇所で詰まっているみたい。
文字コードgb2312なのでShift_Jisでの「作者：」とは全く違うのでそりゃマッチしないでしょうねと。

簡体字コード一覧表
http://ash.jp/code/cn/gb2312tbl.htm
を見て照合してみると

作　D7F0
者　D5D0
：　A3B0

みたいなので
htmltodat.php中の正規表現中の「作者：」部分を

～\xD7\xF0\xD5\xD0\xA3\xB0～

と変えてもマッチしない。

しょうがないので「作者：」直線のタグ「<td align=left>」を使ってhtmltodat風に書くと

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?<td align=left >.+? (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?＆nbsp.+?(.+?)#mi

としてやってみたけどマッチしない。
難しいものだ

ちなみにこのスレッドですが
下のエントリーを見て興味が湧いたという訳で。

中国のヲタたちの囁き～声優編～ - 大陸浪人のススメ　～迷宮旅社別館～
http://blog.goo.ne.jp/dongyingwenren/e/cd06d43c4755f8a377cbf98a39a1721d
722 ：名無しさん＠停滞中 ★：08/06/05 21:41:51 ID:???: やりかけ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671

22レスあるスレッドなのに20行しかないのは何故なのだ

$1の連続関係を調べるとレス２０と２１が抜けてるみたいなのだが
今日はここまで
私の頭脳CPUの限界を越えてるようです

ソースを出しときますので
識者の方　見ておられたら原因を究明して頂きたく。
スクリプトの文字コードがShift_Jisだったりコメントを変えてなかったりと
突っ込みどころ満載ですが。

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.phps
723 ：名無しさん＠停滞中 ★：08/06/06 19:16:30 ID:???: ああ余裕ない

 >>722の件ですが
今見てみたら該当レス二つ
透明あぼーんされてるだけでした
ハハハ
どうしよう
あと
レス２の画像URLも本文に入れるように
前処理考えるだなー

いちおうJaneNidaで外部板を設けて
文字コードgb2312で設定して
datを該当フォルダに放り込んで読み込んだら
文字化けせずに読めたです
ばんざーいい

それと

http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/544

小躍りしてます
ありがとうございました

ああそれにしても余裕ない
724 ：あぼーん：あぼーん: あぼーん
725 ：あぼーん：あぼーん: あぼーん
726 ：名無しさん＠停滞中 ★：08/06/07 07:53:21 ID:???: おはようございます
朝からずっこけました
大いに笑かせて頂きました
今日は楽しい一日になりそうです

実際のところ自分はというと
あちこち見てるばかりであまり書き込んだりしませんなー。
というか　見てるだけで精いっぱいお腹いっぱい僕乾杯
727 ：名無しさん＠停滞中 ★：08/06/07 18:16:58 ID:???: >>725のほうは消さなくても良かったかも。
なんの事やらまぢわかんないとなってるかもだけど
大した事ないです

というか、JaneNidaだと
ツール→設定→書き込みで
「誤爆警告」「コテハン警告」「Beログイン警告」
のチェック欄があるのですが
他の派生Janeではどうなのでしょう。
ありそうなものですが。

ところでJaneNidaなのですが
スレッド一覧で外部コマンドを使用可能にして下さって
大いに活用させて頂いているです
すごいです
で
左ペインの板一覧でも外部コマンド使えるようになったら
更に選択肢が拡がるのですが。
728 ：名無しさん＠停滞中 ★：08/06/07 18:24:50 ID:???: ところで
nikaさんの所をwebarchiveで検索してみたら
9938ページ保存されてるみたいです

Internet Archive Wayback Machine
http://web.archive.org/web/*sr_1nr_9938/http://com-nika.osask.jp/*

k1とボクシング板が多い・・

htmlばかりでなく
http://web.archive.org/web/20070322190441/com-nika.osask.jp/bbs/bbs.php?http://ex9.2ch.net/test/read.cgi/k1/1099631963/
datもあるのですか
http://web.archive.org/web/20070322133640/com-nika.osask.jp/wom/dat/1130303803.dat

このhtmlも
dat化用正規表現を考えといたほうがいいのかな
729 ：名無しさん＠停滞中 ★：08/06/08 19:50:54 ID:???: htmltodat.phpでも透明あぼーんを補うようなコードを追記してみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671

次は添付画像のURLを本文に含めるようにしたいなと。

具体的に書くと

http://tieba.baidu.com/f?kz=386794671

のレス２・１５・１７にある画像URLを本文に含めるように出来ればいちおう完成ですが
これがなかなかマッチしない。
Shift_Jis化してアップし直したものが下記で
正規表現その他は >>713-714で出来るです

http://mirror.sarashi.com/htmltodat/386794671.html

ただ本文は<cc>～</cc>中にあるんですが画像URLはその中にはなく
直後に

<cc>～</cc>
</td></tr></table>
</td></tr>
<tr><td height="17"></td><td class="p14">?子相??片: <img src=
"http://hiphotos.baidu.com/%CF%E0%C0%C7%D7%DA%BD%E9/pic/item/05592bf09cab92d07931aaa3.jpg"
border="0" onerror="checkErrorImage(this)"></td></tr>
<tr><td height="17"></td>
<td align=left >作者： 121.32.233.*

となっておるです
これを</cc>直前にする為に
前処理で

s#(</cc>).+?(?:<img src="(.+?)".+?>)?.+?(<td align=left >)#$2 $1 $3#ig

とかやっても全然マッチせず。
改行コードをまたいだりしてるのとかも問題なのかな。
730 ：名無しさん＠停滞中 ★：08/06/09 20:15:50 ID:???: 御冥福をお祈りします

関連で

百度_日本文化_秋叶原で通り魔　白昼の惨劇【組図・転載】
http://tieba.baidu.com/f?kz=403408591

をdat化して読み込みたいんですが
やはり添付画像を本文に含めるやり方がうまくいかぬ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=403408591

御冥福をお祈りします
731 ：名無しさん＠停滞中 ★：08/06/10 20:30:08 ID:???: メモ

「日中文化交流」と書いてオタ活動と読む:ニコニコ動画のパクリと言われる「AcFun.cn　天下漫友是一家」について - livedoor Blog（ブログ）
http://blog.livedoor.jp/kashikou/archives/51145664.html#comments
阿?海姆株式会社
http://hi.baidu.com/tentamashi
大陸浪人のススメ　～迷宮旅社別館～
http://blog.goo.ne.jp/dongyingwenren
繁体字→簡体字変換
http://www.tulips.tsukuba.ac.jp/misc/export/cat/hankan/
AOL Q&A広場中国語簡体字　←→　中国語繁体字　変換
http://aol.okwave.jp/qa2976707.html
漢字変換道具 [JavaScript版]
http://homepage3.nifty.com/jgrammar/ja/tools/tradkan0.htm
Wikipedia:?繁一多??校?表 - Wikipedia
http://zh.wikipedia.org/wiki/Wikipedia:%E7%AE%80%E7%B9%81%E4%B8%80%E5%A4%9A%E5%AF%B9%E5%BA%94%E6%A0%A1%E9%AA%8C%E8%A1%A8
hao123网址之家--在?繁体字??
http://www.hao123.com/haoserver/jianfanzh.htm

文字化け何とかならないものか。
0ch掲示板のUTF-8化スクリプトのほうを使えばそりゃ化けなくなるけど
専用ブラウザで文字化けする人ばかりだろうし
って　専用ブラウザでここ見てる人　どれくらい居るのかな
732 ：名無しさん＠停滞中 ★：08/06/10 20:57:52 ID:???: 中国語と日本語の対応表 -OKWave
http://okwave.jp/qa1732315.html?ans_count_asc=20
とある研究者の余録: 繁体字変換は便利だけど
http://voyage-log.seesaa.net/article/62271244.html#more
Chinese Core Simplified Chars
http://xahlee.org/lojban/simplified_chars.html
インクジェットプリンターのKGK紀州技研工業｜豆知識＿文字コードの話／簡体字の世界
http://www.kishugiken.co.jp/cn/code10.html
インクジェットプリンターのKGK紀州技研工業｜豆知識＿文字コードの話／簡体字対照リスト（あいうえお順）
http://www.kishugiken.co.jp/cn/code10c.html
中文－広東語対応表（基本編） - Thank you for the music
http://blog.goo.ne.jp/ico3/e/23780e9b4cb8286bbf7b2a230f70e765
733 ：名無しさん＠停滞中 ★：08/06/11 21:35:45 ID:???: 【かちゅ】2chブラウザ「Katju88」Part10【ｸﾛｰﾝ】
http://pc11.2ch.net/test/read.cgi/software/1140337471/l50

170さんすげー！
しかもレス175でこんな事↓書いてるのにすげー！

> 自分はC++歴はそれなりにあるんだけど、Delphiはまったく知らないし。
> いきなり挫折・・・

有形無形問わず、実際に物を作っている人って
すごい謙虚で研究熱心で探求心豊かで
新しい時代の流れに呑み込まれず
確かな目つきと落ち着いた判断を備えていて
さもない質問にも真摯に対応される紳士なのだなーと。

さらにいろいろ書こうかなと思ったら
そうかこれこそまさしく
「実るほど頭を垂れる稲穂かな」
だなーと。
その態度見習わなきゃです
734 ：名無しさん＠停滞中 ★：08/06/12 21:33:56 ID:???: >>729の件
やっとマッチしたです

URL例
http://mirror.sarashi.com/htmltodat/386794671.html

正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者： (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?(.+?)#mik

前処理
s#\r##ig
s#\n##ig
s#(</cc>)</td></tr></table></td></tr><tr><td height="17"></td><td class="p14">[^<]+? <im
g src="(.+?)".+?></td></tr><tr><td height="17"></td># $2$1#ig

変換結果式
$4<>$3<>$5<>$2<>

ポイント（つか悩みどころ）は二つ。

(1) 複数行にまたがる箇所を置換する為には
　　いったん改行コードを全削除する必要があるみたい

(2) 前処理の３番目は最初

　　～<td class="p14">.+? ～

　　としたら何故か最大マッチ(?)してしまっていたので
　　やむなく

　～<td class="p14">[^<]+? ～

　としたら上手くいったみたい

突っ込み所多数あるでしょうけど
これで百度掲示板の添付画像URLを本文に含められそうです
735 ： ◆/vmukiyuzw ：08/06/13 01:40:02 ID:u/UqlNCi: 正規表現の.（ドット）は「改行を除く」一文字にマッチということらしいので
無理やりかもしれませんが(?:.|\n)とか使うと多少シンプルにできるかも・・・
試してないのでわかりませんけど。（\rもいるかも）
736 ：名無しさん＠停滞中 ★：08/06/13 20:37:32 ID:???: という事でやってみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671

JaneNidaの該当フォルダにこのdatを入れて読み込んでみると
画像ビューアや外部コマンド翻訳もうまくいってるみたい

http://mirror.sarashi.com/img/janebaidu.png

という事で
次は一覧のsubject.txt化ですか

 >>735
> 正規表現の.（ドット）は「改行を除く」一文字にマッチということらしいので

そうだったのかー！！
ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
あったらいいなーという要望とか思ったんですがどうでしょうか。
737 ： ◆/vmukiyuzw ：08/06/13 21:33:02 ID:cARXftE6: >>736
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。

メニューhtmlてのが何のことを言ってるのかよくわからないですが
subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします
738 ：名無しさん＠停滞中 ★：08/06/14 12:44:26 ID:???: >>737
えーと、言葉が足りませんでしたが

> subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします

いちおう出来るには出来ますが
ヘッダとフッタが残ってしまい
それらを手動で消さなければならないように思うですが。
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/72
のように。

頭の体操的に無理矢理に考えてみると

ヘッダ除去
s#^(?.|\n|\r)+?(\n.+?<>)#$1#ik
フッタ除去
s#(<>(?:\r)?\n)(?:.|\n|\r)+?$#$1#igk

とかなるのかな。。
先読みの使い方ってこれでいいのかな。

具体的には

http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy

とか

http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

からsubject.txtを生成したいのですが
試行錯誤するツールがあったら嬉しいなと思ったのです
739 ：名無しさん＠停滞中 ★：08/06/14 13:33:49 ID:???: 特殊文字は
タブ（\t）とかもあるですか。
他にもあるかな。
あと使ってないのに先読み云々とか
なに口走ってるんだろ

ところで >>716で教えて頂いた先読みですが
htmltodat正規表現の$6に該当する部分を
まるまるこれと差し替えられそうですね。
具体的に書くと、例えば

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?(.+?)(?:|</a>) ?：(.*?)<dd> ?(.*?) (<dt.*?>|</dl>)#mi

これを

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?(.+?)(?:|</a>) ?：(.*?)<dd> ?(.*?) (?=<dt.*?>|</dl>)#mi

とやっても良さそうです。（Bregexp.dllでは非推奨でしょうけど）

「何の意味が？」とか言われそうですけど
新たにhtmltodatのようなスクリプトを組む時にかなり楽になりそうだなと。
JavaScriptやwsh・phpでやってみた時
正規表現でマッチした$6を残す処理が少し（というか結構）面倒だったので。
740 ：名無しさん＠停滞中 ★：08/06/14 18:53:18 ID:???: ところで　秋葉原の件以降
やたらにxreaのサーバ負荷率が上がってるです
特に週半ば以降が顕著で。

－－－－－－－－－－－－－－－－－
20080614
▽アカウントの負荷率
　 3) 313 pt - mirror.s151.xrea.com
20080613
▽アカウントの負荷率
　 2) 519 pt - mirror.s151.xrea.com
20080612
▽アカウントの負荷率
　 8) 154 pt - mirror.s151.xrea.com
20080611
▽アカウントの負荷率
　 7) 73 pt - mirror.s151.xrea.com
20080610
▽アカウントの負荷率
　 4) 329 pt - mirror.s151.xrea.com
20080609
▽アカウントの負荷率
　 0 pt
20080608
▽アカウントの負荷率
　 0 pt
20080607
▽アカウントの負荷率
　 0 pt
20080606
▽アカウントの負荷率
　 0 pt
20080605
▽アカウントの負荷率
　 0 pt
20080604
▽アカウントの負荷率
　 0 pt
－－－－－－－－－－－－－－－－

負荷率とかよくわかんないんですが
13・14とすごい。
14日って今日なのでもっと数字増えるかもです

調べてみるとこれが原因かな。
追記でimona.phpへのリンクがあって
そこからどわーっと来てるみたい

【秋葉原連続殺傷事件外伝】まりえったの歌日記♪さん　さきほど閉鎖:Birth of Blues
http://birthofblues.livedoor.biz/archives/50661072.html

xreaのアカウントが消されなければ自分的にはどうでもいいんですが
そうなってからでは後の祭りなので
何かやっといたほうが良いのかもしれないのかなと。

一時的にimona.phpを待避させてみますか
741 ： ◆/vmukiyuzw ：08/06/14 20:08:44 ID:RgmD5VXT: >>738
もちろんヘッダやフッタも前処理で取り除く前提で考えてたんですが

> http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
fatal errorを起こしてしまうので何回かに分けて地道にやるしか
なさそうですね。

しかし、このアプローチで出来ないんであれば、すでに私の力及ばずというか
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。
単なるhtmltodatのオプション追加でできるレベルとは思えないのです。
例にあげていただいた２つでも形式がまったく違いますし。

それこそ個別のスクリプト書くか、汎用的にしたいならhtmltosubみたいな
別ツール作ったほうがいいのではと思う次第です。
私はやる気が湧かないので、いっそご自分で作ってみてはいかが？
742 ：名無しさん＠停滞中 ★：08/06/14 21:56:07 ID:???: > >‎ http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> >‎ http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
>
> 前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
> fatal errorを起こしてしまうので何回かに分けて地道にやるしか
> なさそうですね。

うーむ

とりあえずUTF-8にしてアップしてみたです

http://mirror.sarashi.com/htmltodat/subjecttest.html

前処理で

s#\n(?:<meta|<link|</?style|div|a|\.|</?script|<input|[^<]).+?(?=\n)##ig
s#\r(?=\n)##ig
s#\n(?=\n)##ig

これでガラガラと空行がある程度省けたので
かなり見通しがよくなったかな

で、肝心のデータ部分は

<td class="d">80037</td>
<td class="d">354</td>
<td class="s"><a class=t href="/f?kz=22542052" target=_blank > 初到?京的感
受~~(ZT) </a>[精品]＆nbsp;[置?</fon
t>]＆nbsp;</td>

なので以下略
後で考えてみますか
743 ： ◆/vmukiyuzw ：08/06/15 02:14:11 ID:TDdn/yNm: 前処理とかはなんとかなりそうですね
あと問題になりそうなのはスレ番号をどうやって決めるか
これはスレ保存をどうやってやるかによるのでなんとも言えないです
744 ：名無しさん＠停滞中 ★：08/06/15 20:06:15 ID:???: 疲れちゃったので一回休み

やってて思ったのですが
前処理がうまくいったかどうかwコマンドで保存して
保存したものをエディタで開いて
駄目なのでエディタを閉じて保存したファイルを消して
またやり直して保存したものをエディタで開いて確認して
・・という作業がなかなか煩雑に思えたので
ｗコマンドはそれとして
簡易的に下窓に前処理変換結果が出たら楽かもなーと夢想したです
おやすみなさい
745 ： ◆/vmukiyuzw ：08/06/15 21:12:50 ID:TDdn/yNm: >>744
まあおっしゃることはわかりますし自分でもあったらいいかなと思うことはあるのですが
簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと
そしたらそれなりに面倒な改造になる上あまり使い勝手がいいものに仕上げる自信もないので
wコマンドで逃げてるってのが正直なところで。

ところで

> 保存したものをエディタで開いて
> 駄目なのでエディタを閉じて保存したファイルを消して

自分が主に使ってるエディタは秀丸ですがこんな手間はかからないです。
ファイルを開いた状態でも他から上書きは可能ですし、「再読み込み」という機能を使うと
最新の状態で読み直してくれるのでワンアクションで済みさほど煩雑には感じないのです。
エディタにもいろいろあるしどれをお使いかわからないですけどそれほど特殊な機能とも思えないので
可能かどうか調べてみては。
746 ： ◆/vmukiyuzw ：08/06/15 23:40:11 ID:TDdn/yNm: 補足ですが

> ファイルを開いた状態でも他から上書きは可能ですし、
これは排他制御関連の設定で、大抵のエディタにはついてるのではと思います。

> 「再読み込み」という機能を使うと
これはアンドゥ系の機能で、名前は違えどやはり実装されてるものが多いと思います。
ちなみにxyzzyでは「最初からやり直し」という機能名でありました。

# おっともうすぐ500KBですね。余計な書き込みはこれまでにて
747 ：名無しさん＠停滞中 ★：08/06/17 20:03:20 ID:???: リアルよりバーチャルが大事、と思いたい
戦わなくちゃ非現実と
二次元こそリアルワールドという友人がうらやましい
でも余裕が無い

 >>745-746

> 簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと

いやーそんなに考えなくてもいいような。
改行マークとかなくても意味あると思うです

エディタですが、TeraPadを主に使ってるですが
「TeraPad 排他制御」で検索して

TeraPad_help
http://web.archive.org/web/20070807212724/http://www.harpy.org/delfy/tpadhelp/tips51.html

読んでみて設定を色々試してみて
何とか反映する事が出来たです
すごいです

ただ、このTeraPadってUTF-8対応されてますが
簡体字・繁体字・ハングル等が文字化けするのが何だかななのですが
秀丸ではそれらも問題ないのでしょうか。
あと色々な文字コードのファイルを読み書き保存出来るのかな
シェアウェアみたいなので怖くて(?)試せないです
xyzzyにまたチャレンジしてみますか

それとやっていて思ったのですが
前処理でwコマンド込みの式を入れて
「dat変換をしない」にチェックして変換ボタンを押すと
データを呼び出したりコピペしたりしていなくても
サイズ０のファイルが生成されるみたい。
まあ大した事ではないです

ところで下のエントリーを読んで

内モンゴルと草原の誘い【前篇】 - 大陸浪人のススメ　～迷宮旅社別館～
http://blog.goo.ne.jp/dongyingwenren/e/645fe944a3e53c92e97f337e46d33c94

紹介されてる元スレッドの画像がいたく美しく
dat化して読んでみたく思ったです
外部コマンドで文章翻訳とか出来るので。

百度_呼????_原?-美?的呼???
http://tieba.baidu.com/f?kz=312028377

で、これ現在173レスあるみたいなんですが
５０区切りで表示されているもんでどうしようか。。
全部表示するやり方とかあるのかな

えーと
ここって500KBだったか512KBだったか。
どちらにしてもまた1000まで到達出来ないのか

500KB

新着レスの表示

掲示板に戻る全部前100 次100 最新50