テレワークならECナビ Yahoo 楽天
LINEがデータ消費ゼロで月額500円〜!
無料ホームページ 無料のクレジットカード 海外格安航空券 海外旅行保険が無料! 海外ホテル
■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50
メモ3
- 1 :名無しさん@勉強中 ★:07/08/04 06:09:43 ID:???
- またまた思いついた事など
- 737 : ◆/vmukiyuzw :08/06/13 21:33:02 ID:cARXftE6
- >>736
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。
メニューhtmlてのが何のことを言ってるのかよくわからないですが
subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします
- 738 :名無しさん@停滞中 ★:08/06/14 12:44:26 ID:???
- >>737
えーと、言葉が足りませんでしたが
> subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします
いちおう出来るには出来ますが
ヘッダとフッタが残ってしまい
それらを手動で消さなければならないように思うですが。
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/72
のように。
頭の体操的に無理矢理に考えてみると
ヘッダ除去
s#^(?.|\n|\r)+?(\n.+?<>)#$1#ik
フッタ除去
s#(<>(?:\r)?\n)(?:.|\n|\r)+?$#$1#igk
とかなるのかな。。
先読みの使い方ってこれでいいのかな。
具体的には
http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
とか
http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
からsubject.txtを生成したいのですが
試行錯誤するツールがあったら嬉しいなと思ったのです
- 739 :名無しさん@停滞中 ★:08/06/14 13:33:49 ID:???
- 特殊文字は
タブ(\t)とかもあるですか。
他にもあるかな。
あと使ってないのに先読み云々とか
なに口走ってるんだろ
ところで>>716で教えて頂いた先読みですが
htmltodat正規表現の$6に該当する部分を
まるまるこれと差し替えられそうですね。
具体的に書くと、例えば
m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi
これを
m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(?=<dt.*?>|</dl>)#mi
とやっても良さそうです。(Bregexp.dllでは非推奨でしょうけど)
「何の意味が?」とか言われそうですけど
新たにhtmltodatのようなスクリプトを組む時にかなり楽になりそうだなと。
JavaScriptやwsh・phpでやってみた時
正規表現でマッチした$6を残す処理が少し(というか結構)面倒だったので。
- 740 :名無しさん@停滞中 ★:08/06/14 18:53:18 ID:???
- ところで 秋葉原の件以降
やたらにxreaのサーバ負荷率が上がってるです
特に週半ば以降が顕著で。
−−−−−−−−−−−−−−−−−
20080614
▽アカウントの負荷率
3) 313 pt - mirror.s151.xrea.com
20080613
▽アカウントの負荷率
2) 519 pt - mirror.s151.xrea.com
20080612
▽アカウントの負荷率
8) 154 pt - mirror.s151.xrea.com
20080611
▽アカウントの負荷率
7) 73 pt - mirror.s151.xrea.com
20080610
▽アカウントの負荷率
4) 329 pt - mirror.s151.xrea.com
20080609
▽アカウントの負荷率
0 pt
20080608
▽アカウントの負荷率
0 pt
20080607
▽アカウントの負荷率
0 pt
20080606
▽アカウントの負荷率
0 pt
20080605
▽アカウントの負荷率
0 pt
20080604
▽アカウントの負荷率
0 pt
−−−−−−−−−−−−−−−−
負荷率とかよくわかんないんですが
13・14とすごい。
14日って今日なのでもっと数字増えるかもです
調べてみるとこれが原因かな。
追記でimona.phpへのリンクがあって
そこからどわーっと来てるみたい
【秋葉原連続殺傷事件外伝】 まりえったの歌日記♪さん さきほど閉鎖:Birth of Blues
http://birthofblues.livedoor.biz/archives/50661072.html
xreaのアカウントが消されなければ自分的にはどうでもいいんですが
そうなってからでは後の祭りなので
何かやっといたほうが良いのかもしれないのかなと。
一時的にimona.phpを待避させてみますか
- 741 : ◆/vmukiyuzw :08/06/14 20:08:44 ID:RgmD5VXT
- >>738
もちろんヘッダやフッタも前処理で取り除く前提で考えてたんですが
> http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
fatal errorを起こしてしまうので何回かに分けて地道にやるしか
なさそうですね。
しかし、このアプローチで出来ないんであれば、すでに私の力及ばずというか
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。
単なるhtmltodatのオプション追加でできるレベルとは思えないのです。
例にあげていただいた2つでも形式がまったく違いますし。
それこそ個別のスクリプト書くか、汎用的にしたいならhtmltosubみたいな
別ツール作ったほうがいいのではと思う次第です。
私はやる気が湧かないので、いっそご自分で作ってみてはいかが?
- 742 :名無しさん@停滞中 ★:08/06/14 21:56:07 ID:???
- > > http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> > http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
>
> 前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
> fatal errorを起こしてしまうので何回かに分けて地道にやるしか
> なさそうですね。
うーむ
とりあえずUTF-8にしてアップしてみたです
http://mirror.sarashi.com/htmltodat/subjecttest.html
前処理で
s#\n(?:<meta|<link|</?style|div|a|\.|</?script|<input|[^<]).+?(?=\n)##ig
s#\r(?=\n)##ig
s#\n(?=\n)##ig
これでガラガラと空行がある程度省けたので
かなり見通しがよくなったかな
で、肝心のデータ部分は
<td class="d">80037</td>
<td class="d">354</td>
<td class="s"><a class=t href="/f?kz=22542052" target=_blank > 初到?京的感
受~~(ZT) </a>[<font class="red">精品</font>]&nbsp;[<font class="red">置?</fon
t>]&nbsp;</td>
なので以下略
後で考えてみますか
- 743 : ◆/vmukiyuzw :08/06/15 02:14:11 ID:TDdn/yNm
- 前処理とかはなんとかなりそうですね
あと問題になりそうなのはスレ番号をどうやって決めるか
これはスレ保存をどうやってやるかによるのでなんとも言えないです
- 744 :名無しさん@停滞中 ★:08/06/15 20:06:15 ID:???
- 疲れちゃったので一回休み
やってて思ったのですが
前処理がうまくいったかどうかwコマンドで保存して
保存したものをエディタで開いて
駄目なのでエディタを閉じて保存したファイルを消して
またやり直して保存したものをエディタで開いて確認して
・・という作業がなかなか煩雑に思えたので
wコマンドはそれとして
簡易的に下窓に前処理変換結果が出たら楽かもなーと夢想したです
おやすみなさい
- 745 : ◆/vmukiyuzw :08/06/15 21:12:50 ID:TDdn/yNm
- >>744
まあおっしゃることはわかりますし自分でもあったらいいかなと思うことはあるのですが
簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと
そしたらそれなりに面倒な改造になる上あまり使い勝手がいいものに仕上げる自信もないので
wコマンドで逃げてるってのが正直なところで。
ところで
> 保存したものをエディタで開いて
> 駄目なのでエディタを閉じて保存したファイルを消して
自分が主に使ってるエディタは秀丸ですがこんな手間はかからないです。
ファイルを開いた状態でも他から上書きは可能ですし、「再読み込み」という機能を使うと
最新の状態で読み直してくれるのでワンアクションで済みさほど煩雑には感じないのです。
エディタにもいろいろあるしどれをお使いかわからないですけどそれほど特殊な機能とも思えないので
可能かどうか調べてみては。
- 746 : ◆/vmukiyuzw :08/06/15 23:40:11 ID:TDdn/yNm
- 補足ですが
> ファイルを開いた状態でも他から上書きは可能ですし、
これは排他制御関連の設定で、大抵のエディタにはついてるのではと思います。
> 「再読み込み」という機能を使うと
これはアンドゥ系の機能で、名前は違えどやはり実装されてるものが多いと思います。
ちなみにxyzzyでは「最初からやり直し」という機能名でありました。
# おっともうすぐ500KBですね。余計な書き込みはこれまでにて
- 747 :名無しさん@停滞中 ★:08/06/17 20:03:20 ID:???
- リアルよりバーチャルが大事、と思いたい
戦わなくちゃ非現実と
二次元こそリアルワールドという友人がうらやましい
でも余裕が無い
>>745-746
> 簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと
いやーそんなに考えなくてもいいような。
改行マークとかなくても意味あると思うです
エディタですが、TeraPadを主に使ってるですが
「TeraPad 排他制御」で検索して
TeraPad_help
http://web.archive.org/web/20070807212724/http://www.harpy.org/delfy/tpadhelp/tips51.html
読んでみて設定を色々試してみて
何とか反映する事が出来たです
すごいです
ただ、このTeraPadってUTF-8対応されてますが
簡体字・繁体字・ハングル等が文字化けするのが何だかななのですが
秀丸ではそれらも問題ないのでしょうか。
あと色々な文字コードのファイルを読み書き保存出来るのかな
シェアウェアみたいなので怖くて(?)試せないです
xyzzyにまたチャレンジしてみますか
それとやっていて思ったのですが
前処理でwコマンド込みの式を入れて
「dat変換をしない」にチェックして変換ボタンを押すと
データを呼び出したりコピペしたりしていなくても
サイズ0のファイルが生成されるみたい。
まあ大した事ではないです
ところで下のエントリーを読んで
内モンゴルと草原の誘い【前篇】 - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/645fe944a3e53c92e97f337e46d33c94
紹介されてる元スレッドの画像がいたく美しく
dat化して読んでみたく思ったです
外部コマンドで文章翻訳とか出来るので。
百度_呼????_原?-美?的呼???
http://tieba.baidu.com/f?kz=312028377
で、これ現在173レスあるみたいなんですが
50区切りで表示されているもんでどうしようか。。
全部表示するやり方とかあるのかな
えーと
ここって500KBだったか512KBだったか。
どちらにしてもまた1000まで到達出来ないのか
500KB
新着レスの表示
掲示板に戻る 全部 前100 次100 最新50