楽天モバイル[UNLIMITが今なら1円] ECナビでポインと Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜!


無料ホームページ 無料のクレジットカード 海外格安航空券 解約手数料0円【あしたでんき】 海外旅行保険が無料! 海外ホテル
告知欄です


■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50
メモ3

1 :名無しさん@勉強中 ★:07/08/04 06:09:43 ID:???
またまた思いついた事など

682 :名無しさん@停滞中 ★:08/05/16 16:24:10 ID:???
下の記事を見てみると
MacOS Xっていいじゃないですか。

プログラマーを引き付けるMac OS Xの魅力 − @IT
http://www.atmarkit.co.jp/flinux/special/mac/macosxa.html

683 :名無しさん@停滞中 ★:08/05/16 18:36:26 ID:???
いろいろ見ていると
間違った仮名遣いを使っているかもと不安になりますね。

旧仮名づかひでレスしたまへ。
http://academy6.2ch.net/test/read.cgi/kobun/1015845434/
★★★★舊字、舊假名遣ひで話すスレッド 四箇目
http://academy4.2ch.net/test/read.cgi/gengo/1092597931/


ところで「舊」で検索したら
makimo.toさんの所では幾つか出るのですが

29ch - 【検索】キーワード「舊」を探しました
http://makimo.to:8000/cgi-bin/search/search.cgi?q=%E4p&andor=AND&sf=2&H=&view=table&all=on&shw=

takatyanさんの所では一つも出てこないです
何でなんでしょう

2ちゃんねる過去ログスレタイ検索
http://mirror.takatyan.info/title_search/title_search.cgi?query=%E4p&query_host=&query_board=&res_min=0&res_max=0&key_min=0&key_max=0&sort=score&hana=mogera

684 :名無しさん@勉強中:08/05/16 19:02:20 ID:KLZgAJj8
>>683
それは検索処理方法によるものです。
確かに、完全一致検索では0件、との結果が得られます。

それは、「舊」なる単語を含むスレッドは確かに一つもないためです。
「舊字」を完全一致検索で検索をするといくつか出てきますが、
これらは「舊」なる単語を含むわけではないので「舊」で検索しても出てきません。

恐らく、単語とか関係なく、ただ「舊」なる文字を含むスレッドを探したかったのでしょうと推測いたします。
そのような場合には部分一致検索をご利用ください。多少お時間を頂戴しますが、お望みの結果となります。

上記のような単語ベースの検索になっているのは、
例えば「京都」で検索したときに「東京都」が出てくる、などという現象を防ぐため、
及び高速化のためです。

・・・検索結果数に応じて自動的に完全・部分一致などを切り替えるようにしたほうがいいかもしれませんね。

685 :名無しさん@停滞中 ★:08/05/16 19:53:37 ID:???
>>684
おお、そういう事でしたか。
いつもお世話になっておりますです

という訳で、検索処理方式も選ぶものをつけさせて頂いたです
あとは板名入力ボックスもつけてみるですか

というか
何だかごめんなさい
日々反省の毎日です

686 :名無しさん@勉強中:08/05/16 20:42:13 ID:KLZgAJj8
>>685
>>684
> ・・・検索結果数に応じて自動的に完全・部分一致などを切り替えるようにしたほうがいいかもしれませんね。
を実装しておきました。

ですが具体的にどういうときにどう切り替わるのかは良く判りません。
なんとなーく、完全一致で検索して何もないと部分一致に切り替わるとかそういうのだと思います。

687 :名無しさん@勉強中:08/05/16 23:03:43 ID:HoF9RAbp
>>678 どうも 123.225.123.197の管理人です

1日 750アクセス程度なら気にする程でもないかと思います。
iriaで自鯖にアタック掛けてみましたが、毎秒10ファイル位は処理
出来たのでまだ余裕かと‥
プロバイダもトラフィック管理とか、ちゃんやっているのか
いまいち‥?なOCNを使っているので大丈夫?だと思います。

688 :679:08/05/17 09:46:25 ID:VTJcRomI
>680
下記にアップロードしました。
http://ranobe.com/up/src/up273052.lzh

689 :名無しさん@停滞中 ★:08/05/17 17:40:32 ID:???
土曜って何それおいしいのそうよとてもおいしいのよ
土曜って平日ですよね



>>686
追随させて頂きましたです。ついでに板名選択ボックスもつけてみたりして

ところで、検索結果ページのtitleタグに検索ワードが含まれていたら嬉しいかもです
「何の単語で検索したんだっけ」という時がありますし(って自分だけ)
あとタイトルに検索ワードが含まれていたらブラウザの履歴一覧で検索した単語が判りますし。


>>687
どうもです。お気を遣って頂いて感謝です

そういえばみみずんさん
転送量の関係でプロバイダ変更されたそうですね

http://qb5.2ch.net/test/read.cgi/operate/1210140086/322


>>688
ありがとうございます。感謝感謝です
ばっちり解凍閲覧出来ていますです

しかしすごい力技のデータベースだな・・。

690 :名無しさん@勉強中:08/05/17 17:53:08 ID:tdaTGfYX
>>689
> ところで、検索結果ページのtitleタグに検索ワードが含まれていたら嬉しいかもです
実装しました

691 :名無しさん@停滞中 ★:08/05/17 19:26:39 ID:???
早っ
どうもです




メモ

JavaScript で形態素解析もどき - エブログ
http://ablog.seesaa.net/article/20969848.html
マルコフ連鎖で文章生成(JavaScript) - エブログ
http://ablog.seesaa.net/article/20987336.html
JavaScript で人工無脳 マルコフ連鎖で返答 - エブログ
http://ablog.seesaa.net/article/21513007.html

692 :名無しさん@停滞中 ★:08/05/17 20:19:05 ID:???
読めるようにして頂いた>>672のデータを見ているんですが
これ本当にすごいですね。
品詞とか助詞とか何も考えずに
機械的に全置換すれば歴史的仮名遣いになってしまうみたい

ただ、10890種類もの置換文をgスイッチで行うというのは
どう考えてもサーバ負荷が甚大っぽい。
というか 試しに1000個くらいやってみたら
サーバエラーになったです。
500くらいに減らしたらOKになったので、過負荷が原因なんだろうなと。
勿論「表」や「能」みたいなダメ文字はエスケープしてやってみたですが。

てか
ダメ文字って正字に多いですね。






































x
x
\
\

693 :名無しさん@停滞中 ★:08/05/17 20:43:37 ID:???
うーむ

漢字変換のほうはなんとかなりそうですが
送り仮名等の変化がどうも。

やはり品詞解析や各活用形を解釈して変換させるほうが
遠回りのように見えて実は近道なのかな

694 :名無しさん@停滞中 ★:08/05/18 09:07:00 ID:???
http://academy6.2ch.net/test/read.cgi/kobun/1015845434/66
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
66 名前:名無氏物語[] 投稿日:04/09/29(水) 21:17:35 ID:08QD583M
(オリムピツク板に此のやうなスレがありました)

1 名前:クーベルタン男爵さん 投稿日:04/09/01 00:11
昨日の閉會式にも姿を見せなかつたやうだが。
やはり日本人にはマラソン競技は無理なのだらうか。

21 名前:クーベルタン男爵さん 投稿日:04/09/08 20:26
>>20
朝鮮は今は日本の領土なのですが。。。
ところで、朝鮮には孫基禎君と云ふ將來有望な少年がゐるさうですよ。
聲を掛けてみてはいかがでせう?

32 名前:クーベルタン男爵さん 投稿日:04/09/18 11:28:32
>>31
竹取物語でもあるまひし、人類が月に逝くなどあるものか。
其れより、歐州の戰爭が世界大戰とも云へる様相を呈して來たことで、
1916年に豫定してゐた伯林オリムピツク大會の開催が危ういさうだよ。
金栗にはストツクホルム大會の雪辱を果たして欲しかつたのだが。

33 名前:弐拾六 投稿日:04/09/18 13:11:22
>‎>参拾弐殿
人が月へ往くのと、我が帝都でオリムピツクが開催されるのは、
どちらが先でせうか。

34 名前:クーベルタン男爵さん 投稿日:04/09/20 18:15:16
>>33
あるひは月に行く方が先となるやも知れませぬ。
近ごろ獨逸で發明されたと云ふロケツトは、將來は月への到達も考へてゐるさうです。

それに對して、オリムピツクで日本がメダルを取るのさへ夢物語の現状では、
帝都での開催などあらう筈も無いではありませぬか。
日本が金メダルを1つでも取る時代が來れば別ですが、まず考へられませぬ。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−



URLを書いて下さいです
読みたくても読めませぬ

とりあえずレス1の日付からキーを推測するに
2004/09/01 00:11:00〜2004/09/01 00:11:59の間に立てられたものと思われるので
キーは1093965060〜1093965119のどれかなのかなと。
60回ググるのも悲しいので該当過去ログ倉庫を推定すると
名無し名からオリンピック板であり
日時からhttp://sports7.2ch.net/olympic/kako/o1093/のどれかではなかろうかと。

で、この中には当キーの範囲のスレッドがなさそう。
残念ながらここまでかな

695 :名無しさん@停滞中 ★:08/05/21 18:48:54 ID:???
http://2c.ath.cx/memo.htm

追随させて頂きましたです

というか
追随させて頂いた途端にIPが変わったのですか。

http://124.87.104.56/

696 :名無しさん@停滞中 ★:08/05/21 19:15:05 ID:???
ところでnikaさんの所が繋がらないとの事でしたが
繋がったので良かったです

そういえばデスクトップ2chさんの所も長い事ダウンしてたですが
復活なさいましたし
makimo.toさんのスレタイ検索が復活した時は狂喜乱舞したっけだなーと

DinoSwiftさんも落ち着いたら再稼働して下さるでしょうし
前途洋々です
未来は明るい
ビバ21世紀


それと
dumper.jpさんの所も
いつか再開なさる事をいつまでも待ってる
googleページランクやはてなブックマークを追加されたり
レスアンカーポップアップやID抽出もつけられた矢先に閲覧出来なくなった感じなので。
例えば下記スレとか

コーラを自分で作りたい - 2ちゃんねるみらー
http://web.archive.org/web/20070107152447/2ch.dumper.jp/0000103506/

697 :名無しさん@停滞中 ★:08/05/21 19:24:13 ID:???
ところで見ておられる方で余裕がある方に見て頂きたいのですが

(1)ルクダルさんの所と
(2)2chdat.netさんの所と
(3)dumper.jpさんの所の

webarchiveに残っているURLを集めてみたのですが
URLはそれぞれ下記

(1) http://mirror.sarashi.com/webarchive/ruku.txt
(2) http://mirror.sarashi.com/webarchive/2chpop.txt
(3) http://mirror.sarashi.com/webarchive/dumper.txt

このうち
(1)(2)はURLに元スレッドの9or10桁のキーがあるので元スレの類推が可能なのですが
(3)のdumper.jpさんのミラーではそれが全くわからないです。
>>696のwebarchiveだと開いて「最新」の箇所に
http://web.archive.org/web/20070107152447/http://food6.2ch.net/test/read.cgi/juice/1041091682/
とあるのでやっと判るという程度で。
元スレとの突き合わせをしないとどうにもならない。

1000スレッドくらいあるみたいなんですが
何方かやって頂けないでしょうか。

698 :名無しさん@停滞中 ★:08/05/22 19:01:53 ID:???
どうも百度掲示板が中国版2ch状態になっているみたいで。


【2ch】ネタちゃんねる m9( ゚д゚)っ 中国の掲示板の書き込みを訳したら、おまいらそっくりだった
http://2channel2.blog32.fc2.com/blog-entry-55.html
中国の大規模掲示板の書き込みを訳してみた - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/f21f241f0c7d925bd458e70f549f7993



という訳で
例えば下記スレッド等をdat化してみたりしたら面白いかも。

百度_地震?_祝日本救援?平安!都来?
http://tieba.baidu.com/f?kz=379156270

文字コードはgb2312ですがJaneNidaでは非公式にサポートしておられるそうなので
まあ無問題。

問題は、gb2312だとhtmltodat.phpでは認識してくれなさそうな事で。
ちょっと心気を澄ます余裕が無いのでひとまずメモ



CJCODE v1.00
http://bjkoro.net/download/cjcode/
多言語CGIダウンロード
http://bjkoro.net/download/index.php?mode=open&cate=4&no=34
中国語の文字コード
http://ash.jp/code/code_zh.htm


ところで上のcjcode.plなんですが
以前DLして色々試してみたらどうも繁体字変換出来なくてかなりてこずったです。
で、コードを追っていったら
単に作者さん 変数名を間違っておられるだけみたい。

× bgi5 → ○ big5

とか変えてみたら動いたです
サポート掲示板を見ても全然その事が書いてなかったので不思議に思ったっけでした
って記憶を頼りに書いてるので此方が間違っているかもですが。

699 :名無しさん@停滞中 ★:08/05/23 18:46:36 ID:???
とりあえずhtmlの村下孝蔵を把握せねば話にならぬ

百度_凉宮春日《分裂》??地点求助??
http://tieba.baidu.com/f?kz=190540976
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
<table width="72%" border="0" bgcolor="#FFFFFF">
<tr>
<td height="17" align="center" width="3%" class="gray">1</td>
<td class="p14" align=left >
<a name="1774431698"></a>

<font color=#0000cc>《分裂》??地点求助?? </font>

</td></tr>
<tr><td></td>
<td align=left width="97%" >
<table class="wr" border="0" cellspacing="0" cellpadding="0"><tr><td class="gray14">

<cc>?...
<br>不??来自何方,只要是?找不到?《分裂》的地点就?迎在此求助。
<br>不??来自何方,只要是知道能?到《分裂》的地点就?迎在此回答。</cc>

</td></tr></table>
</td></tr>
<tr><td height="17"></td><td class="p14"></td></tr>
<tr><td height="17"></td>
<td align=left >作者: <a href="http://passport.baidu.com/?detail&aid=6&default_tab=1&un
=%9B%F6%8Cm%A5%CF%A5%EB%A5%D2%A4%CE%9B%E6" target=_blank> 涼宮ハルヒの涙</
a> <a href="http://hi.baidu.com/suzumiya%5Ftear" target="_blank"><img src="http
://img.baidu.com/passport/space_open.gif" border="0" align="absmiddle"></a>&nbsp;



<font class="gray12"> 2007-4-13 14:04 </font> 
<a href="#sub" class=t onclick="ResetReplyTitle('1','《分裂》??地点求助?? ');">回?此?言</a>  


</td></tr>

<tr><td></td><td><hr align=left width="87%" size=1 >
</td>
</tr></table><a name="#2"></a>
<table width="72%" border="0" bgcolor="#FFFFFF">
<tr>
<td height="17" align="center" width="3%" class="gray">2</td>
<td class="p14" align=left >
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


一レス一レステーブルタグで閉じてるみたい。


ところで、簡体フォントは??になるので
同じ文章を0chUTF8化の板に貼ろうとしたら「NGワードが含まれてます」と出たですが
キャップ付きでもNGワードが含まれていたら投稿出来ないのかな。

700 :名無しさん@停滞中 ★:08/05/23 18:59:25 ID:???
メモ

PHP: html_entity_decode - Manual
http://php.benscom.com/manual/ja/function.html-entity-decode.php
「環境」の検索結果 - 猫(=・ω・=)顔 1.0β
http://d.hatena.ne.jp/nyagao/searchdiary?word=%B4%C4%B6%AD


ところで

Twitterたのしーよ@むたぐち の てづくりぶろぐ
http://winscript.jp/blog/diary.asp?id=5

を拝見したのでtwitterなるものを始めてみたのですが
適当にFollowして頂いても頂かなくても。

http://twitter.com/mirrorhenkan/



で、>>698の件をお聞き(というか独り言)してみたら
nishioさんからpythonでのやり方を教えて頂いたのでとても感激したです
・・・凄い人だな。

http://twitter.com/nishio/

701 :名無しさん@停滞中 ★:08/05/24 20:32:09 ID:???
なかなか難しいものだ

encode, decodeのおさらい - ヒトヲノロワバ アナフタツ ニッキ
http://d.hatena.ne.jp/shrkw/20071129/1196353733
Python で日本語を扱う基本をまとめてみるメモ(その2) - 猫(=・ω・=)顔 1.0β
http://d.hatena.ne.jp/nyagao/20070808/1186581885
日/中/韓のためのPython
http://cjkpython.berlios.de/index-ja.html

702 :名無しさん@停滞中 ★:08/05/24 20:43:23 ID:???
>>699のdat化用正規表現をやろうと思ったんだけど
なにこの怒濤のようなテーブルタグ・・・

こんがらがり過ぎて手もつけられないです
誰か助けてー

703 :名無しさん@停滞中 ★:08/05/25 11:56:12 ID:???
業務連絡
隠し板になるかどうかわかんないけど
こんな板が出来たようで

VIP避難所
http://yutori.2ch.net/news4vip/




■ VIP避難所できました。
http://yutori.2ch.net/test/read.cgi/news4vip/1211443449/

で調べてみてみたら
みみずんさんの所は既にクロールされておられるようで
さすがだ
2ch-i.netも対応されておられるです
すごい
ゴージャス


それはそうと
板名も同じだしサーバも以前のyutoriを使っているとなると
どうすればいいのかな・・・

704 :名無しさん@停滞中 ★:08/05/25 12:09:14 ID:???
いちおうJaneで隠し板フォルダに板追加出来たですが
通常のyutoriサーバのnews4vip板の過去スレをサルベージする時には
これどうなるんでしょうか


あとp2todatとかも大変になっちゃうのかなとか

外部コマンド Part5
http://jane.s28.xrea.com/test/read.cgi/bbs/1180559017/515
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
515 名前:Jane使いの名無しさん[sage] 投稿日:2007/09/21(金) 20:31:22 ID:yiiQv+xZ0
>>513
それでした
というかこちらが板名でしか調べてなかったので

http://ex14.vip2ch.com/news4vipニュー速VIP避難所
http://wwwww.2ch.net/news4vipニュー速VIP
これらを同じモノとして認識していたのが原因でした

とりあえず面倒なので暫定処理だけ
http://members.jcom.home.ne.jp/nemu-i-yo/p2todat.zip
これでVIPもちゃんとした場所に保存されます
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−


ただ現状のp2todatって
レガシーOSだと何か追加インストールしなければならないみたいなので
自分は使えないんですが。

705 :昼休み@名無しさん@停滞中 ★:08/05/28 12:44:45 ID:???
やりかけメモ

http://modoki.mine.nu/log/read.php/gline/1165245437/

正規表現
m#<dl><dt><a.+?>([0-9]+)</a>: 名前:(?:<a href="mailto:(.+?)">)?<b>(.+?)</b></a> \[.*?\] 投稿日:(.+?)<dd>(.+?)<br><br></dl>#mik

前処理
s#(ID:)<a href="read.php/.+?>(.+?)</a> (?:\(\d+\))?(<dd.*?>)#$1$2<dd>#igk



ちょっと集中出来ないのでやりかけメモ
デバッグは余裕が出来た時に


それにしても、onmouseoverが消してないもんで
htmltodatのプレビュー部分にマウスを動かすとエラーダイアログが頻繁に出るんですが
何とかなりませんかね?

706 :名無しさん@停滞中 ★:08/05/29 21:17:53 ID:???
http://society6.2ch.net/test/read.cgi/gline/1165245437/592

ちょっと面倒だったのでずっとやってなかったですが
html化されたURLでの入力変換にもいちおう対応させたつもり

あと「その18a」を追加
そこ知らなかったです

707 :名無しさん@停滞中 ★:08/05/31 12:18:39 ID:???
メモ
もどきもどき(http://modoki.mine.nu/)のdat化について

URL例
http://modoki.mine.nu/log/read.php/gline/1165245437/1-9999

正規表現
m#<dl><dt><a.+?>([0-9]+)</a>: 名前:.*?(?:<a href="mailto:(.+?)">)?<b>(.+?)</b>.+? \[.*?\] 投稿日:(.+?)<dd>(.+?)<br><br></dl>#mik

前処理
s#<a href="read.php/.+?>(.+?)</a>(?: \(\d+\))?#$1#igk
s#(ID:)( BE:\d+.+?\(\d+\))(.+?)(<dd>)#$1$3$2$4#igk
s#<a target.+?>-キャッシュ-</a>##igk
s#<a target.+?>(.+?)</a>#$1#igk
s#<i>.+?\n##igk
s#</i></dd>###igk
s#<dd class.+?>##igk
s#<img.+?>##ig

708 :名無しさん@停滞中 ★:08/06/01 10:56:24 ID:???
上の前処理中で

s#</i></dd>###igk



s#</i></dd>##igk

の間違いでした。
大勢に影響ありそうな気がしますがとりあえず変換出来てるのかな。

まあ「変換出来ないぞこら」という反応はあっても
うまく変換出来た場合は無反応な場合が多いかなと
勿論「変換出来ましたかっこいい素敵キャー!」みたいな反応があってもいいけど



あと思ったのは
<a href 〜>hoge</a>の形式のタグはhtmltodat側で削除してくれますが
<a target 〜>hoge</a>のほうは自分でやらないといけないみたいですね。
これが可能なら上の前処理も2行減らせるんですが。

709 :名無しさん@停滞中 ★:08/06/01 11:02:52 ID:???
DinoSwiftさん復活おめでとうございますありがとうございます
あまり無理なさらずに


ところで最近
http://www.nicovideo.jp/watch/sm2242781
を見たんですが
もしかしてサイトのタイトルは
リリィ・シュシュの「Glide」の一節から取っておられるのかなとか

710 : ◆/vmukiyuzw :08/06/01 21:00:08 ID:N7t4xUrt
>>708
> s#</i></dd>###igk
変換できるかどうか以前に「セパレータの数がマッチしてません」エラーになるかと思ったのですが
特にエラーにはならないし処理も正常に行われるようですね。
ここはbregexp.dllに丸投げの処理なんで、アルゴリズムを推測するしかないのですが
sコマンドで3つめの#(セパレータ)を見つけた時点でセパレータ終了とみなし
以降はオプションとして解析してるんじゃないですかね。
で「#」なんてオプションは存在しないので無視されてるという状況ではないかと。

> <a href 〜>hoge</a>の形式のタグはhtmltodat側で削除してくれますが
> <a target 〜>hoge</a>のほうは自分でやらないといけないみたいですね。
単純に<a 〜> は全部削除するようにしちゃえばいいのかなあ・・・
今<a href 〜>しか削除してないのは単にそれ以外のものを見かけたことがない
だけの理由なんで。

711 :名無しさん@停滞中 ★:08/06/02 19:43:56 ID:???
>>710
> 変換できるかどうか以前に「セパレータの数がマッチしてません」エラーになるかと思ったのですが

自分もそう思ってたので「おっ」と思ったです


> 単純に<a 〜> は全部削除するようにしちゃえばいいのかなあ・・・
> 今<a href 〜>しか削除してないのは単にそれ以外のものを見かけたことがない
> だけの理由なんで。

>>497でも出していますが
最近のsnapshot(てかrep2)のhtmlでは
<a target〜>形式のもの混じりになってるみたいです。
対処して頂ければ嬉しいです。

まあこの場合は今のままでも前処理で対処出来るのですが
現状では対処できない
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/498-499
を思い出して頂けると小躍りしますです。
MegaBBSや苺BBS等のdat化の際にも使えますので。

・・・自分に出来ない事を要望するのは後ろめたいもんです。

712 :名無しさん@停滞中 ★:08/06/03 07:29:48 ID:???
メモ

PHPでutf-8へのURLエンコードをする方法について WikipediaやGoogleで使われているURLエンコードはutf-8のようです $keyword ="緑茶"; と変数に入っているとします。 これ.. - 人力検索はてな
http://q.hatena.ne.jp/1196772104
PHP基礎:文字のエンコードを変更する|webnote
http://a-cot.jp/webnote/2007/05/php_2.html
phpのmb_convert_encodingでutf-8からgb2312に変換したいと考えています。 utf-8で書かれたページのフォームから入力し、gb2312で書かれたページに文字を表示したいのです.. - 人力検索はてな
http://q.hatena.ne.jp/1172565776
大猩猩的後花園:PHP中GB2312轉UTF-8的三種方法 - livedoor Blog(ブログ)
http://blog.livedoor.jp/chrisliu/archives/50799724.html

猿頁
http://salv.miscnotes.com/

やっつけ
http://dexi.sytes.net/log/
百度_日本文化?_日本的2CH相当于中国的什??
http://tieba.baidu.com/f?kz=385040063

713 :名無しさん@停滞中 ★:08/06/03 19:19:40 ID:???
さて
>>699のhtmlをdat化する正規表現を考えたんですが
前処理がうまく合致しないです

元html
http://tieba.baidu.com/f?kz=190540976
のままだと文字化けが激しいので
とりあえずShift_Jisで保存し直してアップ

http://mirror.sarashi.com/htmltodat/190540976.html

htmltodatで呼び出したら
3行目からbodyタグ直前の404行目あたりまで削除して
下記を実行


正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik

変換結果式
$4<>$3<>$5<>$2<>


これでいちおうdat化出来るです

714 :名無しさん@停滞中 ★:08/06/03 19:29:14 ID:???
正規表現は&nbspが変換表示されてしまっとるです

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mik

↑これなんですが
最初「〜&nbsp;〜」とやったらレス3がマッチしなくて
「〜&nbsp〜」とコロン「;」を消したらマッチしたです
何でだろう
不思議だ





問題は前処理ですが

s#\n(?:<meta|<link|</?style|div|a|\.|</?script).+?\n#\n#ig
s#\n\..+?\n#\n#ig
s#\n .+?\n#\n#ig
s#\n +formname.+?\n#\n#ig
w C:\My Documents\テスト.html

これだけやってC:\My Documentsに生成された「テスト.html」を開いてみても
3行目から404行目までのガラガラが全然消えてない。
いったいどこが悪いのだろう
何でだろう
不思議だ

715 :名無しさん@停滞中 ★:08/06/03 20:15:10 ID:???
念のため書いておくと
これ文字化けは承知の上でやっており
正規表現その他が何とか確定したら
htmltodat.phpでdat化させてJaneNidaで読み込んでみようかなと。

スレッド一覧からsubject.txtを生成するスクリプトも何とかなりそうですが
その生成したsubject.txtを該当フォルダに放り込む為には
板一覧で外部コマンドが実行出来るようになれば良いのですが
残念ながらkoreawatcher ◆Nida.eneRAさんのほうでは実装予定は無いそうで。

http://pc11.2ch.net/test/read.cgi/software/1201790889/254



そういえばtatsuさんのdat2html最新版をDLさせて頂いたのですが
内部処理をUTF-8にされたみたいで。
Delphiでは難しいのかな

http://pc11.2ch.net/test/read.cgi/win/1202424797/840

716 : ◆/vmukiyuzw :08/06/04 19:04:14 ID:mjeajOrF
>>714
例えば

s#\n\..+?\n#\n#ig

ですが、

.p14{font-size:14px;}
.gray{color:#0033cc;}


のような繰り返しを削除したいのだと思いますが、意図に反して
1行目は削除できるけど2行目はできないと思います。
2つめの\nにマッチした時点で正規表現の検索のポインタは次の文字へと
進んでしまうので、2行目にマッチさせようとしてせっかく変換した\nは
読み飛ばされてしまうのです。

これに対処するには「先読み」の機能(?=文字列)を使うといいと思います。
マッチはするけどポインタは進めない、ような感じで処理されます。

s#\n\..+?(?=\n)##ig

だと意図した結果が得られると思います。

# 実をいうと先読み機能はオリジナルのbregexp.dllでは
# サポートされてないのではないかと思っていたのです。ドキュメントにも書いてませんし。
# でもやってみたらたまたまできちゃった、てな次第です

717 :名無しさん@停滞中 ★:08/06/04 22:29:15 ID:???
>>716

おお!
すっげー!
変換できたです!
ありがとうございます!

先読み使えるのですか。
先読み記号で指定した部分はマッチするだけで置換する際に削除も何ももされないんですか(って自分で書いてても意味不明ですが)
しかし正規表現は奥が深いです
ミノフスキー粒子が濃すぎて先が見えません





中国繋がりでいうと
今日は天安門事件19周年だそうですが
何かニュースで触れられてるのかな。

てか19年前なのか…

718 :名無しさん@停滞中 ★:08/06/05 08:20:06 ID:???
PHPリファレンス−PHP基本構文 > 基本その他 > $_SERVER["QUERY_STRING"]
http://www.yaskey.cside.tv/php/referdb/index.php?mode=detail&KEY=95
$_SERVER["QUERY_STRING"]の仕様について - 教えて!goo
http://oshiete1.goo.ne.jp/qa1060139.html

719 :名無しさん@停滞中 ★:08/06/05 12:09:54 ID:???
http://com-nika.osask.jp/test/read.cgi/bbs/1166882974/194
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
[194] nika@管理人★◆nika/si95E : 2008/06/04(水) 19:33:57 ID:TJP3rFKX0
重要なお知らせ

現在このサイトは自宅サーバーで運営されていますが、
今後も継続的に自宅サーバーで運営することが困難になるため、
外部掲示板の保管機能は2008年6月中に終了することになりました。

継続的に利用されている方には申し訳ありませんが、
終了後には基本的にdat落ちしたスレッドは見られなくなりますので
ご了承頂けますよう、お願いいたします。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−



お疲れ様でした。

720 :名無しさん@停滞中 ★:08/06/05 19:51:21 ID:???
まあ色々ありますが
そうそう落ち込んでいる余裕もなく

万が一
http://tmp6.2ch.net/test/read.cgi/download/1164164363/269
のように「お前のせいだ」とか言う人が居ても
ただただ困惑するのみで

721 :名無しさん@停滞中 ★:08/06/05 20:05:58 ID:???
という事で
ガラガラを取り除いたhtmlを出力出来たかなと

元URL
http://tieba.baidu.com/f?kz=386794671

ガラガラ除去(ソースを御覧あれ)
http://mirror.s206.xrea.com/x/cn/string.php?http://tieba.baidu.com/f?kz=386794671


で、次の問題は
>>714の正規表現にある2バイト文字で。

具体的に書くと

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mik

上の「作者:」という箇所で詰まっているみたい。
文字コードgb2312なのでShift_Jisでの「作者:」とは全く違うのでそりゃマッチしないでしょうねと。

簡体字コード一覧表
http://ash.jp/code/cn/gb2312tbl.htm
を見て照合してみると

作 D7F0
者 D5D0
: A3B0

みたいなので
htmltodat.php中の正規表現中の「作者:」部分を

〜\xD7\xF0\xD5\xD0\xA3\xB0〜

と変えてもマッチしない。

しょうがないので「作者:」直線のタグ「<td align=left>」を使ってhtmltodat風に書くと

m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?<td align=left >.+? (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)?&nbsp.+?<font class="gray12">(.+?)</font>#mi

としてやってみたけどマッチしない。
難しいものだ




ちなみにこのスレッドですが
下のエントリーを見て興味が湧いたという訳で。

中国のヲタたちの囁き〜声優編〜 - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/cd06d43c4755f8a377cbf98a39a1721d

722 :名無しさん@停滞中 ★:08/06/05 21:41:51 ID:???
やりかけ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671

22レスあるスレッドなのに20行しかないのは何故なのだ

$1の連続関係を調べるとレス20と21が抜けてるみたいなのだが
今日はここまで
私の頭脳CPUの限界を越えてるようです



ソースを出しときますので
識者の方 見ておられたら原因を究明して頂きたく。
スクリプトの文字コードがShift_Jisだったりコメントを変えてなかったりと
突っ込みどころ満載ですが。

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.phps

723 :名無しさん@停滞中 ★:08/06/06 19:16:30 ID:???
ああ余裕ない

>>722の件ですが
今見てみたら該当レス二つ
透明あぼーんされてるだけでした
ハハハ
どうしよう
あと
レス2の画像URLも本文に入れるように
前処理考えるだなー

いちおうJaneNidaで外部板を設けて
文字コードgb2312で設定して
datを該当フォルダに放り込んで読み込んだら
文字化けせずに読めたです
ばんざーいい


それと

http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038588508/544

小躍りしてます
ありがとうございました

ああそれにしても余裕ない

724 :あぼーん:あぼーん
あぼーん

725 :あぼーん:あぼーん
あぼーん

726 :名無しさん@停滞中 ★:08/06/07 07:53:21 ID:???
おはようございます
朝からずっこけました
大いに笑かせて頂きました
今日は楽しい一日になりそうです


実際のところ自分はというと
あちこち見てるばかりであまり書き込んだりしませんなー。
というか 見てるだけで精いっぱいお腹いっぱい僕乾杯

727 :名無しさん@停滞中 ★:08/06/07 18:16:58 ID:???
>>725のほうは消さなくても良かったかも。
なんの事やらまぢわかんないとなってるかもだけど
大した事ないです

というか、JaneNidaだと
ツール→設定→書き込みで
「誤爆警告」「コテハン警告」「Beログイン警告」
のチェック欄があるのですが
他の派生Janeではどうなのでしょう。
ありそうなものですが。


ところでJaneNidaなのですが
スレッド一覧で外部コマンドを使用可能にして下さって
大いに活用させて頂いているです
すごいです

左ペインの板一覧でも外部コマンド使えるようになったら
更に選択肢が拡がるのですが。

728 :名無しさん@停滞中 ★:08/06/07 18:24:50 ID:???
ところで
nikaさんの所をwebarchiveで検索してみたら
9938ページ保存されてるみたいです

Internet Archive Wayback Machine
http://web.archive.org/web/*sr_1nr_9938/http://com-nika.osask.jp/*

k1とボクシング板が多い・・

htmlばかりでなく
http://web.archive.org/web/20070322190441/com-nika.osask.jp/bbs/bbs.php?http://ex9.2ch.net/test/read.cgi/k1/1099631963/
datもあるのですか
http://web.archive.org/web/20070322133640/com-nika.osask.jp/wom/dat/1130303803.dat


このhtmlも
dat化用正規表現を考えといたほうがいいのかな

729 :名無しさん@停滞中 ★:08/06/08 19:50:54 ID:???
htmltodat.phpでも透明あぼーんを補うようなコードを追記してみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671


次は添付画像のURLを本文に含めるようにしたいなと。

具体的に書くと

http://tieba.baidu.com/f?kz=386794671

のレス2・15・17にある画像URLを本文に含めるように出来ればいちおう完成ですが
これがなかなかマッチしない。
Shift_Jis化してアップし直したものが下記で
正規表現その他は>>713-714で出来るです

http://mirror.sarashi.com/htmltodat/386794671.html

ただ本文は<cc>〜</cc>中にあるんですが画像URLはその中にはなく
直後に

<cc>〜</cc>
</td></tr></table>
</td></tr>
<tr><td height="17"></td><td class="p14">?子相??片: <br><img src=
"http://hiphotos.baidu.com/%CF%E0%C0%C7%D7%DA%BD%E9/pic/item/05592bf09cab92d07931aaa3.jpg"
border="0" onerror="checkErrorImage(this)"></td></tr>
<tr><td height="17"></td>
<td align=left >作者: 121.32.233.* 

となっておるです
これを</cc>直前にする為に
前処理で

s#(</cc>).+?(?:<img src="(.+?)".+?>)?.+?(<td align=left >)#$2<br>$1 $3#ig

とかやっても全然マッチせず。
改行コードをまたいだりしてるのとかも問題なのかな。

730 :名無しさん@停滞中 ★:08/06/09 20:15:50 ID:???
御冥福をお祈りします


関連で

百度_日本文化_秋叶原で通り魔 白昼の惨劇【組図・転載】
http://tieba.baidu.com/f?kz=403408591

をdat化して読み込みたいんですが
やはり添付画像を本文に含めるやり方がうまくいかぬ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=403408591


御冥福をお祈りします

731 :名無しさん@停滞中 ★:08/06/10 20:30:08 ID:???
メモ

「日中文化交流」と書いてオタ活動と読む:ニコニコ動画のパクリと言われる「AcFun.cn 天下漫友是一家」について - livedoor Blog(ブログ)
http://blog.livedoor.jp/kashikou/archives/51145664.html#comments
阿?海姆株式会社
http://hi.baidu.com/tentamashi
大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren
繁体字→簡体字変換
http://www.tulips.tsukuba.ac.jp/misc/export/cat/hankan/
AOL Q&A広場 中国語簡体字 ←→ 中国語繁体字 変換
http://aol.okwave.jp/qa2976707.html
漢字変換道具 [JavaScript版]
http://homepage3.nifty.com/jgrammar/ja/tools/tradkan0.htm
Wikipedia:?繁一多??校?表 - Wikipedia
http://zh.wikipedia.org/wiki/Wikipedia:%E7%AE%80%E7%B9%81%E4%B8%80%E5%A4%9A%E5%AF%B9%E5%BA%94%E6%A0%A1%E9%AA%8C%E8%A1%A8
hao123网址之家--在?繁体字??
http://www.hao123.com/haoserver/jianfanzh.htm


文字化け何とかならないものか。
0ch掲示板のUTF-8化スクリプトのほうを使えばそりゃ化けなくなるけど
専用ブラウザで文字化けする人ばかりだろうし
って 専用ブラウザでここ見てる人 どれくらい居るのかな

732 :名無しさん@停滞中 ★:08/06/10 20:57:52 ID:???
中国語と日本語の対応表 -OKWave
http://okwave.jp/qa1732315.html?ans_count_asc=20
とある研究者の余録: 繁体字変換は便利だけど
http://voyage-log.seesaa.net/article/62271244.html#more
Chinese Core Simplified Chars
http://xahlee.org/lojban/simplified_chars.html
インクジェットプリンターのKGK紀州技研工業|豆知識_文字コードの話/簡体字の世界
http://www.kishugiken.co.jp/cn/code10.html
インクジェットプリンターのKGK紀州技研工業|豆知識_文字コードの話/簡体字対照リスト(あいうえお順)
http://www.kishugiken.co.jp/cn/code10c.html
中文−広東語対応表(基本編) - Thank you for the music
http://blog.goo.ne.jp/ico3/e/23780e9b4cb8286bbf7b2a230f70e765

733 :名無しさん@停滞中 ★:08/06/11 21:35:45 ID:???
【かちゅ】2chブラウザ「Katju88」Part10【クローン】
http://pc11.2ch.net/test/read.cgi/software/1140337471/l50

170さんすげー!
しかもレス175でこんな事↓書いてるのにすげー!

> 自分はC++歴はそれなりにあるんだけど、Delphiはまったく知らないし。
> いきなり挫折・・・



有形無形問わず、実際に物を作っている人って
すごい謙虚で研究熱心で探求心豊かで
新しい時代の流れに呑み込まれず
確かな目つきと落ち着いた判断を備えていて
さもない質問にも真摯に対応される紳士なのだなーと。

さらにいろいろ書こうかなと思ったら
そうかこれこそまさしく
「実るほど頭を垂れる稲穂かな」
だなーと。
その態度見習わなきゃです

734 :名無しさん@停滞中 ★:08/06/12 21:33:56 ID:???
>>729の件
やっとマッチしたです

URL例
http://mirror.sarashi.com/htmltodat/386794671.html

正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik

前処理
s#\r##ig
s#\n##ig
s#(</cc>)</td></tr></table></td></tr><tr><td height="17"></td><td class="p14">[^<]+?<br><im
g src="(.+?)".+?></td></tr><tr><td height="17"></td>#<br><br>$2$1#ig

変換結果式
$4<>$3<>$5<>$2<>



ポイント(つか悩みどころ)は二つ。


(1) 複数行にまたがる箇所を置換する為には
  いったん改行コードを全削除する必要があるみたい


(2) 前処理の3番目は最初

  〜<td class="p14">.+?<br>〜

  としたら何故か最大マッチ(?)してしまっていたので
  やむなく

 〜<td class="p14">[^<]+?<br>〜

 としたら上手くいったみたい



突っ込み所多数あるでしょうけど
これで百度掲示板の添付画像URLを本文に含められそうです

735 : ◆/vmukiyuzw :08/06/13 01:40:02 ID:u/UqlNCi
正規表現の.(ドット)は「改行を除く」一文字にマッチということらしいので
無理やりかもしれませんが(?:.|\n)とか使うと多少シンプルにできるかも・・・
試してないのでわかりませんけど。(\rもいるかも)

736 :名無しさん@停滞中 ★:08/06/13 20:37:32 ID:???
という事でやってみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671


JaneNidaの該当フォルダにこのdatを入れて読み込んでみると
画像ビューアや外部コマンド翻訳もうまくいってるみたい

http://mirror.sarashi.com/img/janebaidu.png

という事で
次は一覧のsubject.txt化ですか


>>735
> 正規表現の.(ドット)は「改行を除く」一文字にマッチということらしいので

そうだったのかー!!
ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
あったらいいなーという要望とか思ったんですがどうでしょうか。

737 : ◆/vmukiyuzw :08/06/13 21:33:02 ID:cARXftE6
>>736
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。

メニューhtmlてのが何のことを言ってるのかよくわからないですが
subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします

738 :名無しさん@停滞中 ★:08/06/14 12:44:26 ID:???
>>737
えーと、言葉が足りませんでしたが

> subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします

いちおう出来るには出来ますが
ヘッダとフッタが残ってしまい
それらを手動で消さなければならないように思うですが。
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/72
のように。


頭の体操的に無理矢理に考えてみると

ヘッダ除去
s#^(?.|\n|\r)+?(\n.+?<>)#$1#ik
フッタ除去
s#(<>(?:\r)?\n)(?:.|\n|\r)+?$#$1#igk

とかなるのかな。。
先読みの使い方ってこれでいいのかな。




具体的には

http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy

とか

http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

からsubject.txtを生成したいのですが
試行錯誤するツールがあったら嬉しいなと思ったのです

739 :名無しさん@停滞中 ★:08/06/14 13:33:49 ID:???
特殊文字は
タブ(\t)とかもあるですか。
他にもあるかな。
あと使ってないのに先読み云々とか
なに口走ってるんだろ

ところで>>716で教えて頂いた先読みですが
htmltodat正規表現の$6に該当する部分を
まるまるこれと差し替えられそうですね。
具体的に書くと、例えば

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi

これを

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(?=<dt.*?>|</dl>)#mi

とやっても良さそうです。(Bregexp.dllでは非推奨でしょうけど)



「何の意味が?」とか言われそうですけど
新たにhtmltodatのようなスクリプトを組む時にかなり楽になりそうだなと。
JavaScriptやwsh・phpでやってみた時
正規表現でマッチした$6を残す処理が少し(というか結構)面倒だったので。

740 :名無しさん@停滞中 ★:08/06/14 18:53:18 ID:???
ところで 秋葉原の件以降
やたらにxreaのサーバ負荷率が上がってるです
特に週半ば以降が顕著で。

−−−−−−−−−−−−−−−−−
20080614
▽アカウントの負荷率
  3) 313 pt - mirror.s151.xrea.com
20080613
▽アカウントの負荷率
  2) 519 pt - mirror.s151.xrea.com
20080612
▽アカウントの負荷率
  8) 154 pt - mirror.s151.xrea.com
20080611
▽アカウントの負荷率
  7) 73 pt - mirror.s151.xrea.com
20080610
▽アカウントの負荷率
  4) 329 pt - mirror.s151.xrea.com
20080609
▽アカウントの負荷率
  0 pt
20080608
▽アカウントの負荷率
  0 pt
20080607
▽アカウントの負荷率
  0 pt
20080606
▽アカウントの負荷率
  0 pt
20080605
▽アカウントの負荷率
  0 pt
20080604
▽アカウントの負荷率
  0 pt
−−−−−−−−−−−−−−−−


負荷率とかよくわかんないんですが
13・14とすごい。
14日って今日なのでもっと数字増えるかもです


調べてみるとこれが原因かな。
追記でimona.phpへのリンクがあって
そこからどわーっと来てるみたい


【秋葉原連続殺傷事件外伝】 まりえったの歌日記♪さん さきほど閉鎖:Birth of Blues
http://birthofblues.livedoor.biz/archives/50661072.html


xreaのアカウントが消されなければ自分的にはどうでもいいんですが
そうなってからでは後の祭りなので
何かやっといたほうが良いのかもしれないのかなと。

一時的にimona.phpを待避させてみますか

741 : ◆/vmukiyuzw :08/06/14 20:08:44 ID:RgmD5VXT
>>738
もちろんヘッダやフッタも前処理で取り除く前提で考えてたんですが

> http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
fatal errorを起こしてしまうので何回かに分けて地道にやるしか
なさそうですね。

しかし、このアプローチで出来ないんであれば、すでに私の力及ばずというか
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。
単なるhtmltodatのオプション追加でできるレベルとは思えないのです。
例にあげていただいた2つでも形式がまったく違いますし。

それこそ個別のスクリプト書くか、汎用的にしたいならhtmltosubみたいな
別ツール作ったほうがいいのではと思う次第です。
私はやる気が湧かないので、いっそご自分で作ってみてはいかが?

742 :名無しさん@停滞中 ★:08/06/14 21:56:07 ID:???
> >‎ http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> >‎ http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
>
> 前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
> fatal errorを起こしてしまうので何回かに分けて地道にやるしか
> なさそうですね。

うーむ


とりあえずUTF-8にしてアップしてみたです

http://mirror.sarashi.com/htmltodat/subjecttest.html

前処理で

s#\n(?:<meta|<link|</?style|div|a|\.|</?script|<input|[^<]).+?(?=\n)##ig
s#\r(?=\n)##ig
s#\n(?=\n)##ig

これでガラガラと空行がある程度省けたので
かなり見通しがよくなったかな

で、肝心のデータ部分は

<td class="d">80037</td>
<td class="d">354</td>
<td class="s"><a class=t href="/f?kz=22542052" target=_blank > 初到?京的感
受~~(ZT) </a>[<font class="red">精品</font>]&nbsp;[<font class="red">置?</fon
t>]&nbsp;</td>

なので以下略
後で考えてみますか

743 : ◆/vmukiyuzw :08/06/15 02:14:11 ID:TDdn/yNm
前処理とかはなんとかなりそうですね
あと問題になりそうなのはスレ番号をどうやって決めるか
これはスレ保存をどうやってやるかによるのでなんとも言えないです

744 :名無しさん@停滞中 ★:08/06/15 20:06:15 ID:???
疲れちゃったので一回休み

やってて思ったのですが
前処理がうまくいったかどうかwコマンドで保存して
保存したものをエディタで開いて
駄目なのでエディタを閉じて保存したファイルを消して
またやり直して保存したものをエディタで開いて確認して
・・という作業がなかなか煩雑に思えたので
wコマンドはそれとして
簡易的に下窓に前処理変換結果が出たら楽かもなーと夢想したです
おやすみなさい

745 : ◆/vmukiyuzw :08/06/15 21:12:50 ID:TDdn/yNm
>>744
まあおっしゃることはわかりますし自分でもあったらいいかなと思うことはあるのですが
簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと
そしたらそれなりに面倒な改造になる上あまり使い勝手がいいものに仕上げる自信もないので
wコマンドで逃げてるってのが正直なところで。

ところで

> 保存したものをエディタで開いて
> 駄目なのでエディタを閉じて保存したファイルを消して

自分が主に使ってるエディタは秀丸ですがこんな手間はかからないです。
ファイルを開いた状態でも他から上書きは可能ですし、「再読み込み」という機能を使うと
最新の状態で読み直してくれるのでワンアクションで済みさほど煩雑には感じないのです。
エディタにもいろいろあるしどれをお使いかわからないですけどそれほど特殊な機能とも思えないので
可能かどうか調べてみては。

746 : ◆/vmukiyuzw :08/06/15 23:40:11 ID:TDdn/yNm
補足ですが

> ファイルを開いた状態でも他から上書きは可能ですし、
これは排他制御関連の設定で、大抵のエディタにはついてるのではと思います。

> 「再読み込み」という機能を使うと
これはアンドゥ系の機能で、名前は違えどやはり実装されてるものが多いと思います。
ちなみにxyzzyでは「最初からやり直し」という機能名でありました。

# おっともうすぐ500KBですね。余計な書き込みはこれまでにて

747 :名無しさん@停滞中 ★:08/06/17 20:03:20 ID:???
リアルよりバーチャルが大事、と思いたい
戦わなくちゃ非現実と
二次元こそリアルワールドという友人がうらやましい
でも余裕が無い


>>745-746

> 簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと

いやーそんなに考えなくてもいいような。
改行マークとかなくても意味あると思うです

エディタですが、TeraPadを主に使ってるですが
「TeraPad 排他制御」で検索して

TeraPad_help
http://web.archive.org/web/20070807212724/http://www.harpy.org/delfy/tpadhelp/tips51.html

読んでみて設定を色々試してみて
何とか反映する事が出来たです
すごいです

ただ、このTeraPadってUTF-8対応されてますが
簡体字・繁体字・ハングル等が文字化けするのが何だかななのですが
秀丸ではそれらも問題ないのでしょうか。
あと色々な文字コードのファイルを読み書き保存出来るのかな
シェアウェアみたいなので怖くて(?)試せないです
xyzzyにまたチャレンジしてみますか


それとやっていて思ったのですが
前処理でwコマンド込みの式を入れて
「dat変換をしない」にチェックして変換ボタンを押すと
データを呼び出したりコピペしたりしていなくても
サイズ0のファイルが生成されるみたい。
まあ大した事ではないです


ところで下のエントリーを読んで

内モンゴルと草原の誘い【前篇】 - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/645fe944a3e53c92e97f337e46d33c94

紹介されてる元スレッドの画像がいたく美しく
dat化して読んでみたく思ったです
外部コマンドで文章翻訳とか出来るので。

百度_呼????_原?-美?的呼???
http://tieba.baidu.com/f?kz=312028377

で、これ現在173レスあるみたいなんですが
50区切りで表示されているもんでどうしようか。。
全部表示するやり方とかあるのかな


えーと
ここって500KBだったか512KBだったか。
どちらにしてもまた1000まで到達出来ないのか

500KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail(省略可)

0ch BBS 2006-02-27