Gポイントポイ活 Amazon Yahoo 楽天

無料ホームページ 楽天モバイル[UNLIMITが今なら1円] 海外格安航空券 海外旅行保険が無料!

告知欄です


■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50
メモ3

1 :名無しさん@勉強中 ★:07/08/04 06:09:43 ID:???
またまた思いついた事など

730 :名無しさん@停滞中 ★:08/06/09 20:15:50 ID:???
御冥福をお祈りします


関連で

百度_日本文化_秋叶原で通り魔 白昼の惨劇【組図・転載】
http://tieba.baidu.com/f?kz=403408591

をdat化して読み込みたいんですが
やはり添付画像を本文に含めるやり方がうまくいかぬ

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=403408591


御冥福をお祈りします

731 :名無しさん@停滞中 ★:08/06/10 20:30:08 ID:???
メモ

「日中文化交流」と書いてオタ活動と読む:ニコニコ動画のパクリと言われる「AcFun.cn 天下漫友是一家」について - livedoor Blog(ブログ)
http://blog.livedoor.jp/kashikou/archives/51145664.html#comments
阿?海姆株式会社
http://hi.baidu.com/tentamashi
大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren
繁体字→簡体字変換
http://www.tulips.tsukuba.ac.jp/misc/export/cat/hankan/
AOL Q&A広場 中国語簡体字 ←→ 中国語繁体字 変換
http://aol.okwave.jp/qa2976707.html
漢字変換道具 [JavaScript版]
http://homepage3.nifty.com/jgrammar/ja/tools/tradkan0.htm
Wikipedia:?繁一多??校?表 - Wikipedia
http://zh.wikipedia.org/wiki/Wikipedia:%E7%AE%80%E7%B9%81%E4%B8%80%E5%A4%9A%E5%AF%B9%E5%BA%94%E6%A0%A1%E9%AA%8C%E8%A1%A8
hao123网址之家--在?繁体字??
http://www.hao123.com/haoserver/jianfanzh.htm


文字化け何とかならないものか。
0ch掲示板のUTF-8化スクリプトのほうを使えばそりゃ化けなくなるけど
専用ブラウザで文字化けする人ばかりだろうし
って 専用ブラウザでここ見てる人 どれくらい居るのかな

732 :名無しさん@停滞中 ★:08/06/10 20:57:52 ID:???
中国語と日本語の対応表 -OKWave
http://okwave.jp/qa1732315.html?ans_count_asc=20
とある研究者の余録: 繁体字変換は便利だけど
http://voyage-log.seesaa.net/article/62271244.html#more
Chinese Core Simplified Chars
http://xahlee.org/lojban/simplified_chars.html
インクジェットプリンターのKGK紀州技研工業|豆知識_文字コードの話/簡体字の世界
http://www.kishugiken.co.jp/cn/code10.html
インクジェットプリンターのKGK紀州技研工業|豆知識_文字コードの話/簡体字対照リスト(あいうえお順)
http://www.kishugiken.co.jp/cn/code10c.html
中文−広東語対応表(基本編) - Thank you for the music
http://blog.goo.ne.jp/ico3/e/23780e9b4cb8286bbf7b2a230f70e765

733 :名無しさん@停滞中 ★:08/06/11 21:35:45 ID:???
【かちゅ】2chブラウザ「Katju88」Part10【クローン】
http://pc11.2ch.net/test/read.cgi/software/1140337471/l50

170さんすげー!
しかもレス175でこんな事↓書いてるのにすげー!

> 自分はC++歴はそれなりにあるんだけど、Delphiはまったく知らないし。
> いきなり挫折・・・



有形無形問わず、実際に物を作っている人って
すごい謙虚で研究熱心で探求心豊かで
新しい時代の流れに呑み込まれず
確かな目つきと落ち着いた判断を備えていて
さもない質問にも真摯に対応される紳士なのだなーと。

さらにいろいろ書こうかなと思ったら
そうかこれこそまさしく
「実るほど頭を垂れる稲穂かな」
だなーと。
その態度見習わなきゃです

734 :名無しさん@停滞中 ★:08/06/12 21:33:56 ID:???
>>729の件
やっとマッチしたです

URL例
http://mirror.sarashi.com/htmltodat/386794671.html

正規表現
m#<td.+?>([0-9]+)</td>.+?<cc>(.+?)</cc>.+?作者: (?:<a href="(.+?)".+?>)? ?(.+?)(?:</a>)? .+?<font class="gray12">(.+?)</font>#mik

前処理
s#\r##ig
s#\n##ig
s#(</cc>)</td></tr></table></td></tr><tr><td height="17"></td><td class="p14">[^<]+?<br><im
g src="(.+?)".+?></td></tr><tr><td height="17"></td>#<br><br>$2$1#ig

変換結果式
$4<>$3<>$5<>$2<>



ポイント(つか悩みどころ)は二つ。


(1) 複数行にまたがる箇所を置換する為には
  いったん改行コードを全削除する必要があるみたい


(2) 前処理の3番目は最初

  〜<td class="p14">.+?<br>〜

  としたら何故か最大マッチ(?)してしまっていたので
  やむなく

 〜<td class="p14">[^<]+?<br>〜

 としたら上手くいったみたい



突っ込み所多数あるでしょうけど
これで百度掲示板の添付画像URLを本文に含められそうです

735 : ◆/vmukiyuzw :08/06/13 01:40:02 ID:u/UqlNCi
正規表現の.(ドット)は「改行を除く」一文字にマッチということらしいので
無理やりかもしれませんが(?:.|\n)とか使うと多少シンプルにできるかも・・・
試してないのでわかりませんけど。(\rもいるかも)

736 :名無しさん@停滞中 ★:08/06/13 20:37:32 ID:???
という事でやってみたです

http://mirror.s206.xrea.com/x/cn/htmltodatbaidu.php?http://tieba.baidu.com/f?kz=386794671


JaneNidaの該当フォルダにこのdatを入れて読み込んでみると
画像ビューアや外部コマンド翻訳もうまくいってるみたい

http://mirror.sarashi.com/img/janebaidu.png

という事で
次は一覧のsubject.txt化ですか


>>735
> 正規表現の.(ドット)は「改行を除く」一文字にマッチということらしいので

そうだったのかー!!
ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
あったらいいなーという要望とか思ったんですがどうでしょうか。

737 : ◆/vmukiyuzw :08/06/13 21:33:02 ID:cARXftE6
>>736
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。

メニューhtmlてのが何のことを言ってるのかよくわからないですが
subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします

738 :名無しさん@停滞中 ★:08/06/14 12:44:26 ID:???
>>737
えーと、言葉が足りませんでしたが

> subback.htmlからsubject.txtを作るのは前処理で容易にできる気がします

いちおう出来るには出来ますが
ヘッダとフッタが残ってしまい
それらを手動で消さなければならないように思うですが。
http://jbbs.livedoor.jp/bbs/read.cgi/computer/1929/1038409548/72
のように。


頭の体操的に無理矢理に考えてみると

ヘッダ除去
s#^(?.|\n|\r)+?(\n.+?<>)#$1#ik
フッタ除去
s#(<>(?:\r)?\n)(?:.|\n|\r)+?$#$1#igk

とかなるのかな。。
先読みの使い方ってこれでいいのかな。




具体的には

http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy

とか

http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

からsubject.txtを生成したいのですが
試行錯誤するツールがあったら嬉しいなと思ったのです

739 :名無しさん@停滞中 ★:08/06/14 13:33:49 ID:???
特殊文字は
タブ(\t)とかもあるですか。
他にもあるかな。
あと使ってないのに先読み云々とか
なに口走ってるんだろ

ところで>>716で教えて頂いた先読みですが
htmltodat正規表現の$6に該当する部分を
まるまるこれと差し替えられそうですね。
具体的に書くと、例えば

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(<dt.*?>|</dl>)#mi

これを

m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd> ?(.*?)<br><br>(?=<dt.*?>|</dl>)#mi

とやっても良さそうです。(Bregexp.dllでは非推奨でしょうけど)



「何の意味が?」とか言われそうですけど
新たにhtmltodatのようなスクリプトを組む時にかなり楽になりそうだなと。
JavaScriptやwsh・phpでやってみた時
正規表現でマッチした$6を残す処理が少し(というか結構)面倒だったので。

740 :名無しさん@停滞中 ★:08/06/14 18:53:18 ID:???
ところで 秋葉原の件以降
やたらにxreaのサーバ負荷率が上がってるです
特に週半ば以降が顕著で。

−−−−−−−−−−−−−−−−−
20080614
▽アカウントの負荷率
  3) 313 pt - mirror.s151.xrea.com
20080613
▽アカウントの負荷率
  2) 519 pt - mirror.s151.xrea.com
20080612
▽アカウントの負荷率
  8) 154 pt - mirror.s151.xrea.com
20080611
▽アカウントの負荷率
  7) 73 pt - mirror.s151.xrea.com
20080610
▽アカウントの負荷率
  4) 329 pt - mirror.s151.xrea.com
20080609
▽アカウントの負荷率
  0 pt
20080608
▽アカウントの負荷率
  0 pt
20080607
▽アカウントの負荷率
  0 pt
20080606
▽アカウントの負荷率
  0 pt
20080605
▽アカウントの負荷率
  0 pt
20080604
▽アカウントの負荷率
  0 pt
−−−−−−−−−−−−−−−−


負荷率とかよくわかんないんですが
13・14とすごい。
14日って今日なのでもっと数字増えるかもです


調べてみるとこれが原因かな。
追記でimona.phpへのリンクがあって
そこからどわーっと来てるみたい


【秋葉原連続殺傷事件外伝】 まりえったの歌日記♪さん さきほど閉鎖:Birth of Blues
http://birthofblues.livedoor.biz/archives/50661072.html


xreaのアカウントが消されなければ自分的にはどうでもいいんですが
そうなってからでは後の祭りなので
何かやっといたほうが良いのかもしれないのかなと。

一時的にimona.phpを待避させてみますか

741 : ◆/vmukiyuzw :08/06/14 20:08:44 ID:RgmD5VXT
>>738
もちろんヘッダやフッタも前処理で取り除く前提で考えてたんですが

> http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF

前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
fatal errorを起こしてしまうので何回かに分けて地道にやるしか
なさそうですね。

しかし、このアプローチで出来ないんであれば、すでに私の力及ばずというか
> ところで、htmltodatでメニューhtmlからsubject.txtを作成するオプションとか
> あったらいいなーという要望とか思ったんですがどうでしょうか。
単なるhtmltodatのオプション追加でできるレベルとは思えないのです。
例にあげていただいた2つでも形式がまったく違いますし。

それこそ個別のスクリプト書くか、汎用的にしたいならhtmltosubみたいな
別ツール作ったほうがいいのではと思う次第です。
私はやる気が湧かないので、いっそご自分で作ってみてはいかが?

742 :名無しさん@停滞中 ★:08/06/14 21:56:07 ID:???
> >‎ http://www.ichigobbs.net/cgi/aska_list.cgi?bo=economy
> >‎ http://tieba.baidu.com/f?kw=%C8%D5%B1%BE%CE%C4%BB%AF
>
> 前者はともかく後者はヘッダが長すぎて一発のsコマンドでは
> fatal errorを起こしてしまうので何回かに分けて地道にやるしか
> なさそうですね。

うーむ


とりあえずUTF-8にしてアップしてみたです

http://mirror.sarashi.com/htmltodat/subjecttest.html

前処理で

s#\n(?:<meta|<link|</?style|div|a|\.|</?script|<input|[^<]).+?(?=\n)##ig
s#\r(?=\n)##ig
s#\n(?=\n)##ig

これでガラガラと空行がある程度省けたので
かなり見通しがよくなったかな

で、肝心のデータ部分は

<td class="d">80037</td>
<td class="d">354</td>
<td class="s"><a class=t href="/f?kz=22542052" target=_blank > 初到?京的感
受~~(ZT) </a>[<font class="red">精品</font>]&nbsp;[<font class="red">置?</fon
t>]&nbsp;</td>

なので以下略
後で考えてみますか

743 : ◆/vmukiyuzw :08/06/15 02:14:11 ID:TDdn/yNm
前処理とかはなんとかなりそうですね
あと問題になりそうなのはスレ番号をどうやって決めるか
これはスレ保存をどうやってやるかによるのでなんとも言えないです

744 :名無しさん@停滞中 ★:08/06/15 20:06:15 ID:???
疲れちゃったので一回休み

やってて思ったのですが
前処理がうまくいったかどうかwコマンドで保存して
保存したものをエディタで開いて
駄目なのでエディタを閉じて保存したファイルを消して
またやり直して保存したものをエディタで開いて確認して
・・という作業がなかなか煩雑に思えたので
wコマンドはそれとして
簡易的に下窓に前処理変換結果が出たら楽かもなーと夢想したです
おやすみなさい

745 : ◆/vmukiyuzw :08/06/15 21:12:50 ID:TDdn/yNm
>>744
まあおっしゃることはわかりますし自分でもあったらいいかなと思うことはあるのですが
簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと
そしたらそれなりに面倒な改造になる上あまり使い勝手がいいものに仕上げる自信もないので
wコマンドで逃げてるってのが正直なところで。

ところで

> 保存したものをエディタで開いて
> 駄目なのでエディタを閉じて保存したファイルを消して

自分が主に使ってるエディタは秀丸ですがこんな手間はかからないです。
ファイルを開いた状態でも他から上書きは可能ですし、「再読み込み」という機能を使うと
最新の状態で読み直してくれるのでワンアクションで済みさほど煩雑には感じないのです。
エディタにもいろいろあるしどれをお使いかわからないですけどそれほど特殊な機能とも思えないので
可能かどうか調べてみては。

746 : ◆/vmukiyuzw :08/06/15 23:40:11 ID:TDdn/yNm
補足ですが

> ファイルを開いた状態でも他から上書きは可能ですし、
これは排他制御関連の設定で、大抵のエディタにはついてるのではと思います。

> 「再読み込み」という機能を使うと
これはアンドゥ系の機能で、名前は違えどやはり実装されてるものが多いと思います。
ちなみにxyzzyでは「最初からやり直し」という機能名でありました。

# おっともうすぐ500KBですね。余計な書き込みはこれまでにて

747 :名無しさん@停滞中 ★:08/06/17 20:03:20 ID:???
リアルよりバーチャルが大事、と思いたい
戦わなくちゃ非現実と
二次元こそリアルワールドという友人がうらやましい
でも余裕が無い


>>745-746

> 簡易的表示ではあまり意味をなさないというかやっぱ改行マークとかは表示したいなあと

いやーそんなに考えなくてもいいような。
改行マークとかなくても意味あると思うです

エディタですが、TeraPadを主に使ってるですが
「TeraPad 排他制御」で検索して

TeraPad_help
http://web.archive.org/web/20070807212724/http://www.harpy.org/delfy/tpadhelp/tips51.html

読んでみて設定を色々試してみて
何とか反映する事が出来たです
すごいです

ただ、このTeraPadってUTF-8対応されてますが
簡体字・繁体字・ハングル等が文字化けするのが何だかななのですが
秀丸ではそれらも問題ないのでしょうか。
あと色々な文字コードのファイルを読み書き保存出来るのかな
シェアウェアみたいなので怖くて(?)試せないです
xyzzyにまたチャレンジしてみますか


それとやっていて思ったのですが
前処理でwコマンド込みの式を入れて
「dat変換をしない」にチェックして変換ボタンを押すと
データを呼び出したりコピペしたりしていなくても
サイズ0のファイルが生成されるみたい。
まあ大した事ではないです


ところで下のエントリーを読んで

内モンゴルと草原の誘い【前篇】 - 大陸浪人のススメ 〜迷宮旅社別館〜
http://blog.goo.ne.jp/dongyingwenren/e/645fe944a3e53c92e97f337e46d33c94

紹介されてる元スレッドの画像がいたく美しく
dat化して読んでみたく思ったです
外部コマンドで文章翻訳とか出来るので。

百度_呼????_原?-美?的呼???
http://tieba.baidu.com/f?kz=312028377

で、これ現在173レスあるみたいなんですが
50区切りで表示されているもんでどうしようか。。
全部表示するやり方とかあるのかな


えーと
ここって500KBだったか512KBだったか。
どちらにしてもまた1000まで到達出来ないのか

500KB
新着レスの表示

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail(省略可)

0ch BBS 2006-02-27