テレワークならECナビ Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜!
無料ホームページ 無料のクレジットカード 海外格安航空券 海外旅行保険が無料! 海外ホテル


告知欄です

■掲示板に戻る■ 全部 1- 101- 201- 301- 401- 501- 601- 701- 最新50
メモ3

102 :名無しさん@勉強中 ★:07/09/10 19:55:12 ID:???

2chミラー計画(http://web.archive.org/web/*/http://fun.kz/)では
取りこぼしも少なかったのですが
管理人のMoonWolfさんの書き込みを前に見たですが

http://yy14.kakiko.com/test/read.cgi/mirror/1115123243/228-232n

関係ありそうな件を引用すると

http://devlog.moonwolf.com/200402.html
http://devlog.moonwolf.com/200422.html

−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2004-04-02
_ [Ruby][Net] 2ちゃんねるミラー計画
のWeb::Agentを使って2ちゃんねるの.datを根こそぎ引っこ抜くプログラムを組んだ。
SmartFilterで引っかかってテスト出来ないけど、多分動くはず(^^;
_ If-Modified-SinceとかRangeとかAccept-Encoding: gzipを使って転送量を抑えるようにしてみた。
今3Mbpsくらいの回線を使ってるけど、2ちゃんねる全体の取得ってどれぐらい時間がかかるんだろう?
4時間以内で終わるなら、毎日cronで処理したいなぁ。
_ 前に作ったWebクローラーを流用してRindaによる分散処理に対応させてみた。
1プロセスで1つの板を処理するようになっている。8並列くらいにすれば帯域をフルに使えるだろう。
_ 初回は全部GETだから時間がかかるだろうな。でも2回目以降は差分取得で早く終わるだろう。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2004-04-04
_ [Ruby][Net] 2ちゃんねるミラー化計画
全部で15GBくらいでした。スレッド数は25万スレッド。
2度目の巡回だと、1板あたり5〜10分で巡回できている。8並列だから10分で8板というところです。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
2004-04-22
_ [Net] 2ちゃんねるを会社から読もう。
fun.kzサーバでsubject.txtおよび*.datを公開しました。
板一覧の*.2ch.netをfun.kzに書き換えるだけで2ちゃんねるブラウザからアクセス可能です。
ただし、日中の更新は2時間おきで50レス以上増えたスレだけが更新されます。夜間に手動で1度だけ全スレッドの更新をしているので1日古い情報が表示されるかもしれません。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−

という所でしょうか。

500KB
続きを読む

掲示板に戻る 全部 前100 次100 最新50
名前: E-mail(省略可)

0ch BBS 2006-02-27