固定された投稿

果実酒その他自作加工食品などの参考資料
ws-plan.com/m/kajitsushu/

固定された投稿

なんかすごいことだけはわかる地図
kisu.me/HXC
(原本URL:windy.com/ja/-雨、雷-rain?rain,34

固定された投稿
固定された投稿

まつけんさんぶれいく

投票用紙に「なんもわからん」って書いて出すしかねーなぁ

湿度90%超えはもうどうしようもねぇ
tenki.jp/lite/forecast/5/26/51

しばらくほっといたら紫外線で中身も消えるやろ

スレッドを表示

CDのたぐいは軒先に吊るして鳥よけにする📀 ☀️

梅雨の残党がゲリラ戦術を開始しました🌦️

今シーズンの梅雨の営業は終了しました。

みっぐみぐにしてあげよう

なんでもないです 

ローゼンマスク

gucky3 :gifu: 🐱 さんがブースト

フロントエンドは、hadoopクラスタの管理用ページがあったな。
nutchは所詮hadoop上で動く「クロールに便利なジョブ集」みたいなやつなので、特になかったような。。。あったかも?

Hadoopもlinux系でsshdが動いててJVM動くならなんとかなる。ワーカー数とかその辺は設定次第

お一人様クローラーなら範囲絞れるし、範囲絞っておけばストレージ要求量も常識の範囲内で済むし。

起点になるURLのリストを作って、クローラーはリストから選んで1回目のクロールしにいく、みたいな処理だったような。(2回目以降は共有ストレージ見て、クロールできてないリンク先をテキトーに選んでクロールしにいく)

hadoopクラスタ化せずにとりあえず1台構成からnutch動かして増やしてくのもできるがオーバーヘッドがやべぇ。
pythonあたりでクロールしてもいいけど結局ストレージ足りねぇのは解決してない。

内容判定してインデックス除外とかしたらそれはそれで「検閲」とかそういうアレになりそう

二次創作とか写真とかをインデックスしちゃうと場合によってはものすごい怒られが発生する(例:ネズミども、ジャニーさんち)

古の[email protected]とか[email protected]とかみたいに、一時的なリソース貸与とかそういうアレにはできないしなぁ

これもHADOOP使ってる目的、「クソデカインデックス、一個のサーバに溜め込むのだるいから分散ストレージ使おうぜ」くらいのノリだったと思われる

古いものから表示
Nagoyadon.jp

東海地方の地域インスタンスのようなものです。 承認制です。登録の前に必ず「このサーバーについて」をご覧ください。