ThinkingAtScale
Cloudera Hadoop Training: Thinking at Scale from Cloudera on Vimeo.
Cloudera's Distribution for Hadoop
2009年4月29日水曜日
2009年4月27日月曜日
2009年4月22日水曜日
JJUG2009に参加(2)
今日のもう一つの注目はHadoopを用いた大量ブログデータ処理だ。
MapReduceを使用してAmazon
・大容量データを並列かが必要な処理をとても簡単に書けるようになる、と、だそうだ。
MapReduceを使用してAmazon
・大容量データを並列かが必要な処理をとても簡単に書けるようになる、と、だそうだ。
2009年4月21日火曜日
JJUG2009に参加中(1)
JJUG2009に参加中。
早稲田大学の丸山先生による基調講演から始まった。phpなどのフリーランス系が参加されているセッションよりSI系の人が多いかなという印象。
途中でPCが固まってしまったために、聞いた内容がこぼれてしまったが要点をつらつらと書いてみます。
Cloudの技術的特徴について 早稲田大学/丸山不二夫
Cloudを提供する側の特徴でGoolge、Amazon、Microsoftの共通する技術についてお話があった。
理想というか本来であればCloud=Scalability+Availability だけど、なかなか難しいだろうと。
コモディティ化したマシン(安いPC)をたくさんならべて処理能力を拡大させるという、これがスケールアウト戦略。
スケールアウトしたこれらのシステム構成からエラーが発生してしまう、
これがAvailabilityとなる。このAvailablity問題が重要になっている。
スケールアウト戦略はChunkサーバーを並列に増やしていくことによってScalable化する。
Scalable化とはコモディティ化したマシンを体重化することのReplicaするということになる。
なのでReplicaを複数抱える実装によって冗長性を持たせる。
次にReplica間の同期がきちんとできるかが問題となる。
Consistencyという概念も導入やTransactionにおけるAcidモデルの見直し
新しいBaseモデルを確立する。ということはTransaction技術がとても重要になってくる。
参考:コストパフォーマンスは安いPCを並べた方が33倍ある。By Google
仮装化(※1)が大事だと云われるが、リソースを超えることができない。
スケールアウトをすると横にサーバーを増やす=ノードを増やすことによって、
Scalablilityの本領が発揮される。
企業内Cloudと云われるが拡張できる可能性が左右されてしまう。
※1・・Virtualizationはシステムの物理的な構成の範囲で、能力を柔軟に引き出すのに有効だが、Scalabilityを持つことにはならない。
CAP定理・・
C(Consistency)整合性
A(Availability)可用性
P(partition)分散処理
整合性と可用性をとると、分散処理はできない。
整合性と分散処理をとると、可用性は失われる。
分散処理と可用性をとると、整合性が失われる
ようするにはCloudは分散処理は必須。さらに分散処理と可用性は必須。
Baseトランザクション・・・
Basically Available
Soft-state
EVentually Consistency・・ある時間は同期とれていないが、ある時期になったら同期とれている関係を表す。
ここから先は保存されておらず(泣)
早稲田大学の丸山先生による基調講演から始まった。phpなどのフリーランス系が参加されているセッションよりSI系の人が多いかなという印象。
途中でPCが固まってしまったために、聞いた内容がこぼれてしまったが要点をつらつらと書いてみます。
Cloudの技術的特徴について 早稲田大学/丸山不二夫
Cloudを提供する側の特徴でGoolge、Amazon、Microsoftの共通する技術についてお話があった。
理想というか本来であればCloud=Scalability+Availability だけど、なかなか難しいだろうと。
コモディティ化したマシン(安いPC)をたくさんならべて処理能力を拡大させるという、これがスケールアウト戦略。
スケールアウトしたこれらのシステム構成からエラーが発生してしまう、
これがAvailabilityとなる。このAvailablity問題が重要になっている。
スケールアウト戦略はChunkサーバーを並列に増やしていくことによってScalable化する。
Scalable化とはコモディティ化したマシンを体重化することのReplicaするということになる。
なのでReplicaを複数抱える実装によって冗長性を持たせる。
次にReplica間の同期がきちんとできるかが問題となる。
Consistencyという概念も導入やTransactionにおけるAcidモデルの見直し
新しいBaseモデルを確立する。ということはTransaction技術がとても重要になってくる。
参考:コストパフォーマンスは安いPCを並べた方が33倍ある。By Google
仮装化(※1)が大事だと云われるが、リソースを超えることができない。
スケールアウトをすると横にサーバーを増やす=ノードを増やすことによって、
Scalablilityの本領が発揮される。
企業内Cloudと云われるが拡張できる可能性が左右されてしまう。
※1・・Virtualizationはシステムの物理的な構成の範囲で、能力を柔軟に引き出すのに有効だが、Scalabilityを持つことにはならない。
CAP定理・・
C(Consistency)整合性
A(Availability)可用性
P(partition)分散処理
整合性と可用性をとると、分散処理はできない。
整合性と分散処理をとると、可用性は失われる。
分散処理と可用性をとると、整合性が失われる
ようするにはCloudは分散処理は必須。さらに分散処理と可用性は必須。
Baseトランザクション・・・
Basically Available
Soft-state
EVentually Consistency・・ある時間は同期とれていないが、ある時期になったら同期とれている関係を表す。
ここから先は保存されておらず(泣)
登録:
投稿 (Atom)