?Googleは大規模なデータを求めている:Cloud Dataflow betaとBigQuery update

GoogleはCloud Dataflowというサービスを立ち上げ、パイプラインを「任意に大きなデータセット」で分析することを目指している。

去年の夏に発表された12月のアルファ版では、GoogleのCloud Dataflowで管理されたデータ処理サービスが、ベータ版として一般公開されている。同社は弾力性と微調整機能が優れていると述べている。

クラウドデータフローは、Google Cloud Platformのモジュラーサービスセットの一部を形成するような、Google BigQueryクラウド分析製品の新機能も発表しました。

BigQueryのセキュリティとパフォーマンスは向上しました。データ共有を容易にする行レベルの権限、テーブルあたりのデフォルトの取り込み制限が最大100,000行/秒、Google Cloud Platformヨーロッパゾーンにデータを保存したい企業の地理データ分離などが追加されました。

クラウドデータフローの背後にあるアイデアは、バッチまたはストリーミングのデータ処理ジョブを定義するソフトウェアを作成するために、SDKを使用しています。サービスは、Compute Engine、Cloud Storage、BigQueryなどのテクノロジーを使用して、Google Cloud Platformリソースのジョブを実行します。

エグゼクティブ・エグゼクティブ・エグゼクティブ・エミールソン・シュミット(Eric Emerson Schmidt)をはじめ、Googleのクラウド・データフロー製品マネージャーのエリック・シュミット(Eric Sc​​hmidt)氏は、特定のジョブのランタイムニーズに合わせてリソースを動的に拡張できるようにするために、

クラウドのデータフローは、急速に進化して成長するGoogleのクラウドスタックの主要なパズルを埋めるもので、インターネットの巨人が引き続きAmazon Web Servicesに挑戦しています。

「アルファモードでは、システムが比較的慣れ親しんだ静的な環境で動作していれば問題ありませんでしたが、実際に実行するのに10分かかりました。基本的に同じコストのための「分」を提供しています。もっと多くのリソースを導入し、弾力的に管理しています。

より速く実行できますが、同じ正確さを得ることができ、コストを抑えることができるようになりました。これで、オートスケールするインテリジェントなクラスタを展開できます。

シュミット氏によると、ストリーミングデータの精度を調整するには、完全にオープンソースのプログラミングモデルを持つCloud Dataflowへの正当性コントロールの導入が非常に必要です。

「バッチシステムは非常に正確で信頼性が高く、長年にわたりこれを行ってきましたが、ストリーミングの世界に移行すると時間が敵になります。時間は止まらないので、異なるデバイスから異なるデータレートあなたはリアルタイムでそれらを処理したいと思っています」と彼は言いました。

しかし、アップストリームシステムが遅れている可能性があるため、時間のかかるウィンドウを表す必要なすべてのデータを保障することは決してできません。誰かの電話が難しい時間を過ごしている可能性があり、エッジノードとそのエッジに到達する可能性がありますノードのヒントを再起動するか、リブートするか、キューイングシステムに入り、そのキューイングシステムに遅れが生じます。

したがって、遅れているデータで何をすべきかが問題になります。到着したデータを捕まえるか、後でデータを処理するまで待ってください。

シュミット氏は、「これは非常に特殊な概念だが、非常に強力であり、既存システムのほとんどすべてが欠乏している」と述べた。

Hortonworksは、SequenceIQのポートフォリオをHortonworksデータプラットフォームに組み込み、最終的にこの技術をApache Software Foundationに移行する予定であると述べています。

ビッグデータの詳細

Hortonworks、IBM、Pivo​​talは標準化されたHadoopを出荷開始、MySQL PerconaはTokutekをMongoDBとNoSQL芝に、DataStaxのCassandraはHPのMoonshotに、HortonworksはSequenceIQを、CloudのHadoopに、Cloud PCの学習は発熱を、Pivo​​talはオープンソースのジオード・インメモリ・データベースに関するフィードバックを求めています; MariaDB Corpはスピード・ボトルネックを解消し、アンチSQLインジェクション対策を強化しています。WorkdayのTalent Insightsは、HR予測を可能にすることを目指しています

ビッグデータ分析、Big Data Analytics、DataRobotはデータサイエンスの欠点を自動化することを目指している、Big Data Analytics、MapR創設者のJohn Schroederが辞任し、交換するCOO

Cloud Dataflowの新しい正しさコントロールには、遅い到着データを処理するオプションがありますが、通知が遅れていても、通知でダンプしたり、累積してから後で更新したりすることができます。

Schmidtによると、Cloud Data Flowベータ版では、各作業者のスループットを定期的に検査して作業を再配布することができ、作業者や仮想マシン、スケーリング、管理の改善も可能です。

“そのマシンのネットワークカードが悪くなり、パケットが破棄され、その作業時間が増えている場合や、作業コードがレコード上のキーを処理していて、キー構造が非常に奇妙で、アルゴリズムあなたのコードでは、実行に時間がかかります “と彼は言った。

古典的なクラスター環境では、これらが遅れを続け、ステージ全体に影響が出るため、すべての作業が完了するまで完了することはできません。

「弾力性を持たせて労働者の最適化と組み合わせることで、あなたが支払っているリソースを最大限に活用するモデルが生まれ、時計の時間も最小限に抑えられます」

膨大な量のデータでバッチまたはストリーミングモードで動作する可能性があるクラウドデータフローの潜在的な使用事例は、モバイルゲーム開発者から、リアルタイムですぐにプッシュしたものが重要なユーザー動作を引き起こしているかどうかを知る必要がある、ヘルスケアアプリケーションに。

「実際の使用シナリオは、ETL [抽出、変換、読み込み]を行い、A地点からB地点にデータを移動し、途中で何かしたい、フィルターをかける、匿名化する、それを他のデータで充実させ、分析を行うために他の場所に移動したり、古典的なMapReduceスタイルまたは連続分析でインラインで分析を行うこともできます。

LinkedInが新しいブログプラットフォームを発表

これはBig OLAPの時代ですか?

DataRobotは、データサイエンスの果実を自動化することを目指しています

MapRの創設者John Schroederが辞任し、COOが辞任