タグ

ビッグデータに関するatm_09_tdのブックマーク (25)

  • ビッグデータ基盤技術勉強会で喋ってきた - kuenishi's blog

    研究会が設立されるとか、前からそういう流れになるとは聞いていたが、今日(11日)に開催されたビッグデータ基盤技術勉強会に参加して発表してきた。招待してくれた川島先生には感謝しかない。それにしてもあれ研究会じゃないの、ビッグデータとかいまさら冠するなんて、なんというダサいネーミングセンスなんだと思ってはいけない。世間がやっと俺たちに追い付いてきたんだから、ダサいと思ってはいけない。飽きたころに慣れたものをやめてサッサと次に行っていいのは式年遷宮だけだ。 ぼくの発表もなるべく復習に徹して、研究会だからなにか新しいことを言わなくてもいい、インダストリアル枠だしわかってることを解説していこうというスタンスで解説した。詳細を省いているところも、語弊があるところもあるがお許しいただきたい。 さて丸一日盛り上がってワイワイやった後に、吉祥寺で番の会があって、そこでまた(いつもの)いろんな人と話した。そ

    ビッグデータ基盤技術勉強会で喋ってきた - kuenishi's blog
  • ビッグデータ時代のPython祭り\(^O^)/ SciPy, NumPy, iPython, SymPy, pandas: ホットコーナー

    ブログ(iiyu.asablo.jpの検索) ホットコーナー内の検索 でもASAHIネット(asahi-net.or.jp)全体の検索です。 検索したい言葉のあとに、空白で区切ってki4s-nkmrを入れるといいかも。 例 中村(show) ki4s-nkmr ウェブ全体の検索 ASAHIネット(http://asahi-net.jp )のjouwa/salonからホットコーナー(http://www.asahi-net.or.jp/~ki4s-nkmr/ )に転載したものから。 --- 以前、ゲノム、バイオ、ライフサイエンス(生命科学)といった分野で、バイ オインフォマティクスが勃興したころは、Perlが主役だった。Perlで書かれた コードをJavaで書き直したら何倍も速くなったので、1週間かかっていた処理 が一晩で終わるようになって喜ばれたなんて話も書いた記憶がある。 しかし、最近は

  • ノーチラス二年目終了して三年目へ - 急がば回れ、選ぶなら近道

    二年経過したので記録として置いておく感じで。 ということで気がついたら設立から二年経過していました。正直、まだ二年しか経過していないのか、という感じがします。この一年は二年分ぐらいの時間感覚でした。まじで時間経過が速すぎて死ぬかと思った。去年の今頃はAsakusaの立ち上げで、特にSI屋向けのサポートに力を入れていた時分で、今と状況がまるで違う状況でした。この一年では大きな試行錯誤を二回ほどやった感じになっていて、現在ではAsakusaの向こう側の違う方向性の模索し始めているところです。 大きな方向性としては、この一年で以下が大きく違ってきていると思います。 1.クラウド・コミットが普通になってきた、とはいえ、一方でまだまだというところも実情。元々クラウド上で構築や作業や環境の獲得は普通にやってきましたが、やはり、春先の西鉄ストアさんの基幹業務系をAWSで動かしたというのは、それなりのイン

    ノーチラス二年目終了して三年目へ - 急がば回れ、選ぶなら近道
  • ビッグデータがもたらすビジネスモデル変革:日経ビジネスオンライン

    アベノミクスに伴う円安・株高に2020年東京五輪の開催決定が加わり、景気が一段と好転している。日の経済と企業の視界は大きく開けてきたようにも見える。だが、2014年には消費税増税の実施など、不安材料も控える。果たして現在の好況は来年以降も続くのか。2020年までの中期的な見通しを持つうえで押さえておくべき4つのメガトレンドを、ボストン コンサルティング グループ(BCG)のパートナーが解説する。 今やすっかり一般的な言葉として普及した「ビッグデータ」。それはあらゆる業界で革命を起こしている。 その典型例として、まず米クレジットカード大手ビザのケースを挙げよう。同社ではかつて、カードの不正利用を特定するまでに1カ月を要していた。これを13分まで短縮し、不正利用率を史上最低レベルに抑えることに成功した。 同社のVISAカードの発行枚数は世界で21億枚、年間4.2兆ドルの取引を処理する。不正利

    ビッグデータがもたらすビジネスモデル変革:日経ビジネスオンライン
  • 産総研:ビッグデータから新たな科学的発見をもたらす統計手法を開発

    ビッグデータからの科学的発見のためには、正確な検定値(P値)の算出が必要。 超高速アルゴリズムを用いた新たな統計検定手法を開発し、発見力を大幅に改善した。 物理学、医学、化学など全ての実験科学において世界中での広い利用が期待される。 JST 課題達成型基礎研究の一環として、産業技術総合研究所 生命情報工学研究センターの津田 宏治 主任研究員(JST ERATO「湊離散構造処理系プロジェクト」グループリーダー)、東京工業大学 大学院情報理工学研究科 計算工学専攻の瀬々 潤 准教授、理化学研究所 統合生命医科学研究センターの岡田 眞里子 チームリーダーらは、従来に比べて格段に高い精度で誤発見の確率を示す検定値(P値)を計算するアルゴリズム(手順)を開発しました。 自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれています。しかし、従来の統計検定手法は観測できる

  • ビッグデータ、統計学ブーム、データサイエンティスト、クローズアップ現代: ホットコーナー

    ブログ(iiyu.asablo.jpの検索) ホットコーナー内の検索 でもASAHIネット(asahi-net.or.jp)全体の検索です。 検索したい言葉のあとに、空白で区切ってki4s-nkmrを入れるといいかも。 例 中村(show) ki4s-nkmr ウェブ全体の検索 ASAHIネット(http://asahi-net.jp )のjouwa/salonからホットコーナー(http://www.asahi-net.or.jp/~ki4s-nkmr/ )に転載したものから。 --- この数年、 ・理系だけじゃなくて、文系の人も、確率や統計は勉強しておいたほうがいい よ。 ・Rというソフトもあるよ。 ・アメリカでは求人広告で、理系的な感じがしない職種でも、Rのスキルを要 求している例があるよ。 と、言い続けてきた効果と、世の中、ビッグデータだ、データサイエンティス トだと煽りまくってる

  • 「オープンデータ」にまつわるプレゼン資料まとめ : まだ仮想通貨持ってないの?

    オープンデータにまつわる資料が何気に充実しています。ぼくを含めて、理解が及んでいない方も多いと思いますので、まとめてみました。 オープンデータ徹底入門

    「オープンデータ」にまつわるプレゼン資料まとめ : まだ仮想通貨持ってないの?
  • 個人情報、プライバシー、通信の秘密それぞれに配慮せよ

    前回は、主にライフログを念頭に、「個人情報とプライバシー情報の違い」「個人情報保護法が対象とする事業者と、課している義務」「スマホアプリなどでパーミッションを得ることが必要になるのは、プライバシー権や『通信の秘密』のため」といったことを簡潔に解説した。今回もライフログの取得を念頭に、スマホアプリなどによるデータ取得時に利用者に開示するべきこと、パーミッションクリアしなければいけないことなどを詳しく聞いていく。 城田 やや複雑な内容になってきましたので、最初に、前回の簡単な整理をお願いします。 岡村 はい。前回説明した、データを取得する際に問題となる日の法令のフレームワークは、次のように整理できます。 (1) 関係する法令は、(a) 個人情報保護法、プライバシー権、通信の秘密(詳しくは後述)といったグループと、(b) 知的財産権のグループに大別できる。 (2) データの属性がライフログ系で

    個人情報、プライバシー、通信の秘密それぞれに配慮せよ
  • シェルスクリプトでビッグデータ処理~ユニケージ開発手法とは~

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    シェルスクリプトでビッグデータ処理~ユニケージ開発手法とは~
  • 世論調査の限界を超えろ--オバマ陣営のデータ戦略は「有権者を一人ずつ数える」

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 今年の米大統領選挙でバラク・オバマ大統領の再選に大いに貢献したのは、オバマ陣営のIT部門だった。この「オバマのギークチーム」をめぐる話題は、なかでもビッグデータ活用について大きな反響があったようだ。 12月に入ってからも、TIMEやMIT Technology Reviewなどが、この話題に焦点をあてた記事を掲載している。とくにMIT Technology Reviewは、オバマ側だけでなくロムニー陣営の取り組みも取材。雑誌(のウェブ版)としては破格のボリュームで、両者のアプローチの違いなども描いた。 この記事をどこまで簡潔に紹介できるか少し心許ないが、興味深かった点などを可能な限り書きだしてみたい。 選挙資金集めも「クラウドソーシング

    世論調査の限界を超えろ--オバマ陣営のデータ戦略は「有権者を一人ずつ数える」
  • [1]簡単に分散処理を行えるPig

    OSSの分散処理フレームワーク「Hadoop MapReduce」は便利ですが、少しハードルが高い面もあります。MapReduceをより使いやすくするツールが「Pig」と「Hive」で、大容量データを簡単に処理したいケースで威力を発揮します。個人でも手軽にPigとHiveを“体感”する方法を解説します。(NTTコムウェア 研究開発部 川前 徳章) クラウドコンピューティング時代の代表的な分散処理技術「Hadoop」がいま、熱い注目を集めています。Hadoopは、米Google社が開発した大規模ファイルシステム「Google File System」、および大量のデータを高速に処理できる分散処理フレームワーク「MapReduce」を、Googleが発表した論文を基に実装したオープンソースソフトウエアです。Google File Systemに対応するのが「Hadoop Distributed

    [1]簡単に分散処理を行えるPig
  • 改めて「ビッグデータ」の素朴な疑問に答える――特定のIT企業、大手企業だけのテーマか?| nikkei BPnet 〈日経BPネット〉

    改めて「ビッグデータ」の素朴な疑問に答える――特定のIT企業、大手企業だけのテーマか? 2012年05月29日  Tweet ページ: 1 / 2 / 3 / 4 / 5 / 次へ » IT業界において「ビッグデータ」がひとつブームになっている。企業はこのブームにどう対応すべきなのか。一般企業が感じるであろう「5つの素朴な疑問」に答えるかたちで、やさしく解説していきたい。 疑問その1: 「ビッグデータ」とは何か? 「大量」「多様」「リアルタイム」、いわゆる「3つのV」の活用 IT業界における他のキーワードと同様に「ビッグデータ」の定義も様々だ。各当事者が自分の都合の良いように言葉を使ってしまうからだ。また、とりあえず「ビッグデータ」という言葉を使っておかなければ、「マーケティング的にまずいので使ってみました」としか言いようのないケースも見られる(このような宣伝文句としての「ビッグデータ」は

  • ビッグデータ処理の常識をJavaで身につける

    Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 検索エンジンの常識をApache Solrで身につける ビッグデータ処理の常識をJavaで身につける(1) 検索エンジンの概要と周辺技術について解説し主な利用方法や実装ソフトウェア、Solrの利用方法などを簡単に紹介します

  • 「知らなきゃ恥かく『ビッグデータ』超入門」カテゴリの記事一覧 | プレジデントオンライン

  • “統計の基礎を無視している”Hadoop使いが考えるビッグデータ

    Hadoopをバッチ処理の高速化に活用しているノーチラス・テクノロジーズは、ビッグデータのブームに真っ向から異論を唱える。「ビッグデータは中身のないバズワード」と断言する代表取締役社長 神林飛志氏に、その真意を聞いた。 Hadoop=ビッグデータは大きな誤解 ノーチラス・テクノロジーズは、基幹系システム向けのミドルウェアを手がける国産ベンチャー。Webサービスのように決して派手ではないが、「そもそもダウンすると、飛行機が飛ばないとか、病院で人が死んでしまうとか、電車が動かないとか、生活に影響が出る分野」(神林氏)という、まさにミッションクリティカルな領域のITで、同社の製品は活用されている。 同社の「Asakusa Framework」は、Hadoopを活用した分散処理により、基幹系バッチの高速化を実現する。神林氏は、「Hadoopというと、WebやSNS系、BIやデータ解析での使い方がメ

    “統計の基礎を無視している”Hadoop使いが考えるビッグデータ
  • ビッグデータ時代を支える3つのデータ統合ソリューション――Oracle OpenWorld Tokyo 2012レポート | oracletech.jp

    モバイル・デバイスやクラウド・コンピューティング、ソーシャル・ネットワークなどの普及により、世に存在するデータの量は爆発的に増加し、現在、人類はかつて経験したことのない"ビッグデータ"時代を迎えている。データが増えれば当然、その扱いに関する複雑さやコストも増大する。そうした中、企業の情報システム担当者はどのような手立てにより、さまざまなソースから発生する大量のデータを、利便性やコストのバランスを保ちつつ統合/活用していけばよいのか? オラクルの場合、その課題に向けて現在3つのソリューションを用意している。活用事例も交えてそれぞれの特色を紹介しよう(五味明子)。 ■ETLではなく"E-LT"でデータ統合を高速化――Oracle Data Integrator Oracle OpenWorld Tokyo 2012で講演を行った日オラクル 製品事業統括 製品戦略統括テクノロジー製品推

  • ビッグデータ大作戦

    ビッグデータ活用元年─。2012年は、IT歴史にこう刻まれることになるだろう。あらゆる企業が、ビッグデータを経営に活用できる舞台が整ったからだ。スマートフォンの普及により情報収集が容易になり、クラウドの進化でデータ分析に必要なITコストが劇的に下がった。では、どこに目をつければビッグデータを上手に活用し、競合に差をつけられるのか。データを「自ら生み出す」、データに「語らせる」、データを「深掘りする」という三つの視点から、先進事例を探ってみよう。 目次

    ビッグデータ大作戦
  • 「ビッグデータ」テクノロジー戦略を現実的に考える

    EnterpriseZine(エンタープライズジン)編集部では、情報システム担当、セキュリティ担当の方々向けに、EnterpriseZine Day、Security Online Day、DataTechという、3つのイベントを開催しております。それぞれ編集部独自の切り口で、業界トレンドや最新事例を網羅。最新の動向を知ることができる場として、好評を得ています。

    「ビッグデータ」テクノロジー戦略を現実的に考える
  • ビッグデータの特徴とシステム構築手順の全体像

    「ビッグデータ」という言葉が頻繁に聞かれるようになった。さまざまなデータをビジネスに活かす期待が高まる一方、システム担当者向けの記事は少ないという印象だ。よく取り上げられるのはHadoopやNoSQLといった大量データの分析処理技術に関するトピックである。だがそれでは、ビッグデータを支えるシステムの一部しか見ていない。 ビッグデータとして想定されているものの中には、POSや取引データなどのビジネスデータに加え、センサーデバイスやソーシャルネットワーク(SNS)など、従来の情報システムが取り扱わなかったデータが含まれている。そうしたデータは、従来のデータと特性が明らかに異なる。 そのため、大量データの分析処理だけでなく、データ収集方法やデータベースへの格納方法においても、システム担当者が新たに取り組まなければならない課題は多い。 連載では、「ビッグデータのシステムデザイン」と題し、データの

    ビッグデータの特徴とシステム構築手順の全体像
  • 触ってみよう!ビッグデータを支えるクラウド技術

    サーバーの台数を増やせば増やすほどリニアに性能が向上することを目指した処理方法が注目されています。例えば「MapReduce」という処理方法などです。また、ボトルネックになりがちな従来のデータベースに代わる「NoSQL」や「分散キー・バリュー型データストア」など新しいタイプのデータストア技術への期待も高まっています。 ビッグデータ時代を迎えるに当たり、クラウド技術がどのようになっているのか理解するには、実際に使ってみるのがよいでしょう。クラウド技術の多くは、ソフトウエアがオープンソースで提供されるだめ、タダで動かしてみることができます。ぜひ記事の通りに実際に手を動かして操作してみてください。紹介するほとんどは、OSとしてLinuxを用います。 目次

    触ってみよう!ビッグデータを支えるクラウド技術