タグ「InformationFiltering」を含む新着エントリー
-
Perceptron を手で計算して理解してみる (nakatani @ cybozu labs) labs.cybozu.co.jp
Perceptron の実装とか見ると、ものすごく簡単なので、本当にこれで学習できちゃうの? と不安になってしまいました(苦笑)。 こういうときは、実際にパーセプトロンが計算しているとおりに、紙と鉛筆で計算してみて、期待する結果が出てくることを確認してみたくなります。参照する教科書は「パターン... 続きを読む
-
NEC、ブログなどから個人の意見・評判を抽出しやすくする新技術 internet.watch.impress.co.jp
NECは、文章データから個人の意見を抽出する技術を開発した。企業のブランドや商品などに対するユーザーの評判情報を分析する際に利用できる。 今回は、個人の主観や感情を表す「意見文」や、特定の話題に関連した「トピック関連文」を、文章全体の中から抽出する際の網羅性を向上できる「文特性分布計算方式... 続きを読む
-
セミナー資料公開「Extreme Search! 次世代検索エンジンSedueが実現... preferred.jp
2009年4月8日(水) 13:00〜15:30に開催されましたPreferred Infrastructureによる製品紹介セミナーの発表資料です。 続きを読む
-
AP通信、ニュースコンテンツの不当使用対策で追跡システム開発へ internet.watch.impress.co.jp
大手通信社Associated Press(AP通信)の取締役会は6日、インターネット上のニュースコンテンツの正当な利用を促進するためのイニシアチブを発足すると発表した。 AP通信のDean Singleton会長は、正当にコンテンツをライセンスしている「ポータルサイトやその他のパートナー... 続きを読む
-
濃いはてなーが大好きな濃いブログBEST50 - てっく煮ブログ d:id:nitoyon
はてなーが大好きなブログBEST100 を見ると、ホットエントリ常連ばかりで新鮮さがなかったので、ブックマーク コメントが多い順を調べてみたくなりました。幸い、手元には はてブ年鑑 を作るときに収集したデータがあるので、ちょっと頑張ればブログごとのコメント数を割り出すことができました。データ量... 続きを読む
-
HAC に使える feature selection を試す (nakatani @ cybozu labs) labs.cybozu.co.jp
プチ間空きましたが、「IIR の「効果的な」階層的クラスタリング」の続き。 「次回は feature selection で次元を落とすのを試してみるべき」と書いたとおり、feature selection(特徴選択)を行ってみます。 要は「25文書しかないのに 8000 語とか多すぎる。文書... 続きを読む
-
WEB+DBプレスの「[速習]レコメンドエンジン」のサンプルプログラムを... d:id:thorikawa
レコメンド, ITプリファードインフラストラクチャーのid:tkngさんと岡野原さんがWEB+DBプレスvol.49に「[速習]レコメンドエンジン」という記事を書かれています。WEB+DB PRESS Vol.49posted with amazlet at 09.03.08 技術評論社 売り... 続きを読む
-
過ぎ去りし、ブログ検索エンジンの時代 at ブログヘラルド jp.blogherald.com
3月 4日 at 7:00 pm by ジョナサン ベイリー - 3年前にブログを始めたころ、同じトピックを取り上げているブロガー、自分のブログにリンクを張っているブロガー、そして、コメントを投稿するエントリやアドバイスを送ることができそうなエントリを見つけるため、私は好んでTechnorat... 続きを読む
-
HITS, 主成分分析, SVD - naoyaのはてなダイアリー d:id:naoya
ウェブグラフのリンク解析によるページの評価と言えば PageRank が著名ですが、もうひとつ Jon Kleinberg による HITS (Hyperlink-induced topic search)も有名です。最初の論文は 1999年です。IIR の 21章で、この PageRank ... 続きを読む
-
長尾のブログ2.0: 形態素を数えてみたら blog.nagao.nuie.nagoya-u.ac.jp
人は一生のうちにどれだけの量の文章を書くのだろう。前回のエントリーで紹介したタイムマシンボードのテキスト入力のために、僕がこれまでに書いてきた文書を使って辞書(読みや表記の一部から単語を引くもの)を作ってみた。 それには、2冊の著書(1997年と2000年に書いたもの)とこのブログ(2005年... 続きを読む
-
EverQuest II の全てのプレイヤーの行動記録を科学的に解析 - スラッ... slashdot.jp
4gamer.net の記事によれば、EverQuest II の 4 年間、40 万人分の全てのプレイヤーの行動記録が、学術誌「Science」の発行元として知られるアメリカ科学振興協会 (AAAS) に提供されたとのことだ。AAAS では、ゲーム内での人間の行動などを分析し、現実世界での行... 続きを読む
-
最強ランクの将棋ソフト「Bonanza」、ついにソースコードを公開 - VE... v.japan.cnet.com
“最強ランク”とも評される将棋ソフト「Bonanza」。このソフトのソースコードが1月28日に公開された。該当部分には思考ルーチンも含まれており、これにより思考部分の詳細が明らかになることになる。Bonanzaは理論物理化学研究者の保木邦仁氏が開発したもので、2006年の第16回世界コンピュー... 続きを読む
-
Latent Semantic Indexing - naoyaのはてなダイアリー d:id:naoya
情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。d1d2d3d4Apple3000Linu... 続きを読む
-
情報検索ことはじめ〜研究者編〜 - 睡眠不足?! d:id:sleepy_yoshi
昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は研究寄りですが,少しでも誰かの役に立てば幸いです. 僕は... 続きを読む
-
映像から少女の年齢を鑑定、児童ポルノと認定 - スラッシュドット・... slashdot.jp
おそらくはタナー分類 [hatena.ne.jp]でしょう。たとえば…18歳の誕生日の記念にポルノビデオを撮った場合はさすがに判別不能なのかな? 成長も個人差があるし。#あー、いやリアル女体にはあまり興味ないんで、ネタ振りって事で。 続きを読む
-
IIR の階層的クラスタリングを試す (nakatani @ cybozu labs) labs.cybozu.co.jp
Pathtraq で Web ページの自動分類を手がけてみて。Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的な... 続きを読む
-
ネットの評判 - goo 映画 movie.goo.ne.jp
goo映画「ネットの評判」とは?インターネット上のブログやウェブサイトから上映中作品の評判を収集し、解析・点数化する機能です。いま話題の映画に対する評判や「ナマの声」をすばやく分析することができます。「ネットの評判」ランキングを見る注意※「ネットの評判」では作品名を含む記事のうち、筆者の主観的... 続きを読む
-
goo映画、文章解析で作品の総合評価を表示する「ネットの評判」 internet.watch.impress.co.jp
NTTレゾナントが運営する「goo」は、映画情報を提供する「goo映画」にて、ブログや映画サイトに記載された映画に関する評判を解析するサービス「ネットの評判」を開始した。利用は無料。 gooでは、2006年12月から1年間、実験サイト「gooラボ」でブログやSNSユーザーの中から映画に関す... 続きを読む
-
SVMにおける損失と正則化 - 射撃しつつ前転 d:id:tkng
前に書いたSVMの記事で、「L1とかL2というのは間違えたときのペナルティをどう定義するかを意味しており」と書いていたが、L1とかL2って正則化項の話なんじゃないの、と疑問に思った。カーネル多変量解析を読むと、やはり正則化項についてはL1とL2の両方の説明が書いてあるが、損失に関しては普通のH... 続きを読む
-
ライブドア、研究者向けに「livedoor クリップ」のデータ提供 internet.watch.impress.co.jp
ライブドアは15日、ソーシャルブックマークサービス「livedoor クリップ」で公開されているURLなどのデータを、学術目的として研究機関や法人機関の研究者・個人などにCSV形式で無償提供するサービス「EDGE Datasets(エッジ データセット)」を開始した。 「EDGE Data... 続きを読む
-
インターネットに向いていないこと anond.hatelabo.jp
年末なのに法律の勉強している。むしろ仕事が休みに入ったので今しかできないと言える。 ちょっと気になる事例があったので、具体的な内容を知ろうと検索をかけたら驚いた。はてなではない他の質問回答サイトで、ある法律の事案についてのベストアンサーがあったが、それが全部間違えていた。僕も勉強中の身分だが、... 続きを読む
-
ライブドアのレコメンデーションエンジン Cicindela | livedoor labs... labs.edge.jp
Cicindela(シシンデラ/チチンデラ)は,ライブドアが独自開発したオープンソースのレコメンデーションエンジンです。「このページを見た人はこんなページも見ています」といったオススメ機能を既存のサービスに簡単に追加できるように,ライブドアで独自開発したレコメンデーションエンジン。Perl +... 続きを読む
-
スラッシュドット・ジャパン | 「あたし彼女」を読み解く「あたし状... slashdot.jp
名作もこの有様アルファルファモザイク [livedoor.biz]から転載。 48 :名無しさん@恐縮です:2008/09/24(水) 18:54:11 ID:dULQ7nwh0 あたし猫 夏目漱石 アタシ 猫 名前? まだなぃ ょ まぁ普通にねこ 飼い主? まぁ 当たり前に いる てか い... 続きを読む
-
ケータイ小説「あたし彼女」、自動生成出来ることが判明:アルファル... alfalfa.livedoor.biz
編集元:ニュース速報板より「ケータイ小説「あたし彼女」、自動生成出来ることが判明」 1 ネチズン(鹿児島県) :2008/12/18(木) 16:15:13.46 ID:h+3YRElc ?PLT(12030) ポイント特典 ソース↓ あたし彼女 http://nkst.jp/vote/nov... 続きを読む
-
しかしSVMも最近は速いらしい - 射撃しつつ前転 d:id:tkng
Complement Naive BayesがSVMより速いよーと主張していたので、SVMもなんか最近は速くなってるらしいよ、という事を紹介してみたい。近年はSVMなどの学習を高速に行うという提案が行われており、実装が公開されているものもある。その中の一つにliblinearという機械学習ライ... 続きを読む