はてなブックマーク > HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)のタイトルと本文を単語の統計的に処理して決定し、フィードを生成していると書かれています。ウェブ上にあるHTMLドキュメントは Ask.jp ： "xml" Search re...
HTMLのドキュメントから繰り返し部分をみつける - bits and bytes

http://labs.gmo.jp/blog/ku/2007/11/html.html のスクリーンショット

URL：: http://labs.gmo.jp/blog/ku/2007/11/html.html
注目：: labs.gmo.jp の注目エントリー
カテゴリ：: コンピュータ
キーワード：: Ask.jp Bookmarklet cybozu MediaWiki Mozilla Developer Center MozillaZine XMLHTTPRequest XSLT なんでもRSS タグクラウド
タグ：: *html 0711a bookmarklet3 diff dom extract3 html27 javascript31 ku nlp programming10 repeat rss9 scraping5 tech xpath12 あとで読む6 プログラミング形態要素解析6
はてなスター：

※ はてなブックマークは無料のソーシャルブックマークサービスです。はてなにログインすると、このページにコメントしたりブックマークしたりすることができます。

このエントリーをブックマークしているユーザー (68 +17)

2007年11月03日 yterazono
2007年11月03日 kumahosi 形態要素解析, rss
2007年11月03日 kitanow html, xpath
2007年11月03日 konu2
2007年11月03日 Constellation javascript, rss, あとで読む
2007年11月02日 cometosun スパム実用
2007年11月02日 hirose504 html, javascript, programming
2007年11月02日 june29 html, javascript, scraping 差分を取る，って点が面白い
2007年11月02日 genkivogue javascript, xpath, text, 文書解析
2007年11月02日 Miotsukushi
2007年11月02日 abyssgate
2007年11月02日 effectorist
2007年11月02日 yheld javascript, xpath, html
2007年11月02日 hata186c rss, scraping
2007年11月02日 jazzanova javascript
2007年11月02日 init5 xpath, bookmarklet
2007年11月02日 coolfox008 *あとで
2007年11月02日 hoge_systemz XPath, DOM
2007年11月02日 baobabunohana *javascript, *html
2007年11月02日 lli あとで読む, web制作
2007年11月02日 go5025 html
2007年11月02日 wacky JavaScript, 開発, HTML, bookmarklet, 考察 Google検索結果のように複数ページに分かれたHTMLドキュメントから、繰り返し部分のXPathを生成するJavaScript。ブックマークレット版あり。問題点についての考察も。
2007年11月02日 sunaoka JavaScript
2007年11月02日 mmonta2044
2007年11月02日 ag-commerce RSSを生成していないページからRSSを生成するなんでもRSS 0.1bは、公開されているJSAI2005: なんでもRSS - HTML文書からのRSS自動生成によると、日付情報を目印にしてそのHTMLドキュメントの構造を推測して、各エントリ(item要素)の
2007年11月02日 akkun_choi scraping
2007年11月02日 hjm javascript, 形態要素解析, html, rss
2007年11月02日 shidho javascript, html, rss, プログラミングうまく動くのかな?
2007年11月02日 miya2000 html, javascript, parse
2007年11月02日 scmiz Programming, HTML
2007年11月02日 pc_nagomu javascript, *programming, rss, html
2007年11月02日 os0x javascript
2007年11月02日 HolyGrail ku, javascript, xpath
2007年11月02日 inspi 形態要素解析, programming, javascript, html
2007年11月02日 junneko javascript, programming, html
2007年11月02日 k_ume75 HTML, javascript, あとで読む
2007年11月02日 ikeyasuki programming, javascript
2007年11月02日 faw 日本語処理
2007年11月02日 inamenai JavaScript
2007年11月02日 croneco html, nlp
2007年11月02日 sinzysinzy html, RSS, seo
2007年11月02日 hiro1963 programming, xpath, javascript, 形態要素解析, あとで読む, web開発
2007年11月02日 kamomeMM F
2007年11月02日 ksystems
2007年11月02日 lurker web 興味深い
2007年11月02日 ringod html, textProcessing, 0711a, javascript, xpath >>大量のデータを複数のページにわけて表示しているHTMLドキュメントを対象に、ドキュメント中に含まれる繰り返し部分のXPathを生成するブログラムをjavascriptで作りました。
2007年11月02日 bunhiko JavaScript, xpath, html
2007年11月02日 yuiseki
2007年11月02日 ahya365 extract, html, javascript, programming, xpath
2007年11月02日 joker1007 javascript, scraping, xpath
2007年11月02日 citora
2007年11月02日 ikko615
2007年11月02日 youpy
2007年11月02日 nanajou html, programming, 形態要素解析, javascript
2007年11月02日 browneyes
2007年11月02日 twitter kunipon
2007年11月02日 mattn xpath, 形態要素解析
2007年11月02日 so_ra_to programming
2007年11月02日 loveproxy
2007年11月02日 asitaki html, javascript
2007年11月02日 otsune 差分要素に「ad」「tag」「menu」がurlやclassやidに含まれるDOMは本文ではないと見なすとかどうか
2007年11月02日 lizy html
2007年11月02日 pcod javascript, html
2007年11月02日 nkoz *
2007年11月02日 starsky5 html, javascript, rss, あとで読む
2007年11月01日 TAKESAKO extract, html, javascript
2007年11月01日 fuba tech, diff, html, repeat, extract
2007年11月01日 brazil 4, JAVASCRIPT ←本文/全文、抽出、XPath生成、←クローラー、←LDRize/SITEINFO、エントリー、区切り、←AutoPagerize/pageElement

このエントリーを含む日記 (4)

常山日記 johzan - 2007年11月03日
Webアプリを作ろう ringod - 2007年11月02日
WEB開発日記 f-star - 2007年11月02日
Overlasting::Hatena overlast - 2007年11月01日