どうもyukawasaです

川崎裕一です。スマートニュースで広告を考えています。

Google Newsが自分で作れる?

an RssClustering app he calls Monkey News. It's been running for years. No source code, but he describes his method. (Found via BBC Backstage).

Google News風まとめサイトを自分で作りたいという人向けの記事がありました。

rssclustering [MyWiki]

プロジェクトの要約を見てみると、

  • RSSフィードが大きく伸びている昨今、多くのRSS購読者はもはや圧倒的な新着記事を管理しきれない状態になっている。
  • だから、システム側で重複した情報をひとまとめにして、余計な者は削除してくれる。で、その中から興味深いものを選び出してくれることが求められている。

ということが書いてあります。

曰く、RSSリーダーの目的は、自動でコンテンツを集めてくることにある。そして現在のメーラー型のRSSリーダーの構造、つまり左側にタイトル、右上にタイトル、右下に本文というスタイルは、RSSフィードが少ない場合にはよく回るが、フィードが多くなると破綻するだから、まとめサイトが必要だと。方法として二次解析を用いて、これをRSSクラスタリングと読んでいる。つまり、

  • 物語をトピック毎に分類する。

という簡単そうに見えて結構たいへんなことをやるにはどうしたいいかという記事です。

ソースコードは無いですが、どういう考え方をすれば実現できるかは細かく書いてあります。関心のある方はどうぞ。

で、実物がこれ。
recent news headlines
上にtagみたいなものがありますが、これがいわゆる「特徴語」ってやつですね。