青図~冬の自由研究

|
Clip to Evernote 青図~冬の自由研究
100101_overview.png

やろうとしていることは上図のようなことです.ニュースサイトの記事本文をスクレイピングして,取得した本文をMECAPIという形態素解析エンジンMeCabのWebAPI経由で名詞だけ抽出し,ニュースサイトの記事本文の該当名詞部分を強調表示するだけの簡単なスクリプトです.MECAPIのレスポンスはJSONらしいので,Chrome Extensionとして扱うにはもってこいです.なお,Yahoo!デベロッパーネットワークにある日本語形態素解析の場合はXMLのようです.ちょっと面倒.スクレイピングの部分は,サイト決め打ちにすれば,xpathで余裕です.名詞強調部分もreplaceかなんかでナイーブにやれば良いんじゃないかと楽観視してます.

実はこれらの部分はあくまでインタフェイスに過ぎず,中核の部分は右下にある某提案方式と呼ばれる部分です.具体的には2009-FI-94(4)です.再評価が多少必要なので,評価を簡単にするためには,このようなExtensionを書いて配ってしまえば,いろいろな人が評価してくれるかなといった感じです.そうじゃないと,いちいち対面で評価実験をしないといけないので・・・.

ってことなんですが,これ冬休み中には終わりませんね.3月の研究会原稿と2月の国際会議発表資料を作らないといけないので・・・.ちと難しそう・・・.時間を見つけてがんばります!ううう.冬休み短いよorz.

プロフィール

e-m@il @ddress