2009年10月27日(火) << 前の日記 | 次の日記 >>
これまでの10月27日 編集

■1 続・関連記事検索のデバッグ[http://www.nantoka.com/~kei/diary/?20091026&to=200910261#T200910261][hns] このエントリーをはてなブックマークに追加

引き続き。
どうも関連しないなぁという記事が関連記事として挙げられるケースでのキーワードを見てみると、ストップワード *1 の影響を受けているパターンが多いことが分かりました。
キーワード抽出には MeCab[http://mecab.sourceforge.net/] を使っていて、名詞のみ登録するようにしていて、 tf-idf[http://ja.wikipedia.org/wiki/Tf-idf] のidfがフィルタしてくれるかと思っていたのですが、一般的な単語でも、たまたま数が多いと、スコアの合計では上位になって、関連文書として拾われてしまうことがあるようです。
決まりきったストップワードについては、手作業で登録する方針で様子を見てみたいと思います。
*1: 検索にヒットしすぎるため、有意な検索結果を得るために役に立たないか、むしろ除外したほうが望ましい語。日本語では助詞の「の」「は」等。英語では、「the」「is」「of」等が該当する。

■ 関連記事

今日のつぶやき

以上、1 日分です。

指定日の日記を表示

前月 2009年10月 翌月
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

最近の日記

2019年04月01日

新元号「令和」について

2019年03月23日

DXアンテナ ワイヤレスチューナー メディアコンセント DMC10F1

2019年02月17日

#例のグラボを活用する

2019年01月03日

シリーズ5・myHomeAlexaで自分のCDをかける

2018年12月25日

シリーズ4・英語の楽曲・アルバム・アーティスト名をカタカナに直す

2018年12月23日

シリーズ3: Echo Dotがやってきた

2018年12月19日

続・Echo Dotがやってきた

分野別タイトル一覧


全て
CLIP
SYA!nikki
book
freebsd
hns
magic
おさけ
おしごと
お買いもの
ぐる
ごはん
アクセシビリティ
オープンソース
セキュリティ
音楽
地域情報化
電子自治体
日記

keikuma on Twitter

keikuma Name:前田勝之
Location:長崎市
Web:http://www.nantok...
Bio:前田勝之(まえだかつゆき)。長崎在住。コンサル、SE、プログラマー、 なんとか株式会社代表、非常勤講師(情報セキュリティ)。 セキュアド、テクニカルエンジニア(SV,NW)。サーバ管理とWeb日記を10年ほど。 ネットとリアルの接点に関心あり。食べること・歌うこと・愛すること・作ること・飲むこと。おいしいものがぜんぶすき。

サイト内検索

Google AdSense

Powered by hns-2.19.9, HyperNikkiSystem Project