2009年10月27日(火)<< 前の日記 | 次の日記 >>
この日の詳細

■1 続・関連記事検索のデバッグ[http://www.nantoka.com/~kei/diary/?20091026&to=200910261#T200910261][hns] このエントリーをはてなブックマークに追加

引き続き。
どうも関連しないなぁという記事が関連記事として挙げられるケースでのキーワードを見てみると、ストップワード *1 の影響を受けているパターンが多いことが分かりました。
キーワード抽出には MeCab[http://mecab.sourceforge.net/] を使っていて、名詞のみ登録するようにしていて、 tf-idf[http://ja.wikipedia.org/wiki/Tf-idf] のidfがフィルタしてくれるかと思っていたのですが、一般的な単語でも、たまたま数が多いと、スコアの合計では上位になって、関連文書として拾われてしまうことがあるようです。
決まりきったストップワードについては、手作業で登録する方針で様子を見てみたいと思います。
*1: 検索にヒットしすぎるため、有意な検索結果を得るために役に立たないか、むしろ除外したほうが望ましい語。日本語では助詞の「の」「は」等。英語では、「the」「is」「of」等が該当する。

■ 関連記事

詳細はこの日の詳細から

2005年10月27日(木)<< 前の日記 | 次の日記 >>
この日の詳細

■1SYA!nikki[SYA!nikki] このエントリーをはてなブックマークに追加

この記事に頂いたコメント

Re: SYA!nikki by DRE    2005/10/28 22:38
ウェスティン・・・いいとこ泊まってますねー

■ 関連記事

詳細はこの日の詳細から

2004年10月27日(水)<< 前の日記 | 次の日記 >>
この日の詳細

■1 Paros[http://www.proofsecure.com/][CLIP] このエントリーをはてなブックマークに追加

ローカルにプロクシーを立てて、クッキーなどのやり取りをロギングできるツール。
セキュリティ上本当に大丈夫かなぁっていうサイトをチェックする時にものすごく重宝しそう。 httpsに対応しているのが素晴らしい。

■ 関連記事

詳細はこの日の詳細から

2003年10月27日(月)<< 前の日記 | 次の日記 >>
この日の詳細

■1 なめくじ 逃げ〜!逃げ〜![http://www.ohtaoilmill.co.jp/namekuji/] このエントリーをはてなブックマークに追加

日本ブレイク工業[http://www.nantoka.com/~kei/diary/?200310c&to=200310251#T200310251] の次はこれですかね。 うってかわって萎え萎えな感じが良い。 「なめく〜じ 逃げ〜 逃げ〜」

■ 関連記事

詳細はこの日の詳細から

1998年10月27日(火)<< 前の日記 | 次の日記 >>
この日の詳細

■1電気通信事業者としてのプロバイダ このエントリーをはてなブックマークに追加

MP3に絡んで、色々なプロバイダに警告文書が送られてきているようです。原文を入手したわけではないので、詳しいことは ネットワーク音楽著作権普及・啓発プロジェクトのページ[http://www.music-copyright.gr.jp/] を見て頂くとしましょう。
何か、「(違法|公序良俗に反する)コンテンツ」がWebに上がっていたらプロバイダを責任追及する流れになっていて嫌だなぁと感じます。どうもプロバイダは通信事業者と認めてもらっていないのじゃないかという気がしてきます。
もちろん「市販(CD|アプリ)のデジタルコピーをWebで勝手に配布する行為」を肯定している訳ではありません。ただ、プロバイダ側が、ユーザーの行動やデータを監視できるかというと、仮に技術的に可能だとしても、予め許可を得ておかない限り、倫理的にやってはいけない行為だと思います。「予め許可」はプロバイダとユーザー間の信頼関係に基づいてきちんと説明すべき事だと思いますが、約款にこっそり書いてあるプロバイダもあるかも知れません。「当社はお客様が公序良俗に反するデータを送信していないことを確認するために通告なくウェブ・メール・その他のデータを閲覧することがあります」とかね。
で、そういう約束がない状態でWebのディレクトリを管理者権限で直接のぞいて、怪しいファイルがないかどうか積極的に探す行為は、もはや「検閲」ではないでしょうか。これは通信事業者に許されない行為の様に思えます。
仮に作業中に「確実に問題」というファイルを「偶然」発見したにせよ、通信事業者の守秘義務とどちらを重視するかは大問題です。民間人であれば「刑事告発の義務」はないから多少問題は軽くなりますが、一部の公営のプロバイダで公務員が不正に気づいてしまった場合、告発の義務が絡んで難しい問題になるのじゃないでしょうか(詳しい方のフォロー求む)。
例えば、NTTのF-Net(これも蓄積・配布系のメディアになり得ます)使って違法な情報が流通していたとして、こんなに簡単に「検閲せよ」あるいは「削除せよ」という要求が出てくるでしょうか。違法な内容の会話が行われているらしい、という理由で「電話を盗聴しよう」という発想につながるでしょうか。
インターネットプロバイダも通信事業者であることを忘れてはいけないと思うのですが、プロバイダ側でも通信事業者としての自覚が薄いところがあって困った物です。
前述の「警告文書」を受け取って削除処置をしたプロバイダの中に、通信事業者としての義務を忘れたところが無ければいいですが。

■ 関連記事

詳細はこの日の詳細から

以上、13 日分です。

指定日の日記を表示

前月 2019年10月 翌月
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

最近の日記

2019年04月01日

新元号「令和」について

2019年03月23日

DXアンテナ ワイヤレスチューナー メディアコンセント DMC10F1

2019年02月17日

#例のグラボを活用する

2019年01月03日

シリーズ5・myHomeAlexaで自分のCDをかける

2018年12月25日

シリーズ4・英語の楽曲・アルバム・アーティスト名をカタカナに直す

2018年12月23日

シリーズ3: Echo Dotがやってきた

2018年12月19日

続・Echo Dotがやってきた

分野別タイトル一覧


全て
CLIP
SYA!nikki
book
freebsd
hns
magic
おさけ
おしごと
お買いもの
ぐる
ごはん
アクセシビリティ
オープンソース
セキュリティ
音楽
地域情報化
電子自治体
日記

予定

    ToDo

      link

      keikuma on Twitter

      keikuma Name:前田勝之
      Location:長崎市
      Web:http://www.nantok...
      Bio:前田勝之(まえだかつゆき)。長崎在住。コンサル、SE、プログラマー、 なんとか株式会社代表、非常勤講師(情報セキュリティ)。 セキュアド、テクニカルエンジニア(SV,NW)。サーバ管理とWeb日記を10年ほど。 ネットとリアルの接点に関心あり。食べること・歌うこと・愛すること・作ること・飲むこと。おいしいものがぜんぶすき。

      サイト内検索

      Google AdSense

      Powered by hns-2.19.9, HyperNikkiSystem Project