2010年01月03日() これまでの01月03日 編集

■3 続・ゲタソックリ[http://www.nantoka.com/~kei/diary/?20100102S1][hns] このエントリーをはてなブックマークに追加

昨日に引き続き、GETAssocをいじる。
まずは、関連文書検索の置き換えを実装しようということで、TF-IDF算出のために、プレインテキストを生成していた部分に手を入れて、 stp[http://getassoc.cs.nii.ac.jp/?%E5%90%84%E7%A8%AE%E3%82%B3%E3%83%9E%E3%83%B3%E3%83%89%2Fstp] にかけるための、 itbファイル[http://getassoc.cs.nii.ac.jp/?itb%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E5%BD%A2%E5%BC%8F] を生成する様にした。
実際の関連文書検索は、Perlモジュールの pnwam[http://getassoc.cs.nii.ac.jp/package/pnwam-1.1.0.tar.gz] を使って実装する。添付されているドキュメントが乏しいのだけれども、 Perlインタフェース活用術[http://geta.ex.nii.ac.jp/getaN2001/gdoc/geta/ext/wam/doc/tutorial.html] のドキュメントが役に立った。
まず、注目する文書IDとweightのリスト(特定の記事から関連記事を探す場合は、IDは1つでweightは例えば1.0とすれば良い)から、語句のベクタを抽出して、語句から再度、文書IDのリストを得れば、関連文書が得られる。
コード断片は以下の様な感じ。
	my $wid = wam::name2id($WamPool, WAM_ROW, $from_name);
	if (! $wid) {
		return;
	}

	my $ids = [
		{id => $wid, TF => 1, TF_d => 1, weight => 1.0, attr => 0},
	];
	my $type = &wam::WT_SMARTWA;

	my $words = wam::wsh($ids, $WamPool, WAM_ROW, $type, 50, 0, $WamPool);
	if ((! $words) || (ref($words) ne 'ARRAY') || (! @$words)) {
		return;
	}
	my $rets = wam::wsh($words, $WamPool, WAM_COL, $type, $LINK_NUM+1, 0, $WamPool);
	if ((! $rets) || (ref($rets) ne 'ARRAY') || (! @$rets)) {
		return;
	}
しばらく出力を眺めてみて、うまく行く様だったら拡張しよう。

今日のつぶやき

以上、1 日分です。

指定日の日記を表示

前月 2010年01月 翌月
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

最近の日記

2019年04月01日

新元号「令和」について

2019年03月23日

DXアンテナ ワイヤレスチューナー メディアコンセント DMC10F1

2019年02月17日

#例のグラボを活用する

2019年01月03日

シリーズ5・myHomeAlexaで自分のCDをかける

2018年12月25日

シリーズ4・英語の楽曲・アルバム・アーティスト名をカタカナに直す

2018年12月23日

シリーズ3: Echo Dotがやってきた

2018年12月19日

続・Echo Dotがやってきた

分野別タイトル一覧


全て
CLIP
SYA!nikki
book
freebsd
hns
magic
おさけ
おしごと
お買いもの
ぐる
ごはん
アクセシビリティ
オープンソース
セキュリティ
音楽
地域情報化
電子自治体
日記

keikuma on Twitter

keikuma Name:前田勝之
Location:長崎市
Web:http://www.nantok...
Bio:前田勝之(まえだかつゆき)。長崎在住。コンサル、SE、プログラマー、 なんとか株式会社代表、非常勤講師(情報セキュリティ)。 セキュアド、テクニカルエンジニア(SV,NW)。サーバ管理とWeb日記を10年ほど。 ネットとリアルの接点に関心あり。食べること・歌うこと・愛すること・作ること・飲むこと。おいしいものがぜんぶすき。

サイト内検索

Google AdSense

Powered by hns-2.19.9, HyperNikkiSystem Project