CaboCha における係り受け関係,文節切り,固有表現解析 の学習方法

$Id: training.html,v 1.3 2003/05/11 16:56:42 taku-ku Exp $;


学習の流れ

係り受けに使用する素性の再定義

係り受け解析に用いる素性をユーザ側で再定義して学習, 解析を行うことが可能です.
具体的には, 自分で素性選択レイヤのプログラムを perl 等で記述し, その出力を, cabocha の係り受け解析レイヤに入力するという流れになります.

素性には, 以下の 4つの種類があります. それぞれ任意の文字列として与えますが, 先頭の一文字 (Prefix)により区別されます.

これら4つの素性の関係を図示すると以下のようになります.

素性

係り元と係り先の同定に, 図中の位置関係にある文節中の素性 F,G,A,B が使用 されます.
具体例としてこちらをご覧ください.

自分で素性を再定義した場合は, 素性選択レイヤまで終了したデータを使用するために,
INPUT_LAYER=3 というオプションを指定する必要があります.

テストデータも同様に素性選択レイヤまで終了したデータとして作成しておきます.

こちらCaboChaの selector (入力データとして京大コーパスを指定)を Perl で実装したものがありますので参考にしてみてください.

% ./selector.pl < 950101.KNP > train.selected
% make CORPUS=train.selected MODEL=foo INPUT_LAYER=3 train-dep
% ./selector.pl < 950102.KNP | cabocha -m foo.model -I3 -O4 -f1

$Id: training.html,v 1.3 2003/05/11 16:56:42 taku-ku Exp $;

taku-ku@is.aist-nara.ac.jp