CaboCha/南瓜とは
CaboCha は, Support Vector Machines に基づく日本語係り受け解析器です. 2001年6月現在, 統計的な日本語係り受け解析器として最も精度が高い(89.29%)システムとなって います. また, バックトラックを行なわない決定的な解析アルゴリズム (Cascaded Chunking Model) を採用しており, 比較的効率の良い解析が行なえます.
目次
- 実践 CaboCha
- 特徴
- 新着情報
- 学習データと解析精度
- ダウンロード
- インストール
- 使い方
- とりあえず動かしてみる
- 解析レイヤ
- 各レイヤのフォーマット
- 係りタイプについて
- 同格, 並列 情報の出力
- コマンドラインオプション
- リソースファイル
- 部分的に係り関係が与えられた状態からの解析
- 文節切りの指定
- 係り受け/文節切り/固有表現解析の学習方法
- C/C++/Perl/Ruby/Python ライブラリ
- CaboCha に関する発表
- TODO
- 謝辞
実践 CaboCha
適当な文を入力してください. 解析します
学習に新聞を使用しているので,
会話文のようなドメインが異なる文はエラーが多くなるでしょう.
特徴
- Support Vector Machines (SVMs) に基づく, 高性能な係り受け解析器
- SVM の分類アルゴリズムの高速化手法である PKE (ACL 2003 にて発表)を適用.
- 決定的な解析アルゴリズム (Cascaded Chunking Model) を採用. 高効率な解析
- 係り関係そのものを素性として考慮する「動的素性」を採用, 精度向上に大きく貢献
- 文節の区切にも SVMs を採用 (実際には YamChaを使用)
- 単純な並列/同格構造解析が可能
- IREX の定義による固有表現解析が可能
- 柔軟な入力形式. 生文はもちろん, 形態素解析済みデータ, 文節区切り済み データ, 部分的に係り関係が付与されたデータからの解析が可能
- 係り受けの同定に使用する素性をユーザ側で再定義可能
- データを用意すれば, ユーザ側で学習を行うことが可能
- 内部の辞書に, 高速な Trie 構造である Double-Array を採用
- 1文/秒程度の現実的な解析速度
- C/C++/Perl/Ruby ライブラリの提供
新着情報
- 2005-12-24: cabocha 0.53
- 極端に長い文を解析すると segmentation falt になる問題を修正
- 2004-10-07: cabocha 0.52
- MeCabをサポート.
% cabocha --morphological-analyzer=mecab とすれば mecab が起動される - 2004-08-05: cabocha 0.51
- cabocha_new, cabocha_new2 に失敗した時にメモリリークが起きる問 題を修正
- Windows版 インストール時に administrator 権限でインストールすると, 全ユーザが使用可能にできるようにした. (インストール時のオプションで変更可能)
- 2004-03-28: cabocha 0.50
- 解析速度を大幅に高速化. (7-8倍高速)
SVM の分類アルゴリズムの高速化手法である PKE (ACL 2003 にて発表)を適用した.
(非力な計算機では動作が遅くなるかもしれません. メモリは 512MB 以上, CPU は 1.0GHz 以上の計算機をお使い下さい.) - YamCha 0.30 対応.
YamCha 0.27以下のバージョンでは動きません. アップグレードを行ってください. - 文節切りに用いる学習データの量を増やした.
- 係り受け学習時のパラメータを変更し, 若干精度が向上した.
- 小規模モデルを削除した. (分類の高速化に伴い, 小規模のモデルを使 う必要がなくなっため.)
- 2004-03-08: cabocha 0.44
- ライセンスを LGPL に変更
- 数値 (DATE, MONEY) の固有表現抽出の精度向上のために, 数字の連結 品詞相当を実装し, 再学習した
- 文節区切りの誤り事例を追加し, 再学習した
- Windows版に附属の ChaSen を ChaSen 2.1 から ChaSen 2.3.3 に変更
- 2003-09-14: cabocha 0.43
- C の API を使うと, 特定の環境で (RedHat 9) 解析結果が変になる (素性選択に失敗する)
バグを修正.
(RetHat9 上で C API, perl/ruby/python モジュールを使ってる方は, 早急 にアップグレードしてください) - ruby の正規表現ライブラリを使っていたが, 使うのをやめた
- 2003-08-15: cabocha 0.42
- 不正な NE タグ列を出力する可能性があるバグを修正. (例: 文頭に I タグが付いたり, I-LOCATION, I-PERSION といった不正なタグ列)
- getenv が configure スクリプトで正しく読めない問題を修正
(~/.cabocharc の読みこみができなかった) - 2003-07-04: cabocha 0.41
- C の stdio と非同期に動作させていたのをやめた. (perl/ruby の open2, open3 経由で使えるようになった)
- yamcha 0.26 以降を使うことで, sparc 環境で正常に動作するように なった.
- 2003-05-12:
- 固有表現抽出機能を付与した. IREX で定義される固有表現タグ を出力する. 精度はF値で 85前後. 詳細はこちら
- 固有表現抽出機能の整合性の都合上 JUMAN のサポートを停止した.
- C++ レベルの API の変更. C 用 API への関数追加, スクリプトバインディング(perl/ruby/python) のインタフェイスの変更
- 2003-03-31: cabocha 0.36
- まっさらの環境にインストールする際, make check がうまく動かない バグを修正した.
- $HOME/.cabocharc および 環境変数 CABOCHARC による cabocharc の 指定が正常に行われないバグを修正した.
- 2003-03-29: cabocha 0.35
- IPA のモデルを再学習,再構築した. 従来は, IPA品詞体系と京大コーパス の「文節切り」の整合性を ad-hoc に解決していたが, 厳密に解決し た. IPA品詞体系の連語 (として, について) の解析が正しく行え るようになった. 個々の文節長が長くなるため 「みかけ」の 精度は下がるが, 実用上の精度は向上している.
- 並列 + 同格 の情報を付与するモデルを添付した. 詳細はこちら
- ChaSen の連結品詞の機能を使う必要がなくなった. (連結品詞の機能を off にした ChaSen で文節切りの学習データを作成した.)
- chasen を呼ぶ class を singleton にした. 複数回呼びだされても, 1回の呼びだしとなる. -c オプションによる chasenrc の指定は, 最初の1回のみに限定される. (chasen が再入不可能なライブラリのため仕方がない)
- JUMAN のモデルファイルを別配布にした
- Windows 版を自己解凍形式に変更, インストールが容易になった
- 2003-01-31: cabocha 0.34
- chasen を呼ぶときに, -F オプション付きで呼ぶのをやめた. それに より「未知語品詞」を使うことができるようになった. 未知語の多くが名詞の場合は, 精度が向上すると思われる. 詳しくは こちら
- cabocha_sparse_tostr ()の戻り値にゴミが入るバグを修正
- メモリーリークのバグの修正
- Windows Version の開発を mingw から Visual Studio .NET C++ に変更
- 2003-01-06: cabocha 0.33
- param.cpp (コマンドライン解析ルーチン) の変更
- 2002-11-21: cabocha 0.32 Released
- -o オプションが動作しないバグを修正
- 2002-11-13: cabocha 0.31
- -r オプションが動作しないバグを修正
- chasen のリンクが cygwin, FreeBSD でうまくいかない問題を修正
- 0.3 は, オプションの指定ができないバグが含まれているので, 0.31 をお 使いください.
- 2002-11-11:
- 2文節しかない文を入力したときに, 係り受けタイプが出力されないバグを修正
- 部分解析ができていないバグを修正
- O タグに関する解説を追加
- 係り受けの学習に関するドキュメントの修正 (一部誤りがあった)
- ソースコードをきれいにした.
- gcc 3.2, Borland C++, Visual Studio .NET に対応
- 2001-10-22: cabocha 0.21
- JUMAN 用 chunker モデルに欠陥があり, 解析中に core dump するバグを修正
- IPA 用 chunker モデル中のバグを修正
- ChaSen 用 handler が入力フォーマットを上書きしてしまうバグを修正
- 2001-10-19: cabocha 0.2
- データ構造とメモリ管理の工夫により, 20-30%の高速化
- C++/Perl/Ruby/Python interface の充実
- 文節切りの位置をユーザが指定できるようになった. (必ず切る/絶対切らない/任意の位置の指定)
- XML 出力の暫定対応
- 2001-7-7: cabocha 0.1
- Initial Release!
学習データと解析精度
名前 | 内容 | 精度(後ろから2番目の文節の評価を含める) |
chasen-large | 京都大学コーパス 3.0 を chasenで解析した結果を学習 | 約 91% |
chaen-med | 京都大学コーパス 3.0 (奇数日,社説は奇数月) を chasen で解析した結果を学習 | 90.20% |
chasen-small | 京都大学コーパス 2.0 (950101-950108) を chasen で解析した結果を学習 | 88.37% |
- 配布パッケージには, chasen-large が含まれます
ダウンロード
- CaboCha は GNU Lesser General Public License (LGPL)に従ったフリーソフトウェアです.
- 付属のモデルファイル(model 以下のファイル)には, LGPL は適用されません. LGPL は, 付属のプログラムや学習ツールのソース・コード, ドキュメントのみに適用されます.
- 付属のモデルファイルは, 株式会社毎日新聞社の御厚意により 配布されている毎日新聞記事CD-ROM版を基に学習, 作成されたものです. 付属のモデルファイルは, 毎日新聞データ使用許諾に関する覚書に記載の利用条件内で その使用及び, 複製,改変,頒布が認められます. そのため配布しているモデルをそのままの形で使うことは, 研究目的, 個人利用に限られます. 誤解ないように言っておくと, これは, CaboCha の利用が研究目的に限定されていることを意味しません. ご自身で用意なさったコーパスを基に, 独自にモデルを学習, 作成した場合は, 研究目的以外の利用が可能です.
- 奈良先端科学技術大学院大学大学ならびに工藤 拓は, CaboCha のプログラム 及び付属のモデルファイルの保証, および特定目的の適合性の保証を含め いかなる保証をも行うものではなく, CaboCha のプログラム 及び付属のモデルを使用,複製,改変,頒布により生じた損害や賠償等については, 法律上の根拠を問わず一切責任を負いません. ご注意ください.
- 将来的には, 著作権やライセンス上の問題から, モデルファイルとプログラムを分割 して配布する予定です.
- CaboCha を参照する場合は,
以下の文献を参照していただけると幸いです.
# 国内 @article{cabocha, title = {チャンキングの段階適用による日本語係り受け解析}, author = {工藤 拓、松本 裕治}, jorunal = {情報処理学会論文誌}, volume = 43, number = 6, pages = {1834-1842}, year = {2002} } # 海外 @inproceedings{cabocha, title = {Japanese Dependency Analysis using Cascaded Chunking}, author = {Taku Kudo, Yuji Matsumoto}, booktitle = {CoNLL 2002: Proceedings of the 6th Conference on Natural Language Learning 2002 (COLING 2002 Post-Conference Workshops)}, pages = {63-69}, year = {2002} }
インストール
UNIX
- あらかじめインストールすべきプログラム
- YamCha 0.30以上 (必須)
- ChaSen (必須)
- MeCab ChaSen の代用, ChaSen を用いない時は必要
- TinySVM (学習を行う場合は必須)
- C++ コンパイラ (g++ 2.95.1 以上 で動作確認済み)
- インストール手順
% ./configure % make % make check % su # make install
必要ならば, 以下の項目を chasenrc に追加し(コメントをはずし) 未知語品詞を使うように設定します. 通常, 未知語には 「未知語」という品詞 が付与されますが, 以下の設定により, 未知語品詞 (デフォルトは, 名詞-サ変) が付与されます. 解析したい文の未知語の多くが 名詞である場合は設定したほうがよいでしょう. (NTT の磯崎さんに教えていただきました)(出力フォーマット "%m\t%y\t%M\t%P-\t%T \t%F \n") ; 品詞名出力
- configure option
- --prefix=/home/taku-ku/nltools のように
インストールパスを変更することが可能です.
この場合, インストールにSuper User の権限は必要ではありません. - --disable-shared を指定すると, shared library を作成せず, 高速な binary が作成できます.
- --with-chasen-config=/usr/bin/chasen-config のように,
chasen-config のパスを直接指定することが可能です. - --with-mecab-config=/usr/bin/mecab-config のように,
mecab-config のパスを直接指定することが可能です. -
--with-chasen-config=/usr/bin/yamcha-config のように,
yamcha-config のパスを直接指定することが可能です. -
--with-morphological-analyzer=mecab のように,
デフォルトの形態素解析器を選択できます. chasen,mecab からお選び下さい -
--disable-pke とすることで, PKE の機能を停止できます.
ただし,解析速度は遅くなります. 非力な計算機の場合はこのオプションをお使 い下さい. - --enable-chasen-static, --enable-mecab-static とすることで, chasen/mecab への動的リンクをやめて静的リンクに変更します. 動的リンクがうまくいかない アーキテクチャでは (Cygwin等) こちらをお使いください.
- --prefix=/home/taku-ku/nltools のように
Windows
- インストール手順
-
自己解凍インストーラ cabocha-X.XX.exe を実行します.
インストールウイザードに従ってインストールしてください.
- その他
- Windows 版には, 学習機能は含まれません.
- Windows 版は, SJIS コードを用いています.
使い方
- とりあえず動かしてみる
cabocha を起動して, 生文を標準入力から入力してみてください.
デフォルトで, 簡易 Tree 表示により結果を出力します.-f1 というオプションで, 計算機に処理しやすいフォーマット (京都大学コーパス フォーマット)で出力します.
zinnia:~% cabocha -f1 * 0 5D 0/1 4.52155167 太郎 タロウ 太郎 名詞-固有名詞-人名-名 B-PERSON は ハ は 助詞-係助詞 O * 1 2D 0/1 1.88996940 次郎 ジロウ 次郎 名詞-固有名詞-人名-名 B-PERSON が ガ が 助詞-格助詞-一般 O * 2 3D 0/2 1.05423213 持っ モッ 持つ 動詞-自立 五段・タ行 連用タ接続 O て テ て 助詞-接続助詞 O いる イル いる 動詞-非自立 一段 基本形 O * 3 5D 0/1 4.99698811 本 ホン 本 名詞-一般 O を ヲ を 助詞-格助詞-一般 O * 4 5D 1/2 0.00000000 花 ハナ 花 名詞-一般 O 子 コ 子 名詞-一般 O に ニ に 助詞-格助詞-一般 O * 5 -1O 0/1 0.00000000 渡し ワタシ 渡す 動詞-自立 五段・サ行 連用形 O た タ た 助動詞 特殊・タ 基本形 O 。 。 。 記号-句点 O
- 解析レイヤ
CaboChaには, 解析レイヤという概念があります. 解析レイヤは, 以下に示 す 4つの解析単位の事を指します. CaboChaは, これらのレイヤを UNIX pipe のように取り扱います. つまり, 個々の解析レイヤは完全に独立した空間 で動作し, ユーザは, 任意のレイヤを入力として与え, 任意のレイヤの出力を得ることができます.
さらに, これらのレイヤとは独立に, IREX定義に基づく 固有表現解析機能があります. 詳細はこちらをごらんください.
解析レイヤは, -I, -O オプションにて変更します.
-I は 入力のレイヤ, -O は出力のレイヤです.-I, --input-layer=LAYER set input layer 0 - raw sentence layer 1 - POS tagged layer 2 - POS tagged and Chunked layer 3 - POS tagged, Chunked and Feature selected layer -O, --output-layer=LAYER set ouput layer 1 - POS tagged layer 2 - Chunked layer 3 - Chunked and Feature selected layer 4 - Parsed layer (default)
* 形態素解析のみ
% cabocha -I0 -O1
* 文節切りのみ% cabocha -I0 -O2
* 係り受け解析まで行う% cabocha -I0 -O4
* RWCP コーパス (形態素解析済みのデータ) から入力% cat rwcp.3000.ipa | cabocha -I1 -O4
* cabocha 自身を組みあわせる% chasen | cabocha -I1 -O2 | cabocha -I2 -O3 | cabocha -I3 -O4
* 素性選択は 自分で作成した perl プログラム% cabocha -I0 -O2 | perl myscript.pl | cabocha -I3 -O4
- 各レイヤのフォーマット
各レイヤの入出力のフォーマットを以下にまとめました
レイヤ名 入力フォーマット 出力フォーマット 形態素解析 一行一文で記述された生文 (例) 形態素解析結果
ChaSen と同じ出力 (MeCab -Ochasen の出力)(例)文節区切り 形態素解析済みデータ
ChaSen の出力 (MeCab -Ochasen の出力)
京都大学コーパスフォーマット
ただし係り先はすべて -1 (*1) (例)素性選択 京都大学コーパスフォーマット,
(*1) のフォーマット (例)拡張した
独自フォーマット (*2) (例)
係り受け解析 京都大学コーパスを拡張した
独自フォーマット,
(*2) のフォーマット (例)京都大学コーパスを拡張した
独自フォーマット (*3) (例)簡単な解説
- 文節区切りレイヤの出力フォーマット (*1) (例)
形態素解析済みデータに対し, 文節の区切り情報が付与されます.
具体的には, * で始まる文節の開始位置を意味する行が追加されます.
* の後には, 文節番号 (0から始まる整数),
係り先番号 (係り先は同定されていないので常に -1)
さらに 係りタイプ(同定されていないので常にO) が続きます. - 素性選択レイヤの出力フォーマット (*2) (例)
(*1)のフォーマットの他に, 主辞/機能語の位置と,
任意の個数の素性列が付与されます. 素性についての詳細はこちらをご覧ください
例の最初の文節には, "0/1" という情報が 付与されてますが,
これは主辞が 0 番目の形態素 (= 太郎),
機能語が 一番目の形態素 (= は) という意味になります.
主辞/機能語フィールドは, 素性選択レイヤのコメントに相当し, CaboChaは, このフィルードを解析に使用していません. このフィールドは今後廃止されるかもしれません.
- 係り受け解析レイヤの出力フォーマット (*3) (例)
(*1) では, 係り先が常に -1, タイプが常に O でしたが, これらが同定されます.
また, (*1)のフォーマットの他に, さきほど説明した 主辞/機能語の位置と
係り関係のスコアが追加されます.係り関係のスコアは, 係りやすさの度合を示します. 一般に大きな値ほど係りやすいことを表します. しかし, 各スコアと, 実際の解析精度の関係は調査中です. このスコアの意味づけに関しては調査する必要があると考えています.
- 文節区切りレイヤの出力フォーマット (*1) (例)
- 係りタイプについて
デフォルトでは, D と O がありますが, それぞれ以下の意味を持ちます.
- D: SVM の判定によると係る.
- O: SVM の判定によると係らない.
モデルを変更することで, A(同格),P(並列)の情報を付与することが可能になり ます. 詳細はこちら
- 同格, 並列 情報の出力
京 都大学コーパスに付与されている, 同格(A) 及び, 並列 (P) の 情報を出力することができます. これらは, 単純に複数クラスの問題と みなして学習しただけなので, KNP に比べれば, 精度は低いです. しかし, 単純な名詞句の並列や同格は, それなりに解析できます. 連用終止などは, 局所的な情報のみを用いていることと, 並列構造の定義自身が困難であるため, 現状の 素性だけでは, 学習が困難なようです.
同格/並列情報を出力するには, 以下の要領で解析モデルを変更してください.
cabocharc をローカルにコピー
% cp /usr/local/etc/cabocharc .
編集 (もちろん, /usr/local/etc/cabocharc を直接編集してもらっても かまいません. その場合は, デフォルトの動作が 並列/同格モデル となります.)
# Parser model file name parser-model = /usr/local/lib/cabocha/model/IPA-dep-A+P.model
このモデルを使用して解析
% cabochar -r cabocharc 中学校の運動部と、地域の小学生のクラブチームが統合したサッカークラブが奈良市内に誕生した。 中学校の-D 運動部と、-----P 地域の-D | 小学生の-D クラブチームが-D 統合した-D サッカークラブが---D 奈良市内に-D 誕生した。 EOS ラーメンなど麺類が好きだ。 ラーメンなど-A 麺類が-D 好きだ。 EOS
P が並列, A が同格関係を示します.
- 固有表現解析
-n オプションで, IREX(Information Retrieval and Extraction Exercis)の 定義に基づく固有表現タグを出力します. 解析精度は F値で 85 ポイント前後だ と思います.固有表現解析には, 以下の 3 つのモードが存在します. 適宜使いわけてください.
-n 0: 固有表現解析を行わない -n 1: 固有表現解析を行う. ただし, 文節の整合性を保つ. (デフォルト) 文節の整合性とは, 「1固有表現が, 複数の文節で構成されない」 という制約です. -n 2: 固有表現解析を行う. ただし文節の整合性を保たない.
-f1 オプションを用いた場合, 固有表現は, IOB2形式で出力されます.B-X: Xという固有表現の開始 I-X: Xという固有表現の開始以外 O: 固有表現以外
以下が, 具体例です. 活用型, 活用形の後に 固有表現タグが付与されます.% cabocha -f1 -n1 太郎と花子は2003年、奈良先端大を卒業した。 * 0 1D 0/1 1.41407035 太郎 タロウ 太郎 名詞-固有名詞-人名-名 B-PERSON と ト と 助詞-並立助詞 O * 1 4D 0/1 4.60512988 花子 ハナコ 花子 名詞-固有名詞-人名-名 B-PERSON は ハ は 助詞-係助詞 O * 2 4D 4/4 3.53855121 2 ニ 2 名詞-数 B-DATE 0 ゼロ 0 名詞-数 I-DATE 0 ゼロ 0 名詞-数 I-DATE 3 サン 3 名詞-数 I-DATE 年 ネン 年 名詞-接尾-助数詞 I-DATE 、 、 、 記号-読点 O * 3 4D 0/1 0.00000000 奈良先端大 ナラセンタンダイ 奈良先端大 名詞-固有名詞-組織 B-ORGANIZATION を ヲ を 助詞-格助詞-一般 O * 4 -1O 1/2 0.00000000 卒業 ソツギョウ 卒業 名詞-サ変接続 O し シ する 動詞-自立 サ変・スル 連用形 O た タ た 助動詞 特殊・タ 基本形 O 。 。 。 記号-句点 O EOS
- コマンドラインオプション
頻繁に使用するコマンドラインには以下のものがあります.
-f, --output-format=TYPE 出力フォーマットの指定 -I, --input-layer=LAYER 入力レイヤの指定 -O, --output-layer=LAYER 出力レイヤの指定 -m, --parser-model=FILE 係り受け解析用モデルの指定 -M, --chunker-model=FILE 文節区切り用モデルの指定 -N, --ne-model=FILE 固有表現解析のモデルの指定 -r, --rcfile=FILE リソースファイルの指定 (詳細はここ) -c, --chasenrc=FILE chasenrc の指定 -b, --mecabrc=FILE mecabrc の指定 -o, --output=FILE 出力ファイルの指定 (指定されないと標準出力) -a, --morphological-analyzer=[mecab|chasen] 形態素解析器の指定, chasen|mecab から選択
その他のオプションについては, ここをご覧ください.
- リソースファイル
コマンドラインオプションを使う代わりに
パラメータをファイルに記述し, -r オプションで指定することができます.
ここにリソースファイルの例があります.リソースファイルは, 以下の順番で読みこまれます.
- -r で指定されたファイル
- ホームディレクトリの .cabocharc
- 環境変数 CABOCHARC の値
- コンパイル時に決定されるシステムデフォルト
(UNIX: /usr/local/etc/cabocharc, Windows: C:\Program Files\cabocha\etc\cabocharc)
- 部分的に係り関係が与えられた状態からの解析
CaboChaは, 部分的に解析済みのデータから解析を行う事が可能です.
まず, レイヤ2まで解析済みのデータを作成します. この時点では, 係り受け関係は同定されておらず, 係り先はすべて -1, となっ ています. この時, -1 の代わりに 関係が決定できるものに限り, 係り先番号を指定 しておきます. 関係がきまらない場合はそのまま -1 として残しておきます.
以下は, 「次郎が」の係り先を, 直後の「持っている」に指定している 例です. これ以外の文節は, システムが係り先を決定します.
0 -1D 太郎 タロウ 太郎 名詞-固有名詞-人名-名 は ハ は 助詞-係助詞 * 1 2D 次郎 ジロウ 次郎 名詞-固有名詞-人名-名 が ガ が 助詞-格助詞-一般 * 2 -1D 持っ モッ 持つ 動詞-自立 五段・タ行 連用タ接続 て テ て 助詞-接続助詞 いる イル いる 動詞-非自立 一段 基本形
あとは, このデータをレイヤ2の入力として与え, コマンドラインオプション -C を使用し解析を行ないます.
部分的に与えた係り関係の制約の元で最適な係り関係を出力します.% cabocha -I2 -O4 -C < Input
- 文節切りの指定
あらかじめ, 文節切りの位置を指定することができます. また逆に, 絶対に切っ て欲しくない位置をあらかじめ指定することも可能です.
具体的には, まず, レイヤ1 (形態素解析済み)のデータを作成します. この時点では, 文節切りは行なわれていません. もし, ある形態素境界で文節切りを行ないたい場合は, そこに * 1 -1O とい う行を挿入します. 逆に, 絶対に文節切りを行なわい場合は, 境界に * -1 -1Oという行を挿入します.
以下の例は, 「太郎」と「は」の間は, 絶対に文節切りを行なわない, 「は」と 「次郎」 の間は, 必ず文節切りを行なう と解釈されます.
その他の位置では システムが文節切りを行います.太郎 タロウ 太郎 名詞-固有名詞-人名-名 * -1 -1O は ハ は 助詞-係助詞 * 1 -1O 次郎 ジロウ 次郎 名詞-固有名詞-人名-名 が ガ が 助詞-格助詞-一般
あとは, このデータをレイヤ 1 の入力として与え, コマンドラインオプション -C を使用し解析を行ないます.
% cabocha -I1 -O4 -C < Input
CaboCha に関する発表
- Taku Kudo, Yuji Matsumoto (2003)
Fast Methods for Kernel-Based Text Analysis, ACL 2003 in Sapporo, Japan [PDF] [ PPT (slide)] - Taku Kudo, Yuji Matsumoto (2002)
Japanese Dependency Analyisis using Cascaded Chunking, CONLL 2002 in TAIPEI [PDF] [ PPT (slide)] - 工藤 拓, 松本 裕治 (2002)
チャンキングの段階適用による係り受け解析, 情報処理学会 [PDF (draft)] - 工藤 拓, 松本 裕治 (2001)
チャンキングの段階適用による係り受け解析, SIG-NL-142 [PDF] [PDF (OHP)] - 工藤 拓, 松本 裕治 (2000)
Support Vector Machine による日本語係り受け解析 SIG-NL-138 [PDF] - 工藤 拓, 松本 裕治 (2001)
Cascaded Chunking Model における部分解析済み情報の利用 情報処理学会全国大会 2001 [PDF] [ PDF (OHP)] - Taku Kudoh, Yuji Matsumoto (2000)
Japanese Dependency Analysis Based on Support Vector Machines,EMNLP/VLC 2000 [PDF]
TODO
- 冗長解析 (西瓜プロジェクト)
- 並列構造解析 (糸瓜 プロジェクト)
- リアルタイム解析 (苦瓜(ごーや) プロジェクト)
- トップダウン解析との融合
- 文字コードの動的な変更
- Selector の定義を外に出す
- タグ付与ツールの作成
- エラーフィードバックシステムの構築
- 英語の係り受け
- 内部表現の洗練 (XML/DOM の利用)
謝辞
- 株式会社毎日新聞社の御厚意により,毎日新聞記事CD-ROM版に関して, 研究目的での使用承諾をいただきました. ここに感謝いたします.
- 京都大学コーパスを作成し, 無償で公開なさっている
京都大学言語メディア研究室
の皆さまに感謝いたします.
特に, 同コーパス作成の中心的役割を果たしていらっしゃる黒橋禎夫 助教授に感謝いたします. - IREX実行委員会のみなさまに感謝いたします.
- 京大コーパスの JUMAN 体系を IPA 体系に変換するスクリプトを提供していた だいた北村 美穂子氏に感謝いたします.
- IPA 品詞体系における主辞,機能語ルールを作成していただたいた 松本 裕治 教授に感謝いたします. p
- JUMAN 並びに ChaSen の開発者の方々に感謝いたします.
- CaboCha の開発段階において多くのコメントをいただいた松本研究室の皆さまに感謝します.
$Id: index.html,v 1.63 2005/11/26 15:39:36 taku Exp $;
taku@chasen.org