NPCMJとは

世界の主要な言語において、統語解析情報付きコーパス (ツリーバンク) の整備が進められ、こうしたコーパスを利用した研究が言語学・言語処理の分野で目覚ましい成果を上げています。日本語については、2016年より、国立国語研究所の共同研究プロジェクト『統語・意味解析コーパスの開発と言語研究』がスタートし、現在、NPCMJ(NINJAL Parsed Corpus of Modern Japanese)の構築が進められています。このコーパスは、現代日本語の書き言葉と話し言葉のテクストに対し文の統語・意味解析情報を付与し、多様な日本語の機能語や句構造、節の諸類型および複雑な構文を大量の言語データから検索・抽出して研究に活用できることを目的としています。2020年1月現在、約4万文(4万ツリー)を公開しています。あわせて、多様な検索ができる以下のNPCMJ向けツールを提供しています。ぜひお試しください。 

出典 ツリー数 語数
青空文庫(aozora) 9,561 175,791
聖書(bible) 1,664 26,119
書籍(book) 553 10,992
辞書(dict) 5,362 40,309
国会会議録(diet) 1,698 32,446
フィクション(fiction) 923 10,049
法律文(law) 337 6,954
その他(misc) 2,389 25,675
ニュース(news) 4,777 73,565
ノンフィクション(nonfiction) 223 3,966
会話(spoken) 2,382 12,578
テッドトーク(ted) 1,453 21,366
教科書(textbook) 6,953 63,974
ウィキペディア(wikipedia) 2,556 56,314
合計 40,831 560,098

NPCMJツール

NPCMJ Explorer初中級者向け
益岡隆志・田窪行則著『基礎日本語文法―改訂版―』(くろしお出版)の各文法項目に該当する用例を調べることができるパターンブラウズと、ユーザが入力した文字列を含む用例を検索することができる文字列検索の機能が統合されたツールです。
NPCMJ Explorer を開く
NPCMJ Search中上級者向け
タグ・ブラウザー語の依存関係文字列検索ツリー検索とテキスト解析クエリ作成の5つのツールから構成されるインターフェースです。収録テキストの書誌情報や全文にアクセスすることもできます。
NPCMJ Search を開く
NPCMJ Search ユーザガイド
NPCMJ アノテーションマニュアル(第1〜13節;14節以降は準備中)

NPCMJ一括ダウンロード

Bracketed Treeファイル形式
NPCMJの全ファイル(Bracketed Treeファイル)をzip形式で圧縮したファイルです。
Bracketed Treeファイルをダウンロードする

NPCMJドキュメンテーション

準備中