JAECS東支部課題別シンポ「文を超えたコーパス研究」吉川担当分資料

発表資料

発話の解析結果 (全データ; zipファイル)

データ

概要

  • データはタブ区切り形式のテキストです。
  • 次のような構造をしています:
    id | ファイルid | ファイル中の発話id | 発話形式 | 発話長 | 構成するパターンの数 | 構成パターン一覧 | 生産性の合計

簡易検索ツール

  • 簡易の発話検索ツール (Python スクリプト; コマンドラインツール) を用意しました: easy pattern explorer
  • 上記zipファイルをダウンロードし解凍したフォルダ上にコピーしお使い下さい
  • 利用方法: 引数なしで起動するとヘルプが見られます。
  • 条件に合致する発話の
    1) ファイルid, 2) 発話のid, 3) 発話長, 4) 構成パターン数, 5) パターン一覧, 6) 生産性の合計
    をタブ区切りで吐き出します
  • 利用にはPython (Ver. 2.6以上) が必要です。

発話の解析結果 (生起ファイル数の多かった発話形式のみ)

データ

概要

  • データはタブ区切り形式のテキストです。
  • 次のような構造をしています:
    発話id | 発話の登場順位 | ファイルid | 発話形式 | 構成するパターン数 | 構成パターン一覧 | 生産性の合計