目次
編集にあたって
第Ⅰ部 文章の統計分析とは 金明哲・村上征勝
1 文章の統計分析と著者推定
1.1 計量的文体論
1.2 著者の推定
2 文章の特徴抽出
2.1 単語の長さ
2.2 文の長さ
2.3 品詞の分布
2.4 識別語と機能語
2.5 異なり語と出現頻度
2.6 n-gramの分布
2.7 日本語固有の特徴情報
2.8 その他の特徴情報
3 統計分析方法
3.1 基本統計量
3.2 語彙に関する特性値
3.3 推測統計と多変量データ解析
3.4 近年の動向
4 日本語の文章の統計分析
4.1 日蓮遺文の真贋判定
4.2 『源氏物語』の計量分析
5 展望と文献案内
参考文献
第Ⅱ部 確率モデルによる自然言語処理 永田昌明
1 人工知能的アプローチから確率・統計的アプローチへ
2 形態素解析
2.1 形態素解析とは何か?
2.2 形態素解析のむずかしさ
2.3 統計的言語モデルによる形態素解析
2.4 動的計画法を用いた最適単語列探索アルゴリズム
2.5 今後の課題
3 固有表現抽出
3.1 固有表現抽出とは何か?
3.2 固有表現抽出のむずかしさ
3.3 隠れマルコフモデルによる固有表現抽出
3.4 最大エントロピーモデルによる固有表現抽出
3.5 今後の課題
4 テキスト分類
4.1 テキスト分類とは何か?
4.2 テキスト分類の数学的定義
4.3 代表的なテキスト分類アルゴリズム
4.4 ベクトル空間モデルと最近隣法
4.5 ナイーブベイズ
4.6 ブースティング
4.7 サポートベクトルマシン
4.8 今後の課題
5 統計的機械翻訳
5.1 雑音のある通信路のモデル
5.2 2言語対応付け
5.3 IBM翻訳モデル
5.4 スタックデコーダ
5.5 今後の課題
参考文献
第Ⅲ部 社会調査データからの推論:実践的入門 大津起夫
1 調査データから何が推論できるか?
2 NSLY79と"The Bell Curve"論争
3 主成分分析と特異値分解
4 対応分析
5 連関モデル
6 多重対応分析
7 尺度最適化を伴う主成分分析
8 おわりに
参考文献
第Ⅳ部 データとテキストのマイニング 山西健司
1 データマイニングとは
1.1 CRMとマイニング
1.2 マイニング技術の要件
1.3 マイニング分野の全体図
2 バスケット分析
3 分類ルールの学習
3.1 教師あり学習
3.2 決定木の学習
3.3 選択的サンプリングを用いた集団能動学習
4 嗜好学習とリコメンデーション
4.1 協調フィルタリング(1)――相関係数法
4.2 協調フィルタリング(2)――逐次的2項関係学習法
4.3 コンテンツベースフィルタリング
5 外れ値検出と不正検出
5.1 統計的外れ値検出
5.2 外れ値検出エンジンSmartSifter
5.3 SDLEアルゴリズムとSDEMアルゴリズム
5.4 実験結果
6 データマイニングその他の話題
7 テキスト分類と自由記述アンケート分析
7.1 テキスト分類
7.2 自由記述アンケート分析
7.3 トピック分析
8 Webマイニング
9 おわりに
付録
A.1 確率的コンプレキシティ
A.2 拡張型確率的コンプレキシティ
参考文献
索引