技術補足:ドメイン固有シソーラス
JODAのリスク抽出エンジンにおいて、非構造化テキスト(事後評価報告書)を定量的なリスク指標に変換するための基盤となるのが「ドメイン固有シソーラス」です。 これは、国際協力・インフラ開発プロジェクト特有の言語表現や専門用語を、コンピュータが正しく認識・分類できるように整理した独自の辞書型データベースです。
📑 辞書構成と定義カテゴリ
現在は、プロジェクトの持続可能性や有効性に影響を与える主要な6つのリスク軸を中心に、数百のバリエーションを持つキーワードを収録しています。
1. 土地収用・住民移転
用地買収の遅延や、住民移転に伴う社会的コンフリクトを特定します。
キーワード例: 用地取得遅延、住民移転、用地買収、Expropriation, Resettlement2. 予算管理・財源
現地政府の財政能力や、維持管理費の確保の難しさを特定します。
キーワード例: 資金難、予算不足、財源不足、Counterpart Fund, Financial Sustainability3. スケジュール・執行
工期の延長や工事の中断をもたらす実行段階のボトルネックを特定します。
キーワード例: 工期延長、遅延、長期化、Implementation Delay4. ガバナンス・制度
行政手続きの不備や、実施体制の脆弱性、制度的な問題を特定します。
キーワード例: 許認可、行政手続き、Institutional Setup, Regulatory Framework5. 維持管理・技術
完成後の施設・設備の運用体制やスペアパーツの確保状況を特定します。
キーワード例: メンテナンス、予備部品、Operation and Maintenance6. 外部要因
自然災害や為替変動、紛争など、直接的な管理外のリスクを特定します。
キーワード例: 自然災害、天候不良、為替変動、Exchange Rate Fluctuation🔧 NLPによる分析ロジック
テキストマッチングから「リスク密度」の算出
単に単語を数えるだけでなく、各報告書(平均3,000〜5,000文字)に対する特定のキーワードパターンの出現頻度を正規化(TF: Term Frequency)しています。これにより、「一言言及されただけなのか」それとも「報告書の主要な論点になっているのか」を判別し、リスクスコア $f_{risk}$ を算出しています。
🚀 今後の進化:AI(BERT/LLM)への統合
現在はキーワードマッチングを主軸としていますが、今後はBERT等の深層学習モデルを用いた「意味解析」へと本シソーラスを統合していきます。これにより、「予算が足りない」と「予算の範囲内で収まった」といった、否定・肯定の文脈をより高精度に見極めることが可能になります。