CAFECA-IO / KnowledgeManagement

Creating, Sharing, Using and Managing the knowledge and information of CAFECA
https://mermer.com.tw/knowledge-management
MIT License
0 stars 1 forks source link

(分析) 鄉民玩 AI:EP1 立法院十大好球 #169

Closed TzuHanLiang closed 3 months ago

TzuHanLiang commented 3 months ago

附註: KM #153 目標調整

鄉民玩 AI:EP1 立法院十大好球系統概述

這套系統利用人工智慧技術篩選和展示台灣立法院每日最重要的十個議題,旨在讓公眾輕鬆掌握立法院的運作情況,提供簡潔且易於理解的重點資訊。使用者可以快速了解立法院內最值得關注的議題,增加公眾對立法過程的興趣與參與,提升政治透明度,並促進民主監督。

系統背景

台灣立法院提供了豐富的公開資料,包括:

這些資料雖然全面,但由於其龐大的資料量,公眾很難即時、客觀、準確地獲取和理解所有資訊。為了有效處理這些資料,AI 技術的應用成為必要。AI 可以自動篩選並分析大量資料,確保資訊的即時性和準確性,並提供客觀的分析結果,幫助公眾快速掌握重要資訊。

系統運作

這套系統分為五大部分:

  1. 議案分錄爬蟲系統 SmartLegiCrawler
  2. 影片逐字稿系統
  3. 生成式議事摘要系統 GenAI ProceedingsSummarizer
  4. 智慧量化決策系統 SmartQuantDecider
  5. 生成立法院十大好球報告

1. 議案分錄爬蟲系統 SmartLegiCrawler

負責爬取立法院的各項議案、會議記錄和相關資料,確保數據的即時更新。透過自動化技術,該系統能夠高效地蒐集大量數據,為後續的分析提供基礎。

2. 影片逐字稿系統

對立法院會議錄影進行逐字稿轉換,將音頻數據轉換為文字,確保每一個發言都能被精確記錄。這部分系統運用語音識別技術,提高轉錄的準確性和效率。

3. 生成式議事摘要系統 GenAI ProceedingsSummarizer

利用生成式AI技術,對逐字稿進行摘要,提取出關鍵內容。該系統根據語義分析和自然語言處理技術,自動生成簡潔且富有信息量的摘要,幫助公眾快速了解議事重點。

4. 智慧量化決策系統 SmartQuantDecider

對議案進行量化評價,根據多項指標(如議案的重要性、影響範圍、相關議員的發言情況等)進行評分。該系統運用數據分析和機器學習技術,對每個議案進行客觀評估,確保分析結果的準確性和可靠性。

5. 生成立法院十大好球報告

綜合前述系統生成的數據和分析結果,該系統每日自動生成立法院十大好球報告,向公眾展示最值得關注的十個議題。報告內容簡潔明了,富有洞見,幫助使用者快速掌握立法院的重要議題。

系統優勢

  1. 即時性:系統自動更新資料,確保資訊的即時性。
  2. 準確性:AI 技術確保資料篩選和分析的準確性。
  3. 透明性:提供透明、客觀的資訊,提升公眾對立法過程的了解。
  4. 易於理解:生成的報告簡潔明了,易於公眾理解和接受。

這套系統的應用,將有助於提升台灣立法院運作的透明度,促進公眾參與和民主監督。

此 issue 目標

TzuHanLiang commented 3 months ago

整體任務總覽(264pt)

1. 議案分錄爬蟲系統 SmartLegiCrawler

  1. 資料來源分析

    • 分析立法院網站的結構,確定要抓取的資料位置和格式
  2. 爬蟲基本結構搭建

    • 實現基本的爬蟲架構,能夠訪問立法院的網站並獲取頁面內容
  3. 爬取議案列表

    • 開發爬取議案列表的功能,並保存到本地文件或數據庫中
  4. 詳細議案資料抓取

    • 開發爬取每個議案詳細資料的功能,包括議案內容、狀態等
  5. 數據清洗與處理

    • 實現對爬取數據的清洗和格式化,確保數據一致性和完整性

2. 影片逐字稿系統

  1. 影片下載功能

    • 開發下載立法院會議影片的功能
  2. 音頻轉換

    • 開發將影片轉換為音頻的功能,便於後續逐字稿生成
  3. 逐字稿生成工具選擇

    • 選擇適當的逐字稿生成工具(如 Google Speech-to-Text 或 IBM Watson)
  4. 逐字稿生成

    • 開發生成影片逐字稿的功能,並保存逐字稿文本
  5. 逐字稿校正與格式化

    • 開發逐字稿的自動校正和格式化功能,確保逐字稿的準確性和可讀性

3. 生成式議事摘要系統 GenAI ProceedingsSummarizer

  1. 摘要生成模型訓練

    • 訓練模型以生成會議摘要,使用已有的會議逐字稿和摘要數據
  2. 摘要生成接口開發

    • 開發接口以便調用模型生成摘要
  3. 摘要生成測試

    • 測試摘要生成效果,確保模型生成的摘要準確且有意義
  4. 摘要優化

    • 根據測試結果,調整和優化摘要生成模型和流程
  5. 生成摘要展示

    • 開發摘要展示功能,讓用戶可以方便地查看生成的議事摘要

4. 智慧量化決策系統 SmartQuantDecider

  1. 評分算法開發

    • 開發評分算法,基於選定指標對議案進行評分
  2. 數據整合

    • 將爬取到的議案數據、影片逐字稿數據與評分算法進行整合
  3. 決策模型訓練

    • 訓練決策模型,根據評分結果選出最重要的議案
  4. 決策結果展示

    • 開發決策結果的展示功能,讓用戶可以看到最值得關注的議案
  5. 系統整合與測試

    • 將各部分系統整合,進行全面測試,確保整個系統運行順暢

5. 生成立法院十大好球報告

  1. 數據整理與篩選

    • 整理並篩選出最重要的十個議案,根據 SmartQuantDecider 的評分結果
  2. 報告內容自動生成

    • 開發生成報告內容的腳本,包括插入議案的詳細資料和摘要
  3. 報告格式化

    • 開發格式化功能,確保報告的排版整齊、美觀
  4. 圖表生成

    • 根據數據生成圖表,如議案影響範圍圖、討論熱度圖等,增強報告的可視化效果
  5. 報告輸出功能

    • 開發報告的輸出功能,支持多種格式(如 PDF、Word)
  6. 報告審核與校對

    • 實施報告的自動審核和校對功能,確保報告內容的準確性和完整性
  7. 報告發布系統

    • 開發報告發布功能,包括將報告上傳到網站或發送到指定郵箱
  8. 用戶反饋機制

    • 開發用戶反饋機制,收集用戶對報告的意見和建議,以便改進報告質量
TzuHanLiang commented 3 months ago

驗證可行性的小範圍實作任務 (46pt)

1. 資料來源與篩選

2. 爬取議案資料

3. 生成逐字稿

4. 簡易摘要生成

5. 簡易量化評分

6. 報告生成

總結

這些任務總共需要46小時,並分成13個小任務。

TzuHanLiang commented 3 months ago

took 2.5hr done