(分析) 鄉民玩 AI：EP1 立法院十大好球

TzuHanLiang commented 3 months ago

附註: KM #153 目標調整

鄉民玩 AI：EP1 立法院十大好球系統概述

這套系統利用人工智慧技術篩選和展示台灣立法院每日最重要的十個議題，旨在讓公眾輕鬆掌握立法院的運作情況，提供簡潔且易於理解的重點資訊。使用者可以快速了解立法院內最值得關注的議題，增加公眾對立法過程的興趣與參與，提升政治透明度，並促進民主監督。

系統背景

台灣立法院提供了豐富的公開資料，包括：

會議錄影
立法委員的簡介
各項議案的詳細狀態
預算和決算報告
各類委員會的工作情況

這些資料雖然全面，但由於其龐大的資料量，公眾很難即時、客觀、準確地獲取和理解所有資訊。為了有效處理這些資料，AI 技術的應用成為必要。AI 可以自動篩選並分析大量資料，確保資訊的即時性和準確性，並提供客觀的分析結果，幫助公眾快速掌握重要資訊。

系統運作

這套系統分為五大部分：

議案分錄爬蟲系統 SmartLegiCrawler
影片逐字稿系統
生成式議事摘要系統 GenAI ProceedingsSummarizer
智慧量化決策系統 SmartQuantDecider
生成立法院十大好球報告

1. 議案分錄爬蟲系統 SmartLegiCrawler

負責爬取立法院的各項議案、會議記錄和相關資料，確保數據的即時更新。透過自動化技術，該系統能夠高效地蒐集大量數據，為後續的分析提供基礎。

2. 影片逐字稿系統

對立法院會議錄影進行逐字稿轉換，將音頻數據轉換為文字，確保每一個發言都能被精確記錄。這部分系統運用語音識別技術，提高轉錄的準確性和效率。

3. 生成式議事摘要系統 GenAI ProceedingsSummarizer

利用生成式AI技術，對逐字稿進行摘要，提取出關鍵內容。該系統根據語義分析和自然語言處理技術，自動生成簡潔且富有信息量的摘要，幫助公眾快速了解議事重點。

4. 智慧量化決策系統 SmartQuantDecider

對議案進行量化評價，根據多項指標（如議案的重要性、影響範圍、相關議員的發言情況等）進行評分。該系統運用數據分析和機器學習技術，對每個議案進行客觀評估，確保分析結果的準確性和可靠性。

5. 生成立法院十大好球報告

綜合前述系統生成的數據和分析結果，該系統每日自動生成立法院十大好球報告，向公眾展示最值得關注的十個議題。報告內容簡潔明了，富有洞見，幫助使用者快速掌握立法院的重要議題。

系統優勢

即時性：系統自動更新資料，確保資訊的即時性。
準確性：AI 技術確保資料篩選和分析的準確性。
透明性：提供透明、客觀的資訊，提升公眾對立法過程的了解。
易於理解：生成的報告簡潔明了，易於公眾理解和接受。

這套系統的應用，將有助於提升台灣立法院運作的透明度，促進公眾參與和民主監督。

此 issue 目標

[x] 分析這個項目細分成幾個小任務
[x] 先驗證各個系統的可行性，會拆成不同的 issue 來嘗試，並在此記錄相關的票

TzuHanLiang commented 3 months ago

整體任務總覽（264pt）

1. 議案分錄爬蟲系統 SmartLegiCrawler

48小時（包含6個細分任務，每個8小時）
1. 環境設置
設置開發環境，安裝必要的爬蟲工具和庫（如 Scrapy、BeautifulSoup）

資料來源分析
- 分析立法院網站的結構，確定要抓取的資料位置和格式
爬蟲基本結構搭建
- 實現基本的爬蟲架構，能夠訪問立法院的網站並獲取頁面內容
爬取議案列表
- 開發爬取議案列表的功能，並保存到本地文件或數據庫中
詳細議案資料抓取
- 開發爬取每個議案詳細資料的功能，包括議案內容、狀態等
數據清洗與處理
- 實現對爬取數據的清洗和格式化，確保數據一致性和完整性

2. 影片逐字稿系統

48小時（包含6個細分任務，每個8小時）
1. 影片數據來源分析
分析立法院提供的影片數據，確定獲取影片的方法和格式

影片下載功能
- 開發下載立法院會議影片的功能
音頻轉換
- 開發將影片轉換為音頻的功能，便於後續逐字稿生成
逐字稿生成工具選擇
- 選擇適當的逐字稿生成工具（如 Google Speech-to-Text 或 IBM Watson）
逐字稿生成
- 開發生成影片逐字稿的功能，並保存逐字稿文本
逐字稿校正與格式化
- 開發逐字稿的自動校正和格式化功能，確保逐字稿的準確性和可讀性

3. 生成式議事摘要系統 GenAI ProceedingsSummarizer

48小時（包含6個細分任務，每個8小時）
1. 自然語言處理工具選擇
選擇合適的自然語言處理工具和模型（如 GPT-3、BERT）

摘要生成模型訓練
- 訓練模型以生成會議摘要，使用已有的會議逐字稿和摘要數據
摘要生成接口開發
- 開發接口以便調用模型生成摘要
摘要生成測試
- 測試摘要生成效果，確保模型生成的摘要準確且有意義
摘要優化
- 根據測試結果，調整和優化摘要生成模型和流程
生成摘要展示
- 開發摘要展示功能，讓用戶可以方便地查看生成的議事摘要

4. 智慧量化決策系統 SmartQuantDecider

48小時（包含6個細分任務，每個8小時）
1. 指標選擇與定義
定義用於量化議案的重要指標（如重要性、影響範圍等）

評分算法開發
- 開發評分算法，基於選定指標對議案進行評分
數據整合
- 將爬取到的議案數據、影片逐字稿數據與評分算法進行整合
決策模型訓練
- 訓練決策模型，根據評分結果選出最重要的議案
決策結果展示
- 開發決策結果的展示功能，讓用戶可以看到最值得關注的議案
系統整合與測試
- 將各部分系統整合，進行全面測試，確保整個系統運行順暢

5. 生成立法院十大好球報告

72小時（包含9個細分任務，每個8小時
1. 報告模板設計
  - 設計報告的基本模板，包括封面、目錄、每個議案的詳細內容和總結頁面

數據整理與篩選
- 整理並篩選出最重要的十個議案，根據 SmartQuantDecider 的評分結果
報告內容自動生成
- 開發生成報告內容的腳本，包括插入議案的詳細資料和摘要
報告格式化
- 開發格式化功能，確保報告的排版整齊、美觀
圖表生成
- 根據數據生成圖表，如議案影響範圍圖、討論熱度圖等，增強報告的可視化效果
報告輸出功能
- 開發報告的輸出功能，支持多種格式（如 PDF、Word）
報告審核與校對
- 實施報告的自動審核和校對功能，確保報告內容的準確性和完整性
報告發布系統
- 開發報告發布功能，包括將報告上傳到網站或發送到指定郵箱
用戶反饋機制
- 開發用戶反饋機制，收集用戶對報告的意見和建議，以便改進報告質量

TzuHanLiang commented 3 months ago

驗證可行性的小範圍實作任務 (46pt)

1. 資料來源與篩選

170
- 設置開發環境，安裝必要的工具和庫（如 Scrapy、BeautifulSoup）
- 預計時間：1小時
171
- 分析立法院網站的結構，確定最重要的資料位置和格式
- 預計時間：1小時

2. 爬取議案資料

172
- 實現基本的爬蟲，快速抓取最新的議案列表、影片下載鏈接
- 預計時間：2小時
173
- 實現爬取每個議案的詳細資料，包括標題、內容、狀態
- 預計時間：5小時

3. 生成逐字稿

174
- 將影片轉換為音頻文件
- 預計時間：5小時
175
- 使用現成的工具（如 Google Speech-to-Text）生成音頻的逐字稿
- 預計時間：5小時

4. 簡易摘要生成

176
- 選擇適當的自然語言處理工具和模型（如 llama）
- 預計時間：2小時
177
- 使用選定工具對逐字稿生成簡單摘要
- 預計時間：5小時

5. 簡易量化評分

178
- 定義簡單的量化指標，如重要性和討論熱度
- 預計時間：3小時
179
- 實現簡單的評分算法，對議案進行評分
- 預計時間：5小時

6. 報告生成

180
- 設計簡單的報告模板
- 預計時間：5小時
181
- 自動生成報告內容，插入議案資料和摘要
- 預計時間：5小時
182
- 格式化報告並輸出為 PDF 文件
- 預計時間：2小時

總結

這些任務總共需要46小時，並分成13個小任務。

TzuHanLiang commented 3 months ago

took 2.5hr done

CAFECA-IO / KnowledgeManagement