CAFECA-IO / KnowledgeManagement

Creating, Sharing, Using and Managing the knowledge and information of CAFECA
https://mermer.com.tw/knowledge-management
MIT License
0 stars 1 forks source link

(小範圍實驗) 任務 2: 資料來源快速分析 #171

Closed TzuHanLiang closed 3 weeks ago

TzuHanLiang commented 3 weeks ago

實作目標:

分析立法院網站結構,確定最重要的資料位置和格式及影片數據的位置和下載鏈接的格式。

方法:

瀏覽立法院網站,確認所需的資料來源和結構並找到會議影片的頁面。 使用瀏覽器開發者工具(如 Chrome DevTools)查看影片的 HTML 結構和下載鏈接。

驗證:

撰寫文檔,詳細記錄需要爬取的資料位置和結構及影片頁面和下載鏈接的結構,確保理解數據來源的格式。

TzuHanLiang commented 3 weeks ago

分析和記錄

瀏覽立法院網站之後,決定以爬取分析本週會議裡面的經濟委員會的會議相關資料為範例

1. 資料位置和結構

  1. 立法院網站首頁

    • URL: https://www.ly.gov.tw/
    • 提供導向至各種相關頁面的鏈接,如最新實況、會議預報、會議隨選等。
  2. 本週會議頁面

  3. 會議影片頁面結構

    • 每個會議項目包含在 <li> 標籤內,具體結構如下:
      <li>
       <div class="date_div">
           <div class="room" data-name="經濟委員會">經濟委員會</div>
           <div class="label">召委 : 楊瓊瓔</div>
           <div class="room">時間 : 09:00~17:30</div>
           <div class="label">地點 : 紅樓101會議室</div>
           <div class="heading">
               立法院第11屆第1會期經濟委員會第16次全體委員會議
               <a href="http://ivod.ly.gov.tw/Demand/Meetvod?Meet=00956258070113650742" title="立法院第11屆第1會期經濟委員會第16次全體委員會議">
                   <i class="fa fa-video-camera" aria-hidden="true"></i>
               </a>
           </div>
           <div class="con_data">
               <b class="seemomre"><i class="fa fa-chevron-circle-down" aria-hidden="true"></i></b>
               <div>
                   邀請國家發展委員會主任委員、經濟部部長、國家科學及技術委員會首長、數位發展部首長、教育部首長就「為掌握生成式AI等關鍵技術帶來的產業革命機會,台灣要如何深化AI生態系及充實AI人才與產業AI化,促動台灣產業數位轉型與運用AI賦能升級,擴展產業發展,打造智慧未來」進行報告,並備質詢。【6月12日及6月13日兩天一次會】
               </div>
           </div>
       </div>
      </li>
  4. 影片下載鏈接結構

    • 會議影片的下載鏈接存放在 <a href="..." title="窄頻"> 標籤中,具體結構如下:
      <a href="/Play/Full/300K/00956258070113650742" title="窄頻">窄頻</a>
    • 需要提取包含 "full" 的鏈接。
  5. 委員發言片段結構

    • 存放在 <div class="clip-list"> 內的 <li> 標籤中,具體結構如下:
      <div class="clip-list">
       <ul id="clipUl">
           <li>
               <div class="clip-list-thumbnail">
                   <div class="thumbnail-img"><img src="/Image/Pic/photo_20240612124634_19123.jpg" alt="第11屆 第1會期 主辦單位:經濟委員會"></div>     
                   <div class="thumbnail-btn">
                       <p><i class="icon-20-play"></i>
                           播放影片(
                           <a href="/Play/Clip/1M/153888" title="寬頻">寬頻</a>
                           <a href="/Play/Clip/300K/153888" title="窄頻">窄頻</a>)
                       </p>
                   </div>
               </div>    
               <div class="clip-list-text">
                   <h5>第11屆 第1會期 主辦單位:經濟委員會</h5>     
                   <p>委員:葛如鈞</p>     
                   <p>委員發言時間:12:44:08 - 12:51:22</p>     
                   <p>影片長度:00:07:14</p>     
                   <p>會議時間:2024-06-12 09:00</p>     
                   <p>會議名稱:<br>
                       <span class="metdec" style="cursor: pointer;">
                           立法院第11屆第1會期經濟委員會第16次全體委員會議(事由:邀請國家發展委員會主任委員、經濟部部長、國家科學及技術委員會首長、數位發展部首長、教育部首長就「為掌握生成式AI等關鍵技術帶來的產業革命機會,台灣要如何深化AI生態系及充實AI人才與產業AI化,促動台灣產業數位轉型與運用AI賦能升級,擴展產業發展,打造智慧未來」進行報告,並備質詢。【6月12日及6月13日兩天一次會】)
                       </span>
                   </p>     
                   <p class="clip-list-link">
                       <a href="https://ppg.ly.gov.tw/ppg/sittings/2024060598/details?meetingDate=113%2F06%2F12" title="會議相關資料" target="_blank"><i class="icon-16-link"></i>會議相關資料</a>
                   </p>
               </div>             
           </li>
       </ul>
      </div>
TzuHanLiang commented 3 weeks ago

took 1hrs done