Websoft9 / OpenWise

Contents collection and AI analysis for Open Source software
0 stars 0 forks source link

博客和科技资讯汇聚 #1

Open zhaojing1987 opened 3 months ago

zhaojing1987 commented 3 months ago

功能需求:挖掘汇总Websoft9下所有应用相关的blog,根据时间降序汇聚所有发布的文章在一个页面展示。

大概步骤:

qiaofeng1227 commented 3 months ago
  1. 自动化抓取和清洗工具选型使用开源工具,也能是付费工具
  2. blog里面的图床(带url的image),可能需要转换成websoft9地址
  3. 英文的翻译可在线翻译或提前翻译成文章
qiaofeng1227 commented 3 months ago
zhaojing1987 commented 3 months ago
  1. WordPress Blog 过渡服务器:http://39.99.190.142:9009 用户名:websoft9
  2. 安装插件:Feedzy RSS Feeds 需要升级到 Pro:以便支持有些网站的RSS只显示摘要,不显示全文,约99美元/年
  3. 从 应用 官网查找 blog 子页,通过浏览器(Chrome)插件:Erinome RSS Detector 来检索当前网站blog是否支持rss 例:找到应用 gitlab 的blog页:https://about.gitlab.com/blog/ ,然后点击插件查看,是否支持RSS,并复制RSS地址: image
  4. 导入文章后图片没有显示,是因为图片是以HTML的字符导入的,需要在Wordpress的配置文件wp-config.php中加入代码:
    define( 'FEEDZY_ALLOW_UNSAFE_HTML', true );

    并重新WordPress容器

  5. 在Feedzy 插件,进行相关 设置
  6. 使用主题显示文章(默认主题图片显示过大,影响美观)
zhaojing1987 commented 3 months ago

应用blog数据汇聚的RSS方案

有三类数据:有RSS源,并返回blog详细数据、有RSS源,只返回blog简介和链接、官方有Blog,无Rss订阅源

blog汇集方案:

该方案完全免费,但是需要在Huginn里面按照上述步骤,配置剩余50来个应用的blog获取(步骤简单,但是需人为手动配置)。

经过调查针对网站blog转RSS源的应用或插件不多,而且只能将blog列表页的数据转换为RSS源,不能循环或自动获取blog详情页的数据。Feedzy RSS Feeds插件的Pro版,经过与官方沟通,也不能抓取RSS源中只返回简介和链接的数据,所以放弃使用。

zhaojing1987 commented 3 months ago

对于多语言翻译问题 1、主流的翻译插件大部分基于Google 或者DeepL的API ,由于网络原因,国内使用会有问题 2、对于没有网路问题的翻译插件,免费额度有限,费用较贵,例如 :Weglot Translate 免费版每月2000个单词自动翻译,15欧/月的版本,每月也只有10000单词翻译量。还有一些商用的插件,没有提供试用功能,无法获知具体情况,但是基本是按照单词数来进行控制。

zhaojing1987 commented 3 months ago

linguise 插件国内网络可使用,价格: $15/月 20万字/月 ;$25/月 60万字/月;$45/月 无限制

chendelin1982 commented 3 months ago

自建代理bing翻译的网关?

chendelin1982 commented 3 months ago

linguise 插件国内网络可使用,价格: $15/月 20万字/月 ;$25/月 60万字/月;$45/月 无限制

每篇文章2000字,20万只有 100 篇文章

zhaojing1987 commented 3 months ago

自建代理bing翻译的网关? 最终还是要使用翻译API,核心问题是怎么在WordPress的页面调用API,这就是技术问题了,Wordpress的插件里面,没有调用微软翻译的插件,要不就是自定义个插件,要不就是在主题代码里编程实现调用API了,这都涉及到比较麻烦的开发了

zhaojing1987 commented 2 months ago

加入原文链接的方法,需要修改源代码,根据不同主题修改不一样,以下是使用 OceanWP 主题,在源文件: partials/single/meta.php 内增加代码,其中feedzy_item_url是Rss插件Feedzy提供的原文地址:

<?php
        // 获取自定义字段 'feedzy_item_url' 的值
        $feed_url = get_post_meta( get_the_ID(), 'feedzy_item_url', true );

        // 如果 'feedzy_item_url' 自定义字段存在,则显示原文链接
        if ( ! empty( $feed_url ) ) {
            echo '<li class="meta-item-url" style="margin-top: 10px; display: block; width: 100%;"><span><i class="fas fa-share"></i>Form:<a href="' . esc_url( $feed_url ) . '" target="_blank" style="text-decoration: underline;">' . esc_html( $feed_url ) . '</a></span></li>';
        }
    ?>
zhaojing1987 commented 2 months ago

翻译使用GTranslate 插件,$9.9/月 无限翻译,翻译结果在插件服务端会进行缓存,插件有后端面板: https://my.gtranslate.io/zh-CN/ 账号密码在help邮箱,通过查找邮件主题:Bilingual GTranslate Startup for blog.websoft9.com