junichi-fukushima / tech-flow

2024年小山PBL後期にて開発する技術キュレーションサービスです
0 stars 0 forks source link

[開発]レコメンドエンジンを、実際に想定される記事データで動かしてみる(ダミーデータ作成 + ローカルで動かす) #25

Open y-tsubuku opened 1 day ago

y-tsubuku commented 1 day ago

概要

詳細

完了要件

リンク

ワイヤー・参考資料などのリンクを記載しておく

y-tsubuku commented 17 hours ago

一つのアイテム from: https://engineering.mercari.com/blog/feed.xml

{
  "event": "item",
  "fields": [
    {
      "name": "title",
      "value": "Elasticsearchのshard数の増加により発生するオーバーヘッドの正体"
    },
    {
      "name": "source_url",
      "value": "https://engineering.mercari.com/blog/feed.xml"
    },
    {
      "name": "article_url",
      "value": "https://engineering.mercari.com/blog/entry/20241010-97cca785fa/"
    },
    {
      "name": "author",
      "value": "mrkm4ntr"
    },
    {
      "name": "published_at",
      "value": 1728538154
    },
    {
      "name": "tags",
      "value": [
        "Elasticsearch",
        "Lucene",
        "search"
      ]
    },
    {
      "name": "hatena_bookmark_count",
      "value": 10
    },
    {
      "name": "tweeted_count",
      "value": 20
    },
    {
      "name": "pocket_count",
      "value": 101
    },
    {
      "name": "description",
      "value": "Mercari Search Infra Teamのmrkm4ntrです。\n                    Elasticsearchは1ノードに載り切らない量のデータも複数のshardに分割し、複数のノードに載せることで検索が可能になります。shar"
    }
  ],
  "id": "bab63205-eb91-4f5e-aa49-25a75b6b0385",
  "item": "3",
  "timestamp": "1636907100000"
}

各フィールドの抽出元:

title: item.title
description: item.content:encoded
source_url: rssのURL
article_url: item.link or item.guid[isPermaLink="true"]
author: RSSに存在しないため、独自で取得するなどの工夫が必要。 or この項目を削除する。
published_at: item.pubDateをunixtime(秒)に変換したもの
tags: RSSに存在しないため、独自で取得するもしくは類推するなどの工夫が必要
hatena_bookmark_count: はてなブックマーク数
tweeted_count: ツイート数
pocket_count: ポケット数
y-tsubuku commented 17 hours ago

下記に記事のinput仕様をまとめた https://docs.google.com/spreadsheets/d/155nc4Wu7NXVLMKXLMqCQahpgcdRng_H_izJ9Dbss0iw/edit?gid=338784151#gid=338784151&range=A1:D12