微調整カスタマイズ化検討

chai222222 commented 4 months ago

jangetterの標準機能で、各サイトの jan, title、-g オプションでイメージを取得する情報などは各サイト用クラスにハードコーディングされているが、外だししてカスタマイズしてもらうようにするための検討用 issue。

そのため、商品ページからのデータ取得定義などがどのように定義されているかを簡単にわかってもらえるように説明してみる。

現設定部の仕様

各サイト単位のクラスファイルがあるが、設定情報は定数で以下のようになっている。

const MYOJO_CONSTANTS = {
  searchConfig: {
    prefix: 'Myojo',
    top: 'https://www.myojofoods.co.jp/search/',
    lastSupportedDate: '2022/06/02: 19:00:00',
    searchPageSelectors: {
      productsLink: 'div.ns-c-items__item > a',
      onlyCurrentPage: true,
      nextLink: 'section.ns-p-search__results__products a.ns-c-a_button__more',
      searchText: 'header.ns-p-search__header input[name="q"]',
      searchButton: 'button[type="submit"]',
    },
    productPageSelectors: {
      jan: '//dt[contains(text(), "JANコード")]/../dd',
      title: 'h1.ns-headline_01',
      allergy: {
        selector: 'ul.ns-c-list_allergens--item li.active a',
      },
    },
    productPageImages: {
      suffix: '.jpeg',
    },
    productPageImageSelectors: {
      picture: 'section.ns-p-item__main img',
    },
    replacer: {
      title: [
        REPLACERS.trim,
      ],
    },
  },
};

この中で、各商品ページのための情報を抜いて説明する。

明星

    productPageSelectors: {
      jan: '//dt[contains(text(), "JANコード")]/../dd',
      title: 'h1.ns-headline_01',
      allergy: {
        selector: 'ul.ns-c-list_allergens--item li.active a',
      },
    },
    productPageImages: {
      suffix: '.jpeg',
    },
    productPageImageSelectors: {
      picture: 'section.ns-p-item__main img',
    },

Coop

    productPageSelectors: {
      // jan: '#basicInfo tbody > tr:nth-child(2) td img',
      jan: 'url',
      // category: '#basicInfo tbody > tr:first-child td',
      title: 'title',
      name: '//span[contains(text(), "名称")]/../../td',
      allergy: {
        selector: '//th[contains(text(), "物質名")]/..//img',
        attr: 'alt',
      },
    },

product*のキーで始まる定義が、各商品情報取得情報である。以下簡単にまとめて説明する。

パス	内容
productPageSelectors	商品情報定義まとめ。
productPageImageSelectors	イメージ取得情報(各キーの値がセレクタになっていて、参照されるイメージが取得される)
productPageImages	イメージダウンロード付加情報
productPageImages.downloader	イメージをダウンロードする時、この値に "puppeteer" が設定されている場合にブラウザで取得する(現：イトーヨーカドーのみセキュリティがらみで使用)。それ以外は axios。
productPageImages.suffix	イメージをダウンロードする拡張子を強制的に指定する場合に定義する。通常は拡張子を検索してそのあとをとるが、明星だけCDNを利用していて拡張子がとれないため

productPageSelectorsが基本的に各画面のテキストを取得する情報である。2パターンある。
- 上記例では jan, title のような単一文字列の場合、値がセレクタ(cssセレクタ or XPATH or 特定キーワード)として定義されており、その値を使って取得できる単一文字列を値として出力する。
- 上記例では allergy のようにネストさせた場合、複数情報定義ができる。selector キーの値がセレクタ(cssセレクタ or XPATH)として定義され、単数・複数の定義が可能。単数定義でも複数マッチした場合に複数の値とする(Coopの例)。attr キーがある場合、値とhtmlのテキストコンテンツから取得するのではなく、指定された属性から取得するようにする。separator キーがある場合、複数の値を結合するときにの値が使われるが、指定がない場合には "・" がつかわれる。
参考：ぐぐってもらえるといい
- XPATH
- cssセレクタ

画面からのデータの複数取得(タイトル＋グラム等)ができたら結合も可能となっている。また、結合したあと最後に replacer 定義にて、均一的な各属性の置き換えが可能となっている(https://github.com/chai222222/jangetter?tab=readme-ov-file#jangetterrc)。各サイトごとに個別の置き換えはハードコーディングされているが、これは取得するデータもハードコーディングされているためである。取得するデータをカスタマイズできるようにした場合、ここも各サイト単位にカスタマイズできるようにしたほうが良いかもしれないが、要検討。

chai222222 commented 2 months ago

🌟 イオンサイト変更
~~タジマヤのHouseで文字化け「ハウスらくチンDELI タコスミート2袋【08/12 新商品】」→「ハウスらくチン.ELI タコスミート2袋【08/12 新商品】」~~
- https://www.tajimaya-cc.net/products/211755
- ❗ 07/29 再現しないので問題無しとする。
🌟 内容量をタイトルに追加（半角スペースがセパレータ）
- 明星（テーブルの「内容量 (麺量)」の値部分。値のカッコ内は不要）
- タジマヤ（テーブルの「内容量」の値部分。全角半角混在なので半角にする）
🌟 アレルギー追加
- タジマヤ（テーブルの「原材料」の値部分。（一部に～を含む）の～をとる、合致しない場合は無しとする）
🌟 タジマヤタイトル加工（先頭で空白が直後にある）
- エース →エースコック
- おやつC→おやつカンパニー
🌟 除外機能
- ヒットした商品を画面内のデータによりデータに含めないようにする機能
- タジマヤ（カテゴリー：冷凍食品を含むもの）
🌟 イトーヨーカドー
- 物品名のスペースを半角にする、内容量は（）をとって半角にする。カッコの前に空白がある場合とない場合があるが半角空白をいれる
🌟 ケンコーコム：閉店につき削除

chai222222 commented 2 months ago

完了したのでクローズ

chai222222 / jangetter

微調整カスタマイズ化検討 #24

現設定部の仕様

明星

Coop