issues
search
johtani
/
search-research
検索エンジンなどの調査用リポジトリ
MIT License
2
stars
1
forks
source link
esci-sのデータを使ってみる
#7
Closed
johtani
closed
1 year ago
johtani
commented
1 year ago
スキーマ作る
登録処理を作る
Jupyter Notebookで検索できるようにしてみる
johtani
commented
1 year ago
ソートはproduct_id順
localeがproductsと同じかどうかも確認が必要?
localeが入っていないデータはないか?
johtani
commented
1 year ago
GitHubにアップされているサンプルは問題なく処理ができるプログラムが書けた(extract-products.pyと同じ方式で)
ダウンロードしたフルサイズのファイル(解凍後11GB)では上記プログラムではプロセスがKilledになった
JSONLで保存されているので、Pandasを使わずに処理していく(Pandasは1行だけに使う?)方式に変更が必要
以下のような処理を検討したほうがいいかも
localeごとに振り分けて出力する
sortコマンドでファイルをソートできるように、JSONの項目の出力順をちょっとだけ変更する
ファイルを特定件数ごとに分割する?
項目ごとに分割する?(reviewsデータを切り離すだけでもデータを小さくできそう)