HiromuMasuda / category_classifier

1 stars 0 forks source link

scrape_articles.py #22

Open y-abe opened 6 years ago

y-abe commented 6 years ago

https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L29

urlを組み立てるときはライブラリが使えます。この辺が参考になります。 https://docs.python.jp/3/library/urllib.parse.html#urllib.parse.urlencode

https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L45 何かしらのエラーハンドリングはしたほうがいいですね。

https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L49-L59 これは関数ではなくてリストを定義しておくだけでも。

https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L25 定数にしておきましょう

HiromuMasuda commented 6 years ago

コメントありがとうございます。

28 で修正しました。

HiromuMasuda commented 6 years ago

https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L45 何かしらのエラーハンドリングはしたほうがいいですね。

元々、content = models.CharField(max_length=8192)に収まらない文字数の記事があった時にエラーで全体の処理が止まってしまうためこのような処理にしていました。

コンテンツの文字数のヒストグラムを作ってみると下のようになるので、基本的に文字数が上限以上のコンテンツの記事は無視で大丈夫そうです。

screen shot 2018-04-29 at 15 54 20

エラー処理として「エラー名:エラーメッセージ」を出力するという処理を加えました。意図としては、「とりあえずどんなエラーがあるのか、何件かを確認できるようにする」です。これは意図に沿っているか教えていただきたいです。