28 で修正しました。

HiromuMasuda commented 6 years ago

https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L45 何かしらのエラーハンドリングはしたほうがいいですね。

元々、content = models.CharField(max_length=8192)に収まらない文字数の記事があった時にエラーで全体の処理が止まってしまうためこのような処理にしていました。

コンテンツの文字数のヒストグラムを作ってみると下のようになるので、基本的に文字数が上限以上のコンテンツの記事は無視で大丈夫そうです。

エラー処理として「エラー名：エラーメッセージ」を出力するという処理を加えました。意図としては、「とりあえずどんなエラーがあるのか、何件かを確認できるようにする」です。これは意図に沿っているか教えていただきたいです。

HiromuMasuda / category_classifier

scrape_articles.py #22

28 で修正しました。