Open y-abe opened 6 years ago
コメントありがとうございます。
https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L45 何かしらのエラーハンドリングはしたほうがいいですね。
元々、content = models.CharField(max_length=8192)
に収まらない文字数の記事があった時にエラーで全体の処理が止まってしまうためこのような処理にしていました。
コンテンツの文字数のヒストグラムを作ってみると下のようになるので、基本的に文字数が上限以上のコンテンツの記事は無視で大丈夫そうです。
エラー処理として「エラー名:エラーメッセージ」を出力するという処理を加えました。意図としては、「とりあえずどんなエラーがあるのか、何件かを確認できるようにする」です。これは意図に沿っているか教えていただきたいです。
https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L29
urlを組み立てるときはライブラリが使えます。この辺が参考になります。 https://docs.python.jp/3/library/urllib.parse.html#urllib.parse.urlencode
https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L45 何かしらのエラーハンドリングはしたほうがいいですね。
https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L49-L59 これは関数ではなくてリストを定義しておくだけでも。
https://github.com/HiromuMasuda/gunosy_assignment/blob/master/classification_machine/management/commands/scrape_articles.py#L25 定数にしておきましょう