economist239 / BrandAnalytics

Project of Data Mining group
16 stars 7 forks source link

Утиль для чистки новостей #2

Closed batya239 closed 12 years ago

batya239 commented 12 years ago

Нужен утиль для чистки новостей, который чистит их от html (примеры в базе)

egor1989 commented 12 years ago

советую http://code.google.com/p/boilerpipe/

batya239 commented 12 years ago

Спасиб, мы посмотрим)

aamikhaylova commented 12 years ago

done

egor1989 commented 12 years ago

Что использовали? Commit в студию

aamikhaylova commented 12 years ago

boilerpipe и использовали, в первом приближении работает ок

aamikhaylova commented 12 years ago

Класс ArticleCleaner - обёрточка для экстрактора из boilerpipe (ArticleExtractor). Работает хорошо, есть маленький тестик на это дело.