Closed konik32 closed 10 years ago
Moim zdaniem dane nie powinny być zwracane jako HTML - nie o to chodzi w naszym module. Powinniśmy tak jak napisał @bartQH w #6 zwracać wygenerowane ID, wyekstraktowany opis i w przyszłości więcej. Ewentualnie podział naszego serwisu na dwa moduły - wtedy nasz serwis zwraca tylko true/false - które mówi czy dostaliśmy ogłoszenie czy nie. Natomiast nowy serwis zajmie się ekstrakcją danych z ogłoszenia.
HTML miał być tylko podstawową wersją, żeby coś było. Jeśli uda wam się wyciągnąć opis to super.
Postarajcie się pisać swoj moduł tak aby działał na wielu wątkach(jak najwięcej singletonów, jeśli się nie uda to dla każdego zapytania twórzcie nowy obiekt). Jeśli się nie uda to trudno, ale miejcie to na uwadze.
Oczywiście tak zrobimy, ja już sobie ustawię beany w springu. Będzie też to wzór dla ludzi, którzy ze springiem nie mieli do czynienia.
Podstawowa wersja PageProcessora z testami jest już gotowa. Ewentualnie jakieś poprawnki jeszcze nanieść w kodzie. Pobiera url z adresem strony. Szuka ogłoszenia. Pobiera ogłoszenie. Wywala z niego znaczniki formatujace i zwraca ogłoszenie jako czysty tekst.
Etap II - zapis plików do bazy danych. Zapisywanie ocen od użytkownika.
Etap III - utworzenie preprocessora, który powycina ze słów polskich końcówki (jak zrobiłam/zrobiłem -> zrobił) i ich zliczenie
Etap IV - nauka komputera rozpoznawania