mi2-warsaw / CzasDojazdu

https://hub.docker.com/r/marcinkosinski/czasdojazdu/builds/
5 stars 1 forks source link

Wyciąganie informacji o adresie z opisu bądź tytułu oferty #2

Closed MarcinKosinski closed 8 years ago

MarcinKosinski commented 8 years ago

@abrodecka przygotowała super skrypty tutaj: https://github.com/MarcinKosinski/CzasDojazdu/blob/master/Rscripts/ulice/ulice.R

Przyda się jeszcze wrzucić plik z wykazem wszystkich ulic? Wtedy ja na przykładzie, który dzisiaj pokazywałaś mógłbym przygotować przerobienie odmian nazw ulic użytych w opisie na prawdziwą nazwę tej ulicy :)?

MarcinKosinski commented 8 years ago

@abrodecka dodałem mały modyfikator w Twoim skrypcie, tak że umiemy teraz wyczaić adres gdy ktoś napisze ul Dywizjonu 303 - bez kropki po ul albo al :) commit powyżej

abrodecka commented 8 years ago

Ok, ok ;) chyba oszukiwałeś, że nie pamiętasz regexów :) 13 lut 2016 10:40 PM "Marcin Kosiński" notifications@github.com napisał(a):

@abrodecka https://github.com/abrodecka dodałem mały modyfikator w Twoim skrypcie, tak że umiemy teraz wyczaić adres gdy ktoś napisze ul Dywizjonu 303 - bez kropki po ul albo al :) commit powyżej

— Reply to this email directly or view it on GitHub https://github.com/MarcinKosinski/CzasDojazdu/issues/2#issuecomment-183760623 .

MarcinKosinski commented 8 years ago

Swoją drogą obczaj przykład tego jak znaleźć z odmiany ulicy najbliższą jej formę z danego zbioru propozycji

# install.packages('stringdist')
library(stringdist)

potencjalne_adresy <- c("Żeromskiego",
                        "Żiżki",
                        "Żonkilowa",
                        "Żołnierska",
                        "Żołny",
                        "Żółkiewskiego")

dict_dists <- stringdist(c("Żołnierskiej"),potencjalne_adresy)

potencjalne_adresy[which.min(dict_dists)]
MarcinKosinski commented 8 years ago

@abrodecka nie pamiętam, przerobiłem Twój, w którym miałaś (ul\\.|al\\.) na (ul|al\\s) :) tyle jeszcze rozumiem z regexów. Ale Twoje są dumne. Sama pisałaś od podstaw czy się czymś inspirowałaś?

abrodecka commented 8 years ago

Tylko i wyłącznie wykładem Gągolewskiego :) Jutro, na spokojnie popatrzę na tę odmianę ulic. 13 lut 2016 11:05 PM "Marcin Kosiński" notifications@github.com napisał(a):

@abrodecka https://github.com/abrodecka nie pamiętam, przerobiłem Twój, w którym miałaś (ul.|al.) na (ul|al\s) :) tyle jeszcze rozumiem z regexów. Ale Twoje są dumne. Sama pisałaś od podstaw czy się czymś inspirowałaś?

— Reply to this email directly or view it on GitHub https://github.com/MarcinKosinski/CzasDojazdu/issues/2#issuecomment-183764532 .

MarcinKosinski commented 8 years ago

Już zaimplementowałem do bazy danych, tak że wyciągajac opis ogłoszenia, od razu wyciągamy Twoim sposobem adres, a moim najbardziej poprawną wersję adresu. Więc już spokojnie można próbowac pisać apke shiny :)

tmikolajczyk commented 8 years ago

Dodałem alternatywną metodę pozyskania listy ulic. Dane pobieramy z API UM Warszawy. Wypluwa dość dużą listę, z którą niestety nie potrafię sobie dalej poradzić (może ze względu na porę dnia). Wrzucam, bo te dane wydają się obiecujące bo zawierają odmienione nazwy ulic. Zerknijcie na to i oceńcie czy jest sens w tym dalej grzebać.

Ps. nie wiem dlaczego nie wrzuciło tego z mojego profilu, więc spróbuję za chwilę to jeszcze raz dodać, już pod swoim profilem

MarcinKosinski commented 8 years ago

Wrzuciło z domyślnego profilu bo nie masz skonfigurowanego githuba lokalnie: https://help.github.com/articles/set-up-git/

W dniu 14 lutego 2016 01:43 użytkownik Tomasz Mikołajczyk < notifications@github.com> napisał:

Dodałem alternatywną metodę pozyskania listy ulic. Dane pobieramy z API UM Warszawy. Wypluwa dość dużą listę, z którą niestety nie potrafię sobie dalej poradzić (może ze względu na porę dnia). Wrzucam, bo te dane wydają się obiecujące bo zawierają odmienione nazwy ulic. Zerknijcie na to i oceńcie czy jest sens w tym dalej grzebać.

Ps. nie wiem dlaczego nie wrzuciło tego z mojego profilu, więc spróbuję za chwilę to jeszcze raz dodać, już pod swoim profilem

— Reply to this email directly or view it on GitHub https://github.com/MarcinKosinski/CzasDojazdu/issues/2#issuecomment-183781065 .

MarcinKosinski commented 8 years ago

Widzę, że w Twoim zbiorze są odmienione nazwy ulic, ale sa one tylko w poprawnej polszczyźnie (uwzględniają polskie znaki). Póki co nasza metoda wyciąga z opisu wszystko co występuje po frazach ul / ul. /al. / al / ulicy itp. a następnie dla nazw wszystkich ulic, które pobieramy ze strony, którą pokazała Ola staramy się znaleźć najbliższą nazwę.

Równie dobrze można odwoływać się do Twojego zbioru i po zmatchowaniu słowa odwoływać się do jego formy podstawowej, albo do jego współrzędnych.

Insza inszość, że zbiór, który proponujesz zadziała tylko w warszawie i nie będzie uniwersalny w obrębie całej polski.

W dniu 14 lutego 2016 01:51 użytkownik Marcin Kosiński < m.p.kosinski@gmail.com> napisał:

Wrzuciło z domyślnego profilu bo nie masz skonfigurowanego githuba lokalnie: https://help.github.com/articles/set-up-git/

W dniu 14 lutego 2016 01:43 użytkownik Tomasz Mikołajczyk < notifications@github.com> napisał:

Dodałem alternatywną metodę pozyskania listy ulic. Dane pobieramy z API UM Warszawy. Wypluwa dość dużą listę, z którą niestety nie potrafię sobie dalej poradzić (może ze względu na porę dnia). Wrzucam, bo te dane wydają się obiecujące bo zawierają odmienione nazwy ulic. Zerknijcie na to i oceńcie czy jest sens w tym dalej grzebać.

Ps. nie wiem dlaczego nie wrzuciło tego z mojego profilu, więc spróbuję za chwilę to jeszcze raz dodać, już pod swoim profilem

— Reply to this email directly or view it on GitHub https://github.com/MarcinKosinski/CzasDojazdu/issues/2#issuecomment-183781065 .

tmikolajczyk commented 8 years ago

Marcin, chętnie zobaczę kod jakim przekopałeś się przez te dane z API

MarcinKosinski commented 8 years ago

Którego API?

Ogolnie cos Dzis wrzucałem (historia 3 ostatnich moich commitow), ale robiłem niezależnie od Twoich danych.

W sumie to co poki co mamy, co dziala, to zadziała tez tylko dla Warszawy :p

Marcin Kosinski

Dnia 14.02.2016 o godz. 02:04 Tomasz Mikołajczyk notifications@github.com napisał(a):

Marcin, chętnie zobaczę kod jakim przekopałeś się przez te dane z API

— Reply to this email directly or view it on GitHub.

MarcinKosinski commented 8 years ago

Punkty jeszcze mozesz dostać za zadawanie pytań

Marcin Kosinski

Dnia 14.02.2016 o godz. 02:04 Tomasz Mikołajczyk notifications@github.com napisał(a):

Marcin, chętnie zobaczę kod jakim przekopałeś się przez te dane z API

— Reply to this email directly or view it on GitHub.

abrodecka commented 8 years ago

Myślałam nad wyciąganiem nazw ulic z opisów i tak się zastanawiam: 1) Dlaczego nie korzystamy z pobierania adresu od razu z htmla? Np. opis tego ogłoszenia nic nam nie mówi o dokładnej lokalizacji ale widzimy adres w prawym okienku; http://www.gumtree.pl/a-pokoje-do-wynajecia/targowek/pokoj-w-90-metrowym-mieszkaniu-z-balkonem-na-poddaszu/1001582814330910663247609 2) Niektórzy w ogłoszeniu podają wyrażenia typu: 5 min od Metra Kabaty, 10 min od przystanku Banacha itd. Mogłabym spróbowac wyciągać takie informacje i potem na mapie zaznaczać lokalizację takiego przystanku, innym kolorem markera i np. w popup'ie dodać informację: "5 min od Metra Kabaty". Tylko zastanawiam się nad sensem takich lokalizacji jak nie możemy wybrać komunikacji miejskiej w mapdist :)

MarcinKosinski commented 8 years ago

Co do 1)

Faktycznie jesteśmy gapy, że nie scrapujemy informacji spod obrazka z mapą, tylko kombinujemy. @michalcisek co Ty na to? SelectorGadget podpowiada, że jest tag w HTMLu: ".address" :)))) pięknie Ola

2) To by było ciężkie. Myślę, że samo to, że leaflet ma dodatkowe informacje o wgranych miejscach dotyczących kawiarni, przystanków itp już powinno wystarczyć.

W dniu 1 marca 2016 23:39 użytkownik abrodecka notifications@github.com napisał:

Myślałam nad wyciąganiem nazw ulic z opisów i tak się zastanawiam: 1) Dlaczego nie korzystamy z pobierania adresu od razu z htmla? Np. opis tego ogłoszenia nic nam nie mówi o dokładnej lokalizacji ale widzimy adres w prawym okienku; http://www.gumtree.pl/a-pokoje-do-wynajecia/targowek/pokoj-w-90-metrowym-mieszkaniu-z-balkonem-na-poddaszu/1001582814330910663247609 2) Niektórzy w ogłoszeniu podają wyrażenia typu: 5 min od Metra Kabaty, 10 min od przystanku Banacha itd. Mogłabym spróbowac wyciągać takie informacje i potem na mapie zaznaczać lokalizację takiego przystanku, innym kolorem markera i np. w popup'ie dodać informację: "5 min od Metra Kabaty". Tylko zastanawiam się nad sensem takich lokalizacji jak nie możemy wybrać komunikacji miejskiej w mapdist :)

— Reply to this email directly or view it on GitHub https://github.com/MarcinKosinski/CzasDojazdu/issues/2#issuecomment-190941106 .

michalcisek commented 8 years ago

Nie zwróciłem nawet uwagi, że jest takie pole. Zaraz poprawię :))

MarcinKosinski commented 8 years ago

A człowiek sie nakombinowal :)

Marcin Kosinski

Dnia 04.03.2016 o godz. 15:06 Michał Cisek notifications@github.com napisał(a):

Nie zwróciłem nawet uwagi, że jest takie pole. Zaraz poprawię :))

— Reply to this email directly or view it on GitHub.

MarcinKosinski commented 8 years ago

Chyba nieaktualne od kiedy mamy normalnie adres z ofert :P Zamykam