mi2-warsaw / CzasDojazdu

https://hub.docker.com/r/marcinkosinski/czasdojazdu/builds/
5 stars 1 forks source link

Pomysły na analizy i wizualizacje z danych nt. dostępnych lokali #4

Closed MarcinKosinski closed 7 years ago

MarcinKosinski commented 8 years ago

@mikolajjj @abrodecka @michalcisek jeżeli jakieś pomysły przychodzą Wam do głowy to walcie śmiało.

Taką analizę można przygotować do wpisu reklamującego portal/aplikacje :)

tmikolajczyk commented 8 years ago

W zależności od możliwości technicznych rozszerzyłbym informacje dla poszczególnych dzielnic (obszarów agregacji) o:

Wyliczenie tego jest banalnie proste a daje pełniejszy przegląd sytuacji. Jedyne ograniczenie to czytelność wizualizacji.

Dobrze, żeby mapa była interaktywna i potrafiła agregować na różnych poziomach zoom'u.

Korelację "rozbudowanie opisu / liczby zdjęć z ceną" zostawiłbym raczej dla nas do delektowania się :)

MarcinKosinski commented 8 years ago

Miałem na myśli analizę na deser, a niekoniecznie jako integralną część portalu, tak by urozmaicić czymś wpis :) Ale takie stałe elementy portalu może też by były ciekawe.

W dniu 11 lutego 2016 14:50 użytkownik mikolajjj notifications@github.com napisał:

W zależności od możliwości technicznych rozszerzyłbym informacje dla poszczególnych dzielnic (obszarów agregacji) o:

  • wartość minimalną,
  • maksymalną,
  • (być może także) środkową i najczęstszą (najpopularniejszą).

Wyliczenie tego jest banalnie proste a daje pełniejszy przegląd sytuacji. Jedyne ograniczenie to czytelność wizualizacji.

Dobrze, żeby mapa była interaktywna i potrafiła agregować na różnych poziomach zoom'u.

Korelację "rozbudowanie opisu / liczby zdjęć z ceną" zostawiłbym raczej dla nas do delektowania się :)

— Reply to this email directly or view it on GitHub https://github.com/MarcinKosinski/CzasDojazdu/issues/4#issuecomment-182873505 .

MarcinKosinski commented 8 years ago

Tomek, myślisz, że na bazie tego https://journal.r-project.org/archive/2013-1/kahle-wickham.pdf i któregoś pakietu stąd http://www.htmlwidgets.org/showcase_leaflet.html dałoby się nanosić na mapę warszawy zacieniowane kontury dzielnic wraz z jakimiś wartościami? Chociażby z tymi średnimi cenami za metr kwadratowy ?

tmikolajczyk commented 8 years ago

chętnie przyjrzę się temu

abrodecka commented 8 years ago

A może jakieś porównanie odnośnie komunikacji miejskiej i cen za wynajem? Np. częstość kursowania autobusów/tramwajów i związek z ceną? Coś takiego jak tutaj : http://szychtawdanych.pl/?p=128 plus ceny :)

MarcinKosinski commented 8 years ago

Świetny pomysł :) chcemy z Tomkiem spotkac sie za tydzien by machnąć jakies analizki i wykresy, to zapraszam tez wszystkich chętnych

Marcin Kosinski

Dnia 02.03.2016 o godz. 09:57 abrodecka notifications@github.com napisał(a):

A może jakieś porównanie odnośnie komunikacji miejskiej i cen za wynajem? Np. częstość kursowania autobusów/tramwajów i związek z ceną? Coś takiego jak tutaj : http://szychtawdanych.pl/?p=128 plus ceny :)

— Reply to this email directly or view it on GitHub.

tmikolajczyk commented 8 years ago

Wybieracie się może na najbliższe spotkanie Data Science Warsaw? meetup

Jeśli tak to może po nim zrobić przymiarkę do analiz? Ew. równolegle. Marcin?

MarcinKosinski commented 8 years ago

Moze to nie taki głupi pomysł? Środa jbc tez by mi pasowała na spotkanie :)

Marcin Kosinski

Dnia 07.03.2016 o godz. 09:33 Tomasz Mikołajczyk notifications@github.com napisał(a):

Wybieracie się może na najbliższe spotkanie Data Science Warsaw? meetup

Jeśli tak to może po nim zrobić przymiarkę do analiz? Ew. równolegle. Marcin?

— Reply to this email directly or view it on GitHub.

MarcinKosinski commented 8 years ago

Bardziej pasowałaby mi jednak środa. Czy 18:00 gdzieś w okolicach politechniki albo np na MiNI by pasowała wszystkim chętnym :)?

W dniu 7 marca 2016 10:10 użytkownik Marcin Kosinski <m.p.kosinski@gmail.com

napisał:

Moze to nie taki głupi pomysł? Środa jbc tez by mi pasowała na spotkanie :)

Marcin Kosinski

Dnia 07.03.2016 o godz. 09:33 Tomasz Mikołajczyk notifications@github.com napisał(a):

Wybieracie się może na najbliższe spotkanie Data Science Warsaw? meetup http://www.meetup.com/Data-Science-Warsaw/events/229284724/?gj=wc1d.2_e&rv=wc1d.2_e&_af=event&_af_eid=229284724&https=off

Jeśli tak to może po nim zrobić przymiarkę do analiz? Ew. równolegle. Marcin?

— Reply to this email directly or view it on GitHub https://github.com/mi2-warsaw/CzasDojazdu/issues/4#issuecomment-193157230 .

michalcisek commented 8 years ago

Ja niestety odpadam ze względu na zajęcia.

tmikolajczyk commented 8 years ago

Gdyby dane wejściowe udało się poczyścić (ceny z kosmosu, braki danych) można byłoby pokazać też taką heatmap'ę: heatmap

Co sądzicie? Ma to sens? Na innej mapie można pokazać wielkości mieszkań w poszczególnych dzielnicach

MarcinKosinski commented 8 years ago

A co mamy zaprezentowane na osi OY? Da się to lepiej jakoś wytłumaczyć albo dać jakiś opis?

MarcinKosinski commented 8 years ago

Mysle, ze taki rzeczy najlepiej rozmieszczac przestrzennie. Tutaj chcemy pokazac 3 cechy jednoczesnie dla jednej dzielnicy, to moze albo 3 mapy, albo jedna mapa z 3 przyciskami w shiny przelaczjacymi miedzy cechami ktore chcemy pokazac, albo jedna mapa pokazujaca 3 cechy jednoczesnie dla danej dzielcy (ale czy to ostatnie da sie pokazac w ogole :P)?

tmikolajczyk commented 8 years ago

Wklejam poprawioną wersję, oś X do dopieszczenia (przedziały cen). W skrócie: pokazanie częstości dla dzielnic. Czyli szukam mieszkania / pokoju o metrażu minimum Xm2 i patrzę w jakich dzielnicach jest najwięcej ogłoszeń z takim metrażem. Zrobiłem poglądowo dla przedziałów cen. heatmap2

MarcinKosinski commented 8 years ago

A może tak -> użytkownic wprowadza filtry cena -> [a,b] metraz -> [d,e]

i pokazuje mi LICZBE ogloszen w dzielnicy :)? procent ostatecznie nie mowi ile jest ofert i nie da sie porownyac czy pomimo nizszego procentu w jednej dzielnicy, czy faktycznie jest w niej mniej/wiecej mieszkan niz w drugiej w danym przedziale cenowym. Ale tez mysle, ze mapa by tu lepiej pasowala.

A co do takich heatmap i tabel, to moze pojsc w rpivotTable? https://github.com/smartinsightsfromdata/rpivotTable

tmikolajczyk commented 8 years ago

Chciałem zobaczyć jak przestrzennie układają się oferty w zależności od ceny i zrobiłem takie coś: mapy_cen

Każda mapka prezentuje inny zakres cen ofert (podpis pod mapką). Jak widzicie, ładnie wygląda, ale na razie niewiele wnosi, bo większość ofert, bez względu na cenę, skupia się na Woli i Bemowie. Może jak przyjdzie więcej danych to rozkład bardziej się zróżnicuje.

Wycofuję się z heatmapy, bo nie jest czytelna. Zamiast tego należałoby zrobić zwykły wykres słupkowy "stacked", gdzie każdy słupek to dzielnica a kolory to przedziały cenowe dostępnych ofert w danej dzielnice; np. taki: image

MarcinKosinski commented 8 years ago

Pierwsza mapki super. A próbowałeś wszystkie punkty umieszczać na jednej mapce :) z legendą po boku?

Co do wykresów paskowych, to przedziały cenowe chyba lepiej jest liczyć względem całej Warszawy :)?

Takie analizy chcemy prezentować na bazie ostatnich kilku dni, czy całej dostępnej historii w bazie?

W dniu 31 maja 2016 15:48 użytkownik Tomasz Mikołajczyk < notifications@github.com> napisał:

Chciałem zobaczyć jak przestrzennie układają się oferty w zależności od ceny i zrobiłem takie coś: [image: mapy_cen] https://cloud.githubusercontent.com/assets/10706421/15676534/de7219ea-2746-11e6-917d-d3cf115819e3.png

Każda mapka prezentuje inny zakres cen ofert (podpis pod mapką). Jak widzicie, ładnie wygląda, ale na razie niewiele wnosi, bo większość ofert, bez względu na cenę, skupia się na Woli i Bemowie. Może jak przyjdzie więcej danych to rozkład bardziej się zróżnicuje.

Wycofuję się z heatmapy, bo nie jest czytelna. Zamiast tego należałoby zrobić zwykły wykres słupkowy "stacked", gdzie każdy słupek to dzielnica a kolory to przedziały cenowe dostępnych ofert w danej dzielnice; np. taki: [image: image] https://cloud.githubusercontent.com/assets/10706421/15676479/9e5a438c-2746-11e6-9fd0-9ede7e422362.png

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/mi2-warsaw/CzasDojazdu/issues/4#issuecomment-222693626, or mute the thread https://github.com/notifications/unsubscribe/AGdazlpJYZz1hPK_non51CY0PKKzx5Y1ks5qHDw1gaJpZM4HYJxp .

MarcinKosinski commented 8 years ago

Dobra robota :)

W dniu 31 maja 2016 17:10 użytkownik Marcin Kosiński <m.p.kosinski@gmail.com

napisał:

Pierwsza mapki super. A próbowałeś wszystkie punkty umieszczać na jednej mapce :) z legendą po boku?

Co do wykresów paskowych, to przedziały cenowe chyba lepiej jest liczyć względem całej Warszawy :)?

Takie analizy chcemy prezentować na bazie ostatnich kilku dni, czy całej dostępnej historii w bazie?

W dniu 31 maja 2016 15:48 użytkownik Tomasz Mikołajczyk < notifications@github.com> napisał:

Chciałem zobaczyć jak przestrzennie układają się oferty w zależności od ceny i zrobiłem takie coś: [image: mapy_cen] https://cloud.githubusercontent.com/assets/10706421/15676534/de7219ea-2746-11e6-917d-d3cf115819e3.png

Każda mapka prezentuje inny zakres cen ofert (podpis pod mapką). Jak widzicie, ładnie wygląda, ale na razie niewiele wnosi, bo większość ofert, bez względu na cenę, skupia się na Woli i Bemowie. Może jak przyjdzie więcej danych to rozkład bardziej się zróżnicuje.

Wycofuję się z heatmapy, bo nie jest czytelna. Zamiast tego należałoby zrobić zwykły wykres słupkowy "stacked", gdzie każdy słupek to dzielnica a kolory to przedziały cenowe dostępnych ofert w danej dzielnice; np. taki: [image: image] https://cloud.githubusercontent.com/assets/10706421/15676479/9e5a438c-2746-11e6-9fd0-9ede7e422362.png

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/mi2-warsaw/CzasDojazdu/issues/4#issuecomment-222693626, or mute the thread https://github.com/notifications/unsubscribe/AGdazlpJYZz1hPK_non51CY0PKKzx5Y1ks5qHDw1gaJpZM4HYJxp .

tmikolajczyk commented 8 years ago

Tak, wszystkie punkty na jednej mapce nie mają za bardzo sensu, za dużo się dzieje (jutro wrzucę). Ja liczę na to, że przy większej liczbie ogłoszeń punkty zaczną układać się w jakieś sensowne konstelacje przy różnych progach cen. Zobaczymy.

Co Twojego pytania o zakres danych do prezentacji to wg mnie lepiej je robić na podstawie całej historii, ale się nie upieram. Historyczne dane są wg mnie bardziej interesujące, a na stronę możemy wrzucić cokolwiek.

Uwaga generalna jest taka, że wykresy są dla ok. 3500 rekordów (po odfiltrowaniu braków adresów, współrzędnych i cen z kosmosu), czyli mniej więcej 1/3 wszystkich pociągniętych danych. Bardzo mało. Warto byłoby zawalczyć o poprawę jakości pobieranych danych (lokalizacje, ceny, itd.)

Uwagi do wykresów paskowych nie rozumiem :)

MarcinKosinski commented 8 years ago

To tak na szybko te wykresy paskowe: jeżeli bedzie miał podział na 4 grupy w pasku, względem kwartyli w pasku, to wszystkie sub-paski w tym pasku beda tej samej długości :< a przeciez pokazując kilka pasków obok siebie chciałbys je ze sobą porównywać wiec kwartyle dobrze obliczyć na bazie wszystkich pasków :p nie jestem alfa i omega, ale taki widze kierunek

Marcin Kosinski

Dnia 31.05.2016 o godz. 22:41 Tomasz Mikołajczyk notifications@github.com napisał(a):

Tak, wszystkie punkty na jednej mapce nie mają za bardzo sensu, za dużo się dzieje (jutro wrzucę). Ja liczę na to, że przy większej liczbie ogłoszeń punkty zaczną układać się w jakieś sensowne konstelacje przy różnych progach cen. Zobaczymy.

Co Twojego pytania o zakres danych do prezentacji to wg mnie lepiej je robić na podstawie całej historii, ale się nie upieram. Historyczne dane są wg mnie bardziej interesujące, a na stronę możemy wrzucić cokolwiek.

Uwaga generalna jest taka, że wykresy są dla ok. 3500 rekordów (po odfiltrowaniu braków adresów, współrzędnych i cen z kosmosu), czyli mniej więcej 1/3 wszystkich pociągniętych danych. Bardzo mało. Warto byłoby zawalczyć o poprawę jakości pobieranych danych (lokalizacje, ceny, itd.)

Uwagi do wykresów paskowych nie rozumiem :)

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub, or mute the thread.

tmikolajczyk commented 8 years ago

To tak na szybko te wykresy paskowe: jeżeli bedzie miał podział na 4 grupy w pasku, względem kwartyli w pasku, to wszystkie sub-paski w tym pasku beda tej samej długości :< a przeciez pokazując kilka pasków obok siebie chciałbys je ze sobą porównywać wiec kwartyle dobrze obliczyć na bazie wszystkich pasków :p nie jestem alfa i omega, ale taki widze kierunek

Ok. To jasne :)

Poniżej mapki z większą liczbą ofert i mapka z wszystkimi na jednej: mapy4 mapa1

Edit: większy obrazek drugiej mapki

MarcinKosinski commented 8 years ago

Kto co lubi, ja bym to dał jako "do wyboru" - 4 mapki albo 1. I żeby ludzie sami mogli wprowadzać progi procentowe :)

Eleganckie mapy :)!

W dniu 1 czerwca 2016 10:06 użytkownik Tomasz Mikołajczyk < notifications@github.com> napisał:

To tak na szybko te wykresy paskowe: jeżeli bedzie miał podział na 4 grupy w pasku, względem kwartyli w pasku, to wszystkie sub-paski w tym pasku beda tej samej długości :< a przeciez pokazując kilka pasków obok siebie chciałbys je ze sobą porównywać wiec kwartyle dobrze obliczyć na bazie wszystkich pasków :p nie jestem alfa i omega, ale taki widze kierunek

Ok. To jasne :)

Poniżej mapki z większą liczbą ofert i mapka z wszystkimi na jednej: [image: mapy4] https://cloud.githubusercontent.com/assets/10706421/15702444/52b8c210-27e0-11e6-9744-29289e1c4d40.png [image: mapa1] https://cloud.githubusercontent.com/assets/10706421/15702457/62795df4-27e0-11e6-952d-02a43257e4c6.png

— You are receiving this because you were assigned. Reply to this email directly, view it on GitHub https://github.com/mi2-warsaw/CzasDojazdu/issues/4#issuecomment-222921794, or mute the thread https://github.com/notifications/unsubscribe/AGdazgRSvLJXGI9Fa7zhIuecgBSj6jNLks5qHT11gaJpZM4HYJxp .

MarcinKosinski commented 8 years ago

@mikolajjj ktore ostatecznie wizualizacje chcialbys dodac do aplikacji :)?

tmikolajczyk commented 8 years ago

wszystkie piękne ;)

jak wrócę z wakacji to się tym zajmę.

MarcinKosinski commented 7 years ago

Minęło 5 miesięcy od ostatniego komentarza. Zamykam. Outdated