ocefpaf / CursoPython_AlunasJu

Curso Python Alunas da Ju
0 stars 0 forks source link

Planilha TOC #5

Open lisiheinzen opened 5 years ago

lisiheinzen commented 5 years ago

TOC.xlsx

Felipe, segue em anexo a planilha com os dados para fazer o teste t entre as duas técnicas (Rock Eval e Análise Elementar LECO).

ocefpaf commented 5 years ago

@lisiheinzen se tudo estiver funcionando no seu laptop comece um notebook novo e, com o notebook e o arquivo TOC.xlsx no mesmo diretório, faça isso para ler como um DataFrame:

import pandas as pd

skiprows = 2
df = pd.read_excel(
    "TOC.xlsx",
    skiprows=skiprows,
    nrows=79-skiprows-1,  # Header + extra/blanks rows.
)

Note que pulamos umas linhas extras e não lemos até o fim pq tem outros dados lá. Em geral é melhor fazer planílhas "flat" sem misturar dados nas linhas e com cabeçalhos logo na primeira linha.

Cheque os dados com:

df.tail()  # Para ver a últimas linhas ou mude para `.head()` para ver as primeiras.

df.shape  # Para ver quantas linhas/colunas você tem.

Você verá que tem um NaN (de uma célula vazia na planilha) e precisamos remover toda a linha para poder comparar:

df = df.dropna()

df.shape  # Note que tem uma linha a menos.

Tente fazer alguns gráficos para explorar os dados. Algo como, dado vs tempo, Cumulative Distribution Function (CDF), etc. Tenho alguns aqui e te mando depois de você tentar fazer os seus.

O test-t em si é relativamente simples:

from scipy.stats import ttest_ind

ttest_ind(df["Rock Eval"], df["LECO"])

Note que df é o DataFrame com os dados da planilha e df["Rock Eval"], df["LECO"] são os dados daquelas colunas.

Porém, esse teste só é válido se as suposições do t-test forem válidas. Gráficos como a CDF te ajudam a ponderar sobre isso.

lisiheinzen commented 5 years ago

Oi Felipe,

Desculpa a demora, eu tentei e deu erro..aparece UTF-8 encoded e quando tento abrir o arquivo..

ocefpaf commented 5 years ago

Desculpa a demora, eu tentei e deu erro..aparece UTF-8 encoded e quando tento abrir o arquivo..

Você consegue copiar-e-colar o erro aqui para que poder dar uma olhada no traceback todo?

Tente também adicionar essa opção na leitura do arquivo 'encoding': 'latin1':

import pandas as pd

skiprows = 2
df = pd.read_excel(
    "TOC.xlsx",
    skiprows=skiprows,
    nrows=79-skiprows-1,  # Header + extra/blanks rows.
    'encoding': 'latin1',  # read latin1 instead of utf-8.
)
lisiheinzen commented 5 years ago

Depois que eu digito jupyter notebook aparece esse link e eu não consigo mais digitar nada..

To access the notebook, open this file in a browser:
        file:///C:/Users/Usu%C3%A1rio/AppData/Roaming/jupyter/runtime/nbserver-6528-open.html
    Or copy and paste one of these URLs:
        http://localhost:8888/?token=b3cb40dcbb1282d91a5af3c76f62c395a240421b89115e79
[W 14:40:47.051 NotebookApp] 400 GET /api/contents/TOC.xlsx?type=file&format=text&_=1560793246639 (::1): C:\Users\TOC.xlsx is not UTF-8 encoded
[W 14:41:45.837 NotebookApp] C:\Users\TOC.xlsx is not UTF-8 encoded
[W 14:41:45.838 NotebookApp] 400 GET /api/contents/TOC.xlsx?type=file&format=text&_=1560793246639 (::1) 58915.50ms referer=http://localhost:8888/edit/TOC.xlsx
[W 14:43:08.068 NotebookApp] 404 GET /notebooks/CursoPython_AlunasJu/03-BTS_CoreCO1-Copy1.ipynb (::1): No such file or directory: CursoPython_AlunasJu/03-BTS_CoreCO1-Copy1.ipynb
[W 14:43:08.432 NotebookApp] 404 GET /notebooks/CursoPython_AlunasJu/03-BTS_CoreCO1-Copy1.ipynb (::1) 363.88ms referer=None

E quando eu copio e colo o link acima, o arquivo do TOC aparece assim:

1 Error! C:\Users\TOC.xslx is not UTF-8 encoded
2 Saving disabled 
3 See Console for more details.
ocefpaf commented 5 years ago

Depois que eu digito jupyter notebook aparece esse link e eu não consigo mais digitar nada...

Isso está correto. Mas acredito que o seu browser abriu com o noteook, não? Se não você pode copiar e colar o link acima como a mensagem manda.

E quando eu copio e colo o link acima, o arquivo do TOC aparece assim:

Qual arquivo você se refere? O do Excel? Tudo que te passei acima é para ser feito no notebook.