PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.11k stars 2.94k forks source link

[Bug]: semantic-search例子使用streamlit上传文件无法自动建立索引 #3823

Closed fangjiyuan closed 1 year ago

fangjiyuan commented 1 year ago

软件环境

- paddlepaddle Version: 2.2.2

- paddlenlp Version: 2.4.2

重复问题

错误描述

PaddleNLP/pipelines/examples/semantic-search/
我使用这个例子运行streamlit,通过上传文件的方式建立索引似乎无法生效,我尝试使用命令更新索引是成功的。
测试了一下,直接导入docx文件就无法生效。如果导入的是一个文件夹就可以生效。
可能是读取文件的命令有问题。

稳定复现步骤 & 代码

python3 utils/offline_ann.py --index_name dureader_robust_query_encoder --doc_dir data/TEST --search_engine elastic --delete_index 这是ok的。 python3 utils/offline_ann.py --index_name dureader_robust_query_encoder --doc_dir data/test.docx --search_engine elastic --delete_index 无效。

w5688414 commented 1 year ago

--doc_dir 传入的是文件夹,请把您的docx文件放在文件夹里面

fangjiyuan commented 1 year ago

--doc_dir 传入的是文件夹,请把您的docx文件放在文件夹里面 我的docx文件是放在文件夹里的,现在的问题是: streamlit里导入的时侯我只能选择文件,无法选择文件夹导入。

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

w5688414 commented 1 year ago

按shift键,试试多选,文件夹导入目前不支持,API请参考文档.

https://docs.streamlit.io/library/api-reference/widgets/st.file_uploader

--doc_dir 传入的是文件夹,请把您的docx文件放在文件夹里面 我的docx文件是放在文件夹里的,现在的问题是: streamlit里导入的时侯我只能选择文件,无法选择文件夹导入。

fangjiyuan commented 1 year ago

我确信shift是无效的。

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。