This application is a sophisticated Retrieval-Augmented Generation (RAG) system that allows users to interact with and analyze PDF documents from the CFA Institute Research Foundation Publications. It features a multi-modal approach, combining text and image analysis for comprehensive document exploration.
Links to Resources:
The frontend provides an intuitive interface with multiple pages:
The backend handles core functionalities:
git clone https://github.com/BigDataIA-Fall2024-TeamA2/Assignment3 && cd Assignment3
.env
file (For *unix systems)
python3 -m venv venv
./venv/bin/activate.sh
poetry install
cp .env.template .env
.env
file.
docker compose up -d
WE ATTEST THAT WE HAVEN’T USED ANY OTHER STUDENTS’ WORK IN OUR ASSIGNMENT AND ABIDE BY THE POLICIES LISTED IN THE STUDENT HANDBOOK
Contribution:
a. Gopi Krishna Gorle: 33%
b. Pranali Chipkar: 33%
c. Mubin Modi: 33%
## Repository Overview
```bash
.
├── README.md
├── airflow.Dockerfile
├── app.py
├── architecture
│ ├── diagrams
│ │ └── assignment3_architecture.png
│ ├── generate_diagrams.py
│ ├── images.png
│ ├── streamlit-logo-primary-colormark-darktext.png
│ └── v1.drawio
├── backend
│ ├── _init_.py
│ ├── config.py
│ ├── data
│ │ └── Lorem_ipsum.pdf
│ ├── database
│ │ ├── _init_.py
│ │ ├── articles.py
│ │ ├── init_db.py
│ │ ├── qa.py
│ │ ├── research_notes.py
│ │ ├── summary.py
│ │ └── users.py
│ ├── logging.conf
│ ├── main.py
│ ├── schemas
│ │ ├── _init_.py
│ │ ├── articles.py
│ │ ├── auth.py
│ │ ├── qa.py
│ │ └── users.py
│ ├── services
│ │ ├── _init_.py
│ │ ├── articles.py
│ │ ├── auth.py
│ │ ├── auth_bearer.py
│ │ ├── qa.py
│ │ ├── rag.py
│ │ ├── summary_generation.py
│ │ └── users.py
│ ├── test.py
│ ├── utilities
│ │ ├── _init_.py
│ │ ├── base_utils.py
│ │ └── nvidia_utils.py
│ └── views
│ ├── _init_.py
│ ├── articles.py
│ ├── auth.py
│ ├── qa.py
│ └── users.py
├── dags
│ ├── _init_.py
│ ├── articles.py
│ ├── data_indexer
│ │ ├── _init_.py
│ │ ├── document_processors.py
│ │ ├── pdf_indexer.py
│ │ └── utils.py
│ ├── data_ingestion
│ │ ├── _init_.py
│ │ ├── scraper.py
│ │ ├── uploader.py
│ │ └── utils.py
│ ├── pipeline.py
│ └── updated_articles_data.json
├── docker-compose.yml
├── frontend
│ ├── _init_.py
│ ├── config.py
│ ├── pages
│ │ ├── _init_.py
│ │ ├── chat.py
│ │ ├── document_viewer.py
│ │ ├── list_docs.py
│ │ ├── reports.py
│ │ ├── summary_generation.py
│ │ ├── user_creation.py
│ │ └── user_login.py
│ └── utils
│ ├── _init_.py
│ ├── api_utils.py
│ ├── auth.py
│ └── chat.py
├── poetry.lock
└── pyproject.toml