refactor: document batching

Refactor the functionality for document batching. This is currently used in the following executors and can be implemented once and imported from jina_commons instead.

It roughly looks like this:


def _batch_generator(data: List[Any], batch_size: int):
    for i in range(0, len(data), batch_size):
        yield data[i: i + batch_size]

def _get_docs_batch_generator(self, docs: DocumentArray, parameters: Dict):
    traversal_path = parameters.get('traversal_path', self.default_traversal_path)
    batch_size = parameters.get('batch_size', self.default_batch_size)

    flat_docs = docs.traverse_flat(traversal_path)

    filtered_docs = [doc for doc in flat_docs if doc is not None and doc.blob is not None]

    return _batch_generator(filtered_docs, batch_size)

Name | Repo URL | PR

[x] Executor Transformer Torch Encoder | https://github.com/jina-ai/executor-transformer-torch-encoder | https://github.com/jina-ai/executor-transformer-torch-encoder/pull/5
[x] TFIDF Encoder | https://github.com/jina-ai/executor-text-tfidfencoder | https://github.com/jina-ai/executor-text-tfidfencoder/pull/5
[x] Paddle | https://github.com/jina-ai/executor-text-paddle | https://github.com/jina-ai/executor-text-paddle/pull/8
[x] Image Custom Torch Encoder | https://github.com/jina-ai/executor-image-custom-torch-encoder | https://github.com/jina-ai/executor-image-custom-torch-encoder/pull/4
[x] Text Clip | https://github.com/jina-ai/executor-text-clip-text-encoder | https://github.com/jina-ai/executor-text-clip-text-encoder/pull/4
[x] Big Transfer | https://github.com/jina-ai/executor-big-transfer-encoder | https://github.com/jina-ai/executor-big-transfer-encoder/pull/5
[x] Video Encoder | https://github.com/jina-ai/executor-video-torch-encoder | https://github.com/jina-ai/executor-video-torch-encoder/pull/8
[x] Sentence Transformer | https://github.com/jina-ai/executor-sentence-transformer | https://github.com/jina-ai/executor-sentence-transformer/pull/3
[x] Object Segmenter | https://github.com/jina-ai/executor-image-torch-object-detection-segmenter | https://github.com/jina-ai/executor-image-torch-object-detection-segmenter/pull/4
[x] Flair Text | https://github.com/jina-ai/executor-text-flair-encoder | https://github.com/jina-ai/executor-text-flair-encoder/pull/5
[x] Laser encoder | https://github.com/jina-ai/executor-text-laser-encoder | https://github.com/jina-ai/executor-text-laser-encoder/pull/5
[x] Image paddle | https://github.com/jina-ai/executor-image-paddle-encoder | https://github.com/jina-ai/executor-image-paddle-encoder/pull/5
[x] Image tf | https://github.com/jina-ai/executor-image-tf-encoder | https://github.com/jina-ai/executor-image-tf-encoder/pull/4
[x] clip image | https://github.com/jina-ai/executor-clip-image | https://github.com/jina-ai/executor-clip-image/pull/24

jina-ai / jina-commons

refactor: document batching #6