Đã cập nhật 1 tháng trước cách đây

A 1300-hour English speech and text corpus of parliamentary debates for (streaming) ASR training and benchmarking, speech data filtering and speech data verbatimization.

Đã cập nhật 7 tháng trước cách đây

This repository contains the code of the ACL 2022 paper "From Simultaneous to Streaming Machine Translation by Leveraging Streaming History".

Đã cập nhật 1 năm trước cách đây

This repository contains the code for the EMNLP 2021 paper "Stream-level Latency Evaluation for Simultaneous Machine Translation".

Đã cập nhật 1 năm trước cách đây

This repository contains the code for the segmentation system proposed in the EMNLP 2020 paper "Direct Segmentation Models for Streaming Speech Translation".

Đã cập nhật 1 năm trước cách đây

Đã cập nhật 1 năm trước cách đây

Early software by MLLP researchers (2010-2015): AK, GIDOC, jaf_Tools, Bilingual Text Classification.

Đã cập nhật 1 năm trước cách đây

Europarl-ST is a Multilingual Speech Translation Corpus which contains paired audio-text samples for Speech Translation, constructed using the debates carried out in the European Parliament in the period between 2008 and 2012.

Đã cập nhật 1 năm trước cách đây

Đã cập nhật 2 năm trước cách đây