Datasets:
audio_id
string
| language
class label
| audio
audio
| raw_text
string
| normalized_text
string
| gender
string
| speaker_id
string
| is_gold_transcript
bool
| accent
string
|
---|---|---|---|---|---|---|---|---|
"20140204-0900-PLENARY-23-cs_20140204-22:43:32_1" | 8
(cs) | "Musí být transparentní a srozumitelný, firmám musí zaručovat právní jistotu, musí usilovat o odstraňování zbytečných byrokratických překážek, ale současně musí umět zaručit a vymoci i vysokou úroveň ochrany spotřebitelů, a zejména jejich bezpečnost." | "musí být transparentní a srozumitelný firmám musí zaručovat právní jistotu musí usilovat o odstraňování zbytečných byrokratických překážek ale současně musí umět zaručit a vymoci i vysokou úroveň ochrany spotřebitelů a zejména jejich bezpečnost." | "female" | "96718" | true | "None" |
|
"20160414-0900-PLENARY-10-cs_20160414-13:44:10_1" | 8
(cs) | "Ve chvíli, kdy jsou data dostatečně chráněna předchozími právními texty, které také dnes byly schváleny, jsem přesvědčen, že vzhledem k trvale hrozícím teroristickým útokům v Evropě je nutné, aby policie při vyšetřování teroristických útoků a jiných forem závažné činnosti se mohla dostat k informacím, kdo kam letěl." | "ve chvíli kdy jsou data dostatečně chráněna předchozími právními texty které také dnes byly schváleny jsem přesvědčen že vzhledem k trvale hrozícím teroristickým útokům v evropě je nutné aby policie při vyšetřování teroristických útoků a jiných forem závažné činnosti se mohla dostat k informacím kdo kam letěl." | "male" | "125706" | true | "None" |
|
"20170912-0900-PLENARY-7-cs_20170912-12:00:04_3" | 8
(cs) | "A já se vás tedy ptám Opravdu je toto způsob, kterým se představujeme spolupráci a ochranu spotřebitelů?" | "a já se vás tedy ptám opravdu je toto způsob kterým se představujeme spolupráci a ochranu spotřebitelů?" | "female" | "23699" | true | "None" |
|
"20100211-0900-PLENARY-4-cs_20100211-10:15:07_4" | 8
(cs) | "Ačkoli on line gambling nezná hranice, jeho regulace se v každé členské zemi liší mírou zdanění, dostupnosti, kontroly i mírou právní odpovědnosti provozovatelů." | "ačkoli on line gambling nezná hranice jeho regulace se v každé členské zemi liší mírou zdanění dostupnosti kontroly i mírou právní odpovědnosti provozovatelů." | "female" | "28352" | true | "None" |
|
"20180613-0900-PLENARY-25-cs_20180613-22:30:27_4" | 8
(cs) | "Kultura a civilizace musí jít ruku v ruce." | "kultura a civilizace musí jít ruku v ruce." | "female" | "23699" | true | "None" |
|
"20171212-0900-PLENARY-18-cs_20171212-19:56:37_4" | 8
(cs) | "Takže buďme pro to, aby ona dohoda existovala, já ji považuji za velký úspěch i Vaší diplomacie, ale na druhou stranu, buďte pořád obezřetní, protože dohoda s takovýmto režimem může v jednu chvíli existovat, ale takovýto režim ji může kdykoliv vypovědět." | "takže buďme pro to aby ona dohoda existovala já ji považuji za velký úspěch i vaší diplomacie ale na druhou stranu buďte pořád obezřetní protože dohoda s takovýmto režimem může v jednu chvíli existovat ale takovýto režim ji může kdykoliv vypovědět." | "male" | "125706" | true | "None" |
|
"20170614-0900-PLENARY-7-cs_20170614-11:19:24_2" | 8
(cs) | "Zjevně by se tak rád vrátil do středověku, kde bylo popírání vědecky ověřitelných faktů na denním pořádku." | "zjevně by se tak rád vrátil do středověku kde bylo popírání vědecky ověřitelných faktů na denním pořádku." | "female" | "23699" | true | "None" |
|
"20171116-0900-PLENARY-15-cs_20171116-15:05:08_38" | 8
(cs) | "To rozhodně" | "to rozhodně" | "female" | "124710" | true | "None" |
|
"20150325-0900-PLENARY-15-cs_20150325-21:18:23_2" | 8
(cs) | "Bohužel, dramaticky to dopadá na podnikatele jiných zemí, kteří jsou tak buď nuceni porušovat domácí zákony, nebo se vystavit vysokým sankčním pokutám ze strany německých úřadů." | "bohužel dramaticky to dopadá na podnikatele jiných zemí kteří jsou tak buď nuceni porušovat domácí zákony nebo se vystavit vysokým sankčním pokutám ze strany německých úřadů." | "male" | "96713" | true | "None" |
|
"20090505-0900-PLENARY-11-cs_20090505-18:41:09_31" | 8
(cs) | "1. květnu tohoto roku podle návrhu, který je v závěrečné fázi, budou zpracovávány podle nových pravidel." | "one květnu tohoto roku podle návrhu který je v závěrečné fázi budou zpracovávány podle nových pravidel." | "male" | "36236" | true | "None" |
|
"20151005-0900-PLENARY-15-cs_20151005-22:40:00_1" | 8
(cs) | "Rozšíření ochrany zeměpisných označení na nezemědělské výrobky může mít pro jejich výrobce, spotřebitele i celé regiony řadu pozitivních dopadů." | "rozšíření ochrany zeměpisných označení na nezemědělské výrobky může mít pro jejich výrobce spotřebitele i celé regiony řadu pozitivních dopadů." | "female" | "96718" | true | "None" |
|
"20181001-0900-PLENARY-cs_20181001-21:42:57_4" | 8
(cs) | "To můžeme podpořit jedině tím, že budeme budovat infrastrukturu, zajistíme investice, dopravu, služby a dnes také internet." | "to můžeme podpořit jedině tím že budeme budovat infrastrukturu zajistíme investice dopravu služby a dnes také internet." | "female" | "124710" | true | "None" |
|
"20090310-0900-PLENARY-19-cs_20090310-21:02:17_12" | 8
(cs) | "Rozvoj služeb péče o děti přispívá rovněž k předcházení chudobě, zejména v rodinách s jedním rodičem, z nichž je více než třetina chudobou ohrožena." | "rozvoj služeb péče o děti přispívá rovněž k předcházení chudobě zejména v rodinách s jedním rodičem z nichž je více než třetina chudobou ohrožena." | "male" | "36236" | true | "None" |
|
"20160609-0900-PLENARY-5-cs_20160609-10:32:16_4" | 8
(cs) | "Já si myslím, že bychom měli reagovat na to, pokud jeden stát soustavně nedodržuje základní lidská práva." | "já si myslím že bychom měli reagovat na to pokud jeden stát soustavně nedodržuje základní lidská práva." | "male" | "124704" | true | "None" |
|
"20150916-0900-PLENARY-15-cs_20150916-20:36:29_1" | 8
(cs) | "Vytvoření flexibilního evropského energetického systému založeného na čistých moderních technologiích nepředstavuje hrozbu pro naši konkurenceschopnost." | "vytvoření flexibilního evropského energetického systému založeného na čistých moderních technologiích nepředstavuje hrozbu pro naši konkurenceschopnost." | "male" | "124699" | true | "None" |
|
"20151007-0900-PLENARY-3-cs_20151007-08:53:47_13" | 8
(cs) | "Děkuji za pozornost a dovolte mi vyjádřit všem pozůstalým a celé organizaci upřímnou soustrast." | "děkuji za pozornost a dovolte mi vyjádřit všem pozůstalým a celé organizaci upřímnou soustrast." | "female" | "23699" | true | "None" |
|
"20170119-0900-PLENARY-4-cs_20170119-10:50:20_3" | 8
(cs) | "Evropská unie by proto také měla postupovat ve smyslu doporučení Evropského parlamentu Radě z června 2013, které doporučuje podmínit poskytování rozvojové pomoci dodržováním svobody vyznání." | "evropská unie by proto také měla postupovat ve smyslu doporučení evropského parlamentu radě z června two thousand and thirteen které doporučuje podmínit poskytování rozvojové pomoci dodržováním svobody vyznání." | "male" | "96272" | true | "None" |
|
"20160427-0900-PLENARY-14-cs_20160427-19:57:32_8" | 8
(cs) | "Pokud totiž nebudeme útoky vyšetřovat a jasně ukazovat na viníky, budou nemocnice ničeny i nadále." | "pokud totiž nebudeme útoky vyšetřovat a jasně ukazovat na viníky budou nemocnice ničeny i nadále." | "female" | "23699" | true | "None" |
|
"20110609-0900-PLENARY-4-cs_20110609-11:18:18_1" | 8
(cs) | "v Německu, je politicky chybným rozhodnutím s pravděpodobně katastrofálními ekonomickými důsledky nejen pro Německo samotné, ale také nejméně pro středoevropský prostor." | "v německu je politicky chybným rozhodnutím s pravděpodobně katastrofálními ekonomickými důsledky nejen pro německo samotné ale také nejméně pro středoevropský prostor." | "male" | "28320" | true | "None" |
|
"20090504-0900-PLENARY-10-cs_20090504-18:44:16_63" | 8
(cs) | "V době hospodářské krize je třeba usilovat o to, aby podnikům, a zvláště pak malým rodinným podnikům, nevznikaly proti jejich vůli další náklady." | "v době hospodářské krize je třeba usilovat o to aby podnikům a zvláště pak malým rodinným podnikům nevznikaly proti jejich vůli další náklady." | "male" | "36236" | true | "None" |
|
"20150609-0900-PLENARY-15-cs_20150609-19:36:01_0" | 8
(cs) | "Pane předsedající, Vaším prostřednictvím bych měl na kolegyni dotaz, zda opravdu se domnívá, že je natolik fundovaným bezpečnostním expertem, který může hodnotit přínosy tohoto balíčku, který má za účel bezpečnost občanů EU." | "pane předsedající vaším prostřednictvím bych měl na kolegyni dotaz zda opravdu se domnívá že je natolik fundovaným bezpečnostním expertem který může hodnotit přínosy tohoto balíčku který má za účel bezpečnost občanů eu." | "male" | "124713" | true | "None" |
|
"20150909-0900-PLENARY-17-cs_20150909-22:25:58_15" | 8
(cs) | "Hlasováním o mé zprávě můžete na tyto otázky odpovědět." | "hlasováním o mé zprávě můžete na tyto otázky odpovědět." | "female" | "124709" | true | "None" |
|
"20181128-0900-PLENARY-cs_20181128-18:09:50_4" | 8
(cs) | "Za tuto aktivitu panu komisaři velmi děkuji." | "za tuto aktivitu panu komisaři velmi děkuji." | "male" | "96713" | true | "None" |
|
"20190327-0900-PLENARY-cs_20190327-21:35:17_8" | 8
(cs) | "Chceme však také zajistit stabilní prostředí pro podnikání." | "chceme však také zajistit stabilní prostředí pro podnikání." | "male" | "96272" | true | "None" |
|
"20160413-0900-PLENARY-17-cs_20160413-15:57:27_9" | 8
(cs) | "Určitě gratuluji a jsem velmi rád, že Parlament se může tímto úspěchem také pochlubit." | "určitě gratuluji a jsem velmi rád že parlament se může tímto úspěchem také pochlubit." | "male" | "124704" | true | "None" |
|
"20130701-0900-PLENARY-16-cs_20130701-19:28:30_3" | 8
(cs) | "Nicméně dovolte mi, abych poděkovala ostatních kolegům, zpravodajům a samozřejmě také stínovým zpravodajům za skutečně konstruktivní a dobrou spolupráci při přípravě tohoto balíčku." | "nicméně dovolte mi abych poděkovala ostatních kolegům zpravodajům a samozřejmě také stínovým zpravodajům za skutečně konstruktivní a dobrou spolupráci při přípravě tohoto balíčku." | "female" | "96718" | true | "None" |
|
"20160913-0900-PLENARY-19-cs_20160913-20:47:36_11" | 8
(cs) | "Co oni doopravdy potřebují?" | "co oni doopravdy potřebují?" | "male" | "124709" | true | "None" |
|
"20180417-0900-PLENARY-7-cs_20180417-13:55:24_5" | 8
(cs) | "Takže chci horovat pro to, aby se této problematice EU věnovala a aby například hledala velmi spolehlivé partnery a spojence, jako je například Ukrajina, protože tato země má mít naši podporu, a myslím, že zrovna v této oblasti zabezpečení bílkovin můžeme najít nové oblasti spolupráce a vzájemně podpořit i další kooperaci pro další období." | "takže chci horovat pro to aby se této problematice eu věnovala a aby například hledala velmi spolehlivé partnery a spojence jako je například ukrajina protože tato země má mít naši podporu a myslím že zrovna v této oblasti zabezpečení bílkovin můžeme najít nové oblasti spolupráce a vzájemně podpořit i další kooperaci pro další období." | "male" | "124704" | true | "None" |
|
"20140225-0900-PLENARY-14-cs_20140225-18:02:30_19" | 8
(cs) | "Členské státy si samy mohou vybrat způsob modernizace, který bude nejvhodnější pro jejich vnitrostátní strukturu i s ohledem na možné filtrování falešných hovorů, kde u některých členských států existuje obava ze zahlcení linky tísňového volání." | "členské státy si samy mohou vybrat způsob modernizace který bude nejvhodnější pro jejich vnitrostátní strukturu i s ohledem na možné filtrování falešných hovorů kde u některých členských států existuje obava ze zahlcení linky tísňového volání." | "female" | "96718" | true | "None" |
|
"20200212-0900-PLENARY-cs_20200212-21:16:09_1" | 8
(cs) | "Já sama jsem navštívila hotspot Moria a vím, jak tam ti lidé žijí, a přesto se nechtějí vrátit domů." | "já sama jsem navštívila hotspot moria a vím jak tam ti lidé žijí a přesto se nechtějí vrátit domů." | "female" | "124710" | true | "None" |
|
"20150325-0900-PLENARY-15-cs_20150325-20:59:45_3" | 8
(cs) | "Obávám se však, že německá vláda toho zneužila k tomu, aby získala konkurenční výhodu a zásadním způsobem narušila volný pohyb služeb na vnitřním trhu." | "obávám se však že německá vláda toho zneužila k tomu aby získala konkurenční výhodu a zásadním způsobem narušila volný pohyb služeb na vnitřním trhu." | "female" | "23699" | true | "None" |
|
"20090504-0900-PLENARY-10-cs_20090504-18:44:16_61" | 8
(cs) | "Návrh Komise totiž ukládá je to povinnost uložená zákonem členským státům aby vypomáhající manželé nebo manželky měli na požádání rovnocennou úroveň ochrany, jakou mají samostatně výdělečně činné osoby." | "návrh komise totiž ukládá je to povinnost uložená zákonem členským státům aby vypomáhající manželé nebo manželky měli na požádání rovnocennou úroveň ochrany jakou mají samostatně výdělečně činné osoby." | "male" | "36236" | true | "None" |
|
"20191127-0900-PLENARY-cs_20191127-16:48:20_7" | 8
(cs) | "Vměšování do našich členských států probíhá frontálním útokem ze strany Ruska, Číny, ale i dalších aktérů." | "vměšování do našich členských států probíhá frontálním útokem ze strany ruska číny ale i dalších aktérů." | "male" | "124704" | true | "None" |
|
"20130702-0900-PLENARY-20-cs_20130702-22:19:38_16" | 8
(cs) | "Jednoznačně diskutabilní je nastavená úroveň přijatelné míry chybovosti ve výši" | "jednoznačně diskutabilní je nastavená úroveň přijatelné míry chybovosti ve výši." | "female" | "96719" | true | "None" |
|
"20150910-0900-PLENARY-6-cs_20150910-11:15:17_0" | 8
(cs) | "Pane předsedající, já se připojuji ke kolegům, kteří zde jasně odsoudili současný totalitní režim v Angole. Vzpomínám si jako poslanec za Českou republiku, jak koncem sedmdesátých let a v osmdesátých letech jezdil prezident Santos do komunistického Československa a objímal se s tehdejšími komunistickými představiteli totalitní" | "pane předsedající já se připojuji ke kolegům kteří zde jasně odsoudili současný totalitní režim v angole. vzpomínám si jako poslanec za českou republiku jak koncem sedmdesátých let a v osmdesátých letech jezdil prezident santos do komunistického československa a objímal se s tehdejšími komunistickými představiteli totalitní" | "male" | "125706" | true | "None" |
|
"20140204-0900-PLENARY-23-cs_20140204-22:33:43_20" | 8
(cs) | "Společně se nám všem podařilo dokončit úspěšně tuto horizontální legislativu, která představuje důležitý milník na cestě k lépe fungujícímu a bezpečnějšímu vnitřnímu trhu, a tak mi tedy dovolte doporučit tyto směrnice v tomto vyjednaném znění schválit." | "společně se nám všem podařilo dokončit úspěšně tuto horizontální legislativu která představuje důležitý milník na cestě k lépe fungujícímu a bezpečnějšímu vnitřnímu trhu a tak mi tedy dovolte doporučit tyto směrnice v tomto vyjednaném znění schválit." | "female" | "28352" | true | "None" |
|
"20170601-0900-PLENARY-9-cs_20170601-12:24:25_3" | 8
(cs) | "Musíme proto podporovat digitální gramotnost všech skupin obyvatel včetně seniorů a menšin." | "musíme proto podporovat digitální gramotnost všech skupin obyvatel včetně seniorů a menšin." | "female" | "124710" | true | "None" |
|
"20120418-0900-PLENARY-3-cs_20120418-09:04:11_1" | 8
(cs) | "Nejprve bych chtěl poděkovat všem zpravodajům, stínovým zpravodajům a dalším spolupracovníkům, kteří se podíleli na tom, že dnes můžeme a já věřím, že s velkou podporou schválit tuto změnu nařízení." | "nejprve bych chtěl poděkovat všem zpravodajům stínovým zpravodajům a dalším spolupracovníkům kteří se podíleli na tom že dnes můžeme a já věřím že s velkou podporou schválit tuto změnu nařízení." | "male" | "28324" | true | "None" |
|
"20180612-0900-PLENARY-18-cs_20180612-20:25:01_4" | 8
(cs) | "Máme jaksi jiná pravidla a je třeba tedy, aby ta obranná složka, obranná část byla primárně na úrovni NATO." | "máme jaksi jiná pravidla a je třeba tedy aby ta obranná složka obranná část byla primárně na úrovni nato." | "male" | "125706" | true | "None" |
|
"20090324-0900-PLENARY-3-cs_20090324-09:11:40_11" | 8
(cs) | "Mnoho měst se ale na druhé straně potýká s řadou závažných problémů." | "mnoho měst se ale na druhé straně potýká s řadou závažných problémů." | "male" | "28323" | true | "None" |
|
"20191021-0900-PLENARY-cs_20191021-21:28:35_3" | 8
(cs) | "Narazit tam mohou nejen na youtuberku Natalii Trybusovou, která se snaží chybějící sexuální výchovu ve školách suplovat, ale i na velké množství pochybných a nebezpečných zdrojů. V polském Sejmu leží kontroverzní zákon, který počítá s trestem tří až pěti let vězení za výuku sexuální výchovy." | "narazit tam mohou nejen na youtuberku natalii trybusovou která se snaží chybějící sexuální výchovu ve školách suplovat ale i na velké množství pochybných a nebezpečných zdrojů. v polském sejmu leží kontroverzní zákon který počítá s trestem tří až pěti let vězení za výuku sexuální výchovy." | "female" | "197522" | true | "None" |
|
"20191113-0900-PLENARY-cs_20191113-19:44:31_2" | 8
(cs) | "To jsou válečné akty Turecka proti členským zemím Evropské unie podle mezinárodního práva." | "to jsou válečné akty turecka proti členským zemím evropské unie podle mezinárodního práva." | "male" | "197556" | true | "None" |
|
"20190326-0900-PLENARY-cs_20190326-13:48:05_2" | 8
(cs) | "Nadbytečná regulace určitě takovému trhu brání." | "nadbytečná regulace určitě takovému trhu brání." | "male" | "124704" | true | "None" |
|
"20191217-0900-PLENARY-cs_20191217-15:19:28_8" | 8
(cs) | "Pokud jsme objevili nedostatky v systému, nyní je ten nejlepší čas s tím něco udělat." | "pokud jsme objevili nedostatky v systému nyní je ten nejlepší čas s tím něco udělat." | "female" | "124709" | true | "None" |
|
"20131010-0900-PLENARY-5-cs_20131010-09:50:34_6" | 8
(cs) | "Je proto třeba, abychom alespoň my na toto téma opakovaně upozorňovali." | "je proto třeba abychom alespoň my na toto téma opakovaně upozorňovali." | "male" | "28323" | true | "None" |
|
"20181128-0900-PLENARY-cs_20181128-23:54:42_3" | 8
(cs) | "Já si myslím, že takovýto postup je dlouhodobě neakceptovatelný a jsme jeho svědky vlastně právě dlouhodobě." | "já si myslím že takovýto postup je dlouhodobě neakceptovatelný a jsme jeho svědky vlastně právě dlouhodobě." | "male" | "124704" | true | "None" |
|
"20170516-0900-PLENARY-14-cs_20170516-17:08:05_1" | 8
(cs) | "Otázkou zůstává, na kolik jsou cíle proklamované v této strategii realistické, jestliže velkou část syrského území stále ovládá Islámský stát a když Asadova a Putinova armáda místo džihádistů masakruje umírněnou opozici." | "otázkou zůstává na kolik jsou cíle proklamované v této strategii realistické jestliže velkou část syrského území stále ovládá islámský stát a když asadova a putinova armáda místo džihádistů masakruje umírněnou opozici." | "female" | "124710" | true | "None" |
|
"20190917-0900-PLENARY-cs_20190917-16:41:03_8" | 8
(cs) | "A také vytvořen systém rychlého varování, který má usnadnit zaprvé sdílení poznatků členských států týkajících se těchto dezinformačních kampaní a také koordinovat reakce na ně, to je velmi důležité." | "a také vytvořen systém rychlého varování který má usnadnit zaprvé sdílení poznatků členských států týkajících se těchto dezinformačních kampaní a také koordinovat reakce na ně to je velmi důležité." | "male" | "124704" | true | "None" |
|
"20170403-0900-PLENARY-17-cs_20170403-20:05:59_23" | 8
(cs) | "Tlačit na co nejambicióznější certifikační schémata." | "tlačit na co nejambicióznější certifikační schémata." | "female" | "23699" | true | "None" |
|
"20151014-0900-PLENARY-15-cs_20151014-22:01:39_4" | 8
(cs) | "Jak se hodláme do budoucna zaměřit na boj s těmito problémy?" | "jak se hodláme do budoucna zaměřit na boj s těmito problémy?" | "male" | "124713" | true | "None" |
|
"20180206-0900-PLENARY-19-cs_20180206-19:23:34_0" | 8
(cs) | "Pane předsedající, já jsem velmi pozorně poslouchal celou tu rozpravu a musím říci, že já jsem relativně skeptický k demokratickému vývoji v této zemi. Odchod Mugabeho v listopadu je určitě radostnou zprávou, ale úřadující premiér zatím spíše o reformách hovoří a volby zatím vyhlášeny nebyly." | "pane předsedající já jsem velmi pozorně poslouchal celou tu rozpravu a musím říci že já jsem relativně skeptický k demokratickému vývoji v této zemi. odchod mugabeho v listopadu je určitě radostnou zprávou ale úřadující premiér zatím spíše o reformách hovoří a volby zatím vyhlášeny nebyly." | "male" | "125706" | true | "None" |
|
"20180911-0900-PLENARY-witholdRO-cs_20180911-18:15:06_3" | 8
(cs) | "Ovšem jakou formou, to už je jiná píseň." | "ovšem jakou formou to už je jiná píseň." | "male" | "23704" | true | "None" |
|
"20110405-0900-PLENARY-10-cs_20110405-17:59:01_5" | 8
(cs) | "Česká republika, která je zmíněna v této zprávě, však ještě tuto úmluvu neratifikovala, jelikož je nutné zavedení trestněprávní odpovědnosti právnických osob." | "česká republika která je zmíněna v této zprávě však ještě tuto úmluvu neratifikovala jelikož je nutné zavedení trestněprávní odpovědnosti právnických osob." | "female" | "96719" | true | "None" |
|
"20150609-0900-PLENARY-13-cs_20150609-16:37:39_16" | 8
(cs) | "Dnes používané technologie mají jednoznačně negativní dopad na zdraví občanů a kvalitu životního prostředí." | "dnes používané technologie mají jednoznačně negativní dopad na zdraví občanů a kvalitu životního prostředí." | "male" | "124699" | true | "None" |
|
"20150128-0900-PLENARY-9-cs_20150128-19:15:43_6" | 8
(cs) | "Považuji za velmi důležité, aby se snížily emise skleníkových plynů, avšak nesmíme ztrácet ze zřetele ani zaměstnanost, ceny energií a to především sami u sebe a u nás doma." | "považuji za velmi důležité aby se snížily emise skleníkových plynů avšak nesmíme ztrácet ze zřetele ani zaměstnanost ceny energií a to především sami u sebe a u nás doma." | "female" | "23699" | true | "None" |
|
"20120910-0900-PLENARY-16-cs_20120910-17:38:25_1" | 8
(cs) | "Chtěl bych proto moc poděkovat zpravodajce za to, že se jí podařilo odmoderovat legislativní proces přijímaní takto významné normy." | "chtěl bych proto moc poděkovat zpravodajce za to že se jí podařilo odmoderovat legislativní proces přijímaní takto významné normy." | "male" | "96704" | true | "None" |
|
"20170705-0900-PLENARY-14-cs_20170705-16:22:59_3" | 8
(cs) | "Proto zpráva Evropského parlamentu vyzývá k pozastavení přístupových jednání i předvstupní pomoci." | "proto zpráva evropského parlamentu vyzývá k pozastavení přístupových jednání i předvstupní pomoci." | "female" | "124710" | true | "None" |
|
"20170201-0900-PLENARY-18-cs_20170201-23:40:29_2" | 8
(cs) | "Je to případ českého humanitárního pracovníka Petra Ježka, který byl tento víkend odsouzen k více než 20 letům vězení na základě vykonstruovaného obvinění z protistátní činnosti a špionáže." | "je to případ českého humanitárního pracovníka petra ježka který byl tento víkend odsouzen k více než twenty letům vězení na základě vykonstruovaného obvinění z protistátní činnosti a špionáže." | "male" | "124713" | true | "None" |
|
"20181025-0900-PLENARY-cs_20181025-09:19:52_31" | 8
(cs) | "Některé důležité normy, jako např." | "některé důležité normy jako např." | "male" | "23699" | true | "None" |
|
"20150310-0900-PLENARY-16-cs_20150310-16:46:10_0" | 8
(cs) | "Já si nemyslím, že by Evropská unie, pokud by měla fungovat, neměla disponovat finančními prostředky." | "já si nemyslím že by evropská unie pokud by měla fungovat neměla disponovat finančními prostředky." | "male" | "124713" | true | "None" |
|
"20101123-0900-PLENARY-12-cs_20101123-16:17:29_2" | 8
(cs) | "To je samozřejmě něco, co je pro mě naprosto nepřijatelné, co se podařit nemůže a co se podařit nesmí." | "to je samozřejmě něco co je pro mě naprosto nepřijatelné co se podařit nemůže a co se podařit nesmí." | "male" | "23712" | true | "None" |
|
"20170911-0900-PLENARY-16-cs_20170911-18:43:59_1" | 8
(cs) | "Násilí je smutná realita a nevyhýbá se ani tak kulturně vyspělé společnosti, jako je ta evropská." | "násilí je smutná realita a nevyhýbá se ani tak kulturně vyspělé společnosti jako je ta evropská." | "female" | "124710" | true | "None" |
|
"20170912-0900-PLENARY-26-cs_20170912-22:56:41_5" | 8
(cs) | "Je to v souvislosti s rozvojovou pomocí zcela zjevné." | "je to v souvislosti s rozvojovou pomocí zcela zjevné." | "male" | "124704" | true | "None" |
|
"20191125-0900-PLENARY-cs_20191125-22:00:13_0" | 8
(cs) | "Paní předsedající, i já bych chtěl vyjádřit hlubokou solidaritu jak našemu členskému státu Litvě, tak samozřejmě jeho institucím a občanům." | "paní předsedající i já bych chtěl vyjádřit hlubokou solidaritu jak našemu členskému státu litvě tak samozřejmě jeho institucím a občanům." | "male" | "124704" | true | "None" |
|
"20200115-0900-PLENARY-cs_20200115-13:52:26_4" | 8
(cs) | "To, co ovšem mě na tom trápí, je, že některá hlasování, která prošla, podle mého názoru jsou škodlivá ve výsledku." | "to co ovšem mě na tom trápí je že některá hlasování která prošla podle mého názoru jsou škodlivá ve výsledku." | "male" | "124704" | true | "None" |
|
"20151006-0900-PLENARY-15-cs_20151006-20:17:06_4" | 8
(cs) | "Nikde také nestoupl počet těchto hrdelních zločinů, pokud byl trest smrt zrušen, to je, myslím, velmi podstatné, aby zde zaznělo." | "nikde také nestoupl počet těchto hrdelních zločinů pokud byl trest smrt zrušen to je myslím velmi podstatné aby zde zaznělo." | "male" | "124704" | true | "None" |
|
"20191126-0900-PLENARY-cs_20191126-18:12:50_7" | 8
(cs) | "V urbanizovaném prostředí je třeba zamezit vzniku či omezit dopady takzvaného tepelného ostrova města podporou nižšího albeda povrchů, zvýšením například podílu vegetačních ploch s půdou, využitím vodních prvků a pomalejším odtokem vody z městského prostředí." | "v urbanizovaném prostředí je třeba zamezit vzniku či omezit dopady takzvaného tepelného ostrova města podporou nižšího albeda povrchů zvýšením například podílu vegetačních ploch s půdou využitím vodních prvků a pomalejším odtokem vody z městského prostředí." | "male" | "124704" | true | "None" |
|
"20180913-0900-PLENARY-cs_20180913-09:20:36_11" | 8
(cs) | "I u dětské výživy pro kojence?" | "i u dětské výživy pro kojence?" | "female" | "96718" | true | "None" |
|
"20150707-0900-PLENARY-18-cs_20150707-23:02:51_2" | 8
(cs) | "Zároveň si ovšem myslím, že nemůžeme přehlédnout jednu otázku, a to je otázka porušování lidských práv, protože my se zde v debatách, které se týkají urgentních debat o porušování lidských práv, zabýváme mnohdy právě zeměmi, které lidská práva porušují." | "zároveň si ovšem myslím že nemůžeme přehlédnout jednu otázku a to je otázka porušování lidských práv protože my se zde v debatách které se týkají urgentních debat o porušování lidských práv zabýváme mnohdy právě zeměmi které lidská práva porušují." | "male" | "124704" | true | "None" |
|
"20170518-0900-PLENARY-4-cs_20170518-09:55:17_3" | 8
(cs) | "ty rozdíly, o kterých vy jste hovořil, by byly daleko markantnější mezi jednotlivými regiony a dokonce tedy i uvnitř některých států." | "ty rozdíly o kterých vy jste hovořil by byly daleko markantnější mezi jednotlivými regiony a dokonce tedy i uvnitř některých států." | "male" | "124704" | true | "None" |
|
"20170215-0900-PLENARY-17-cs_20170215-20:32:18_6" | 8
(cs) | "Teď nastal čas, že pokud nic neuděláte, tak to bude horší a horší a jenom dokážete evropským občanům, že Evropská komise když má, tak nečiní a jenom kouká." | "teď nastal čas že pokud nic neuděláte tak to bude horší a horší a jenom dokážete evropským občanům že evropská komise když má tak nečiní a jenom kouká." | "female" | "23699" | true | "None" |
|
"20190116-0900-PLENARY-cs_20190116-15:49:03_1" | 8
(cs) | "Tato organizace sbírá svědectví a předává je žákům ve školách i celé společnosti." | "tato organizace sbírá svědectví a předává je žákům ve školách i celé společnosti." | "female" | "124710" | true | "None" |
|
"20151014-0900-PLENARY-16-cs_20151014-22:39:53_0" | 8
(cs) | "Paní předsedající, na půdě Evropského parlamentu musím opět upozornit na velkou nespravedlnost, která se děje ve věci ochrany práv dětí, občanů Evropské unie, které jsou protiprávně zadržovány a svěřovány do adopce." | "paní předsedající na půdě evropského parlamentu musím opět upozornit na velkou nespravedlnost která se děje ve věci ochrany práv dětí občanů evropské unie které jsou protiprávně zadržovány a svěřovány do adopce." | "female" | "124710" | true | "None" |
|
"20171023-0900-PLENARY-16-cs_20171023-20:21:28_2" | 8
(cs) | "Při prosazování regulace na evropské úrovni ale doporučuji, abychom byli velmi obezřetní." | "při prosazování regulace na evropské úrovni ale doporučuji abychom byli velmi obezřetní." | "female" | "124710" | true | "None" |
|
"20141126-0900-PLENARY-15-cs_20141126-19:46:24_1" | 8
(cs) | "Nepřipadá vám pokrytecké mluvit o tom, že zisk má být zdaňován tam, kde vzniká, a že zároveň Evropskou komisi vede pan Juncker, který byl premiérem v zemi, která je a byla daňovým rájem a která nabízela výhodné daňové sazby těm, kteří přijdou zdaňovat do jeho země? Mluvíte o obchodu, já souhlasím s tím, že volný obchod" | "nepřipadá vám pokrytecké mluvit o tom že zisk má být zdaňován tam kde vzniká a že zároveň evropskou komisi vede pan juncker který byl premiérem v zemi která je a byla daňovým rájem a která nabízela výhodné daňové sazby těm kteří přijdou zdaňovat do jeho země? mluvíte o obchodu já souhlasím s tím že volný obchod" | "male" | "84175" | true | "None" |
|
"20160913-0900-PLENARY-14-cs_20160913-17:02:55_10" | 8
(cs) | "Chcete, aby v tomto sále sedělo 100 Turků a hlasovalo s námi o migrační politice, o právech mužů a žen?" | "chcete aby v tomto sále sedělo one hundred turků a hlasovalo s námi o migrační politice o právech mužů a žen?" | "male" | "84175" | true | "None" |
|
"20090325-0900-PLENARY-3-cs_20090325-10:51:06_3" | 8
(cs) | "A tyto vlastnosti a neschopnost spolupráce jsou pravou příčinou pádu jeho vlády." | "a tyto vlastnosti a neschopnost spolupráce jsou pravou příčinou pádu jeho vlády." | "male" | "23707" | true | "None" |
|
"20170406-0900-PLENARY-14-cs_20170406-15:11:58_1" | 8
(cs) | "Jak jsem často kritický k tomu, jak zde vystupují zástupci Komise, tak teď musím říci, že já osobně s tou odpovědí souhlasím." | "jak jsem často kritický k tomu jak zde vystupují zástupci komise tak teď musím říci že já osobně s tou odpovědí souhlasím." | "male" | "125706" | true | "None" |
|
"20140113-0900-PLENARY-18-cs_20140113-21:29:24_9" | 8
(cs) | "Odpověď Komise byla bohužel dosud vždy stejná pokud je bezpečnost těchto produktů v pořádku, pak kvalita je věcí relativní a v případě potravin otázkou chuťových a cenových preferencí." | "odpověď komise byla bohužel dosud vždy stejná pokud je bezpečnost těchto produktů v pořádku pak kvalita je věcí relativní a v případě potravin otázkou chuťových a cenových preferencí." | "female" | "96718" | true | "None" |
|
"20170517-0900-PLENARY-18-cs_20170517-17:51:30_1" | 8
(cs) | "Poté, co zavedeme nějaké opatření, tak ho hned musíme kritizovat a nepočkáme na jeho dopady a na jeho zaběhnutí." | "poté co zavedeme nějaké opatření tak ho hned musíme kritizovat a nepočkáme na jeho dopady a na jeho zaběhnutí." | "male" | "124713" | true | "None" |
|
"20090506-0900-PLENARY-14-cs_20090506-19:10:07_2" | 8
(cs) | "Myslím, že z toho výčtu opatření, kterými se Rada v minulých měsících a v minulých letech zabývala, je evidentní, že tato problematika byla a zůstává další prioritou, a to i v rámci toho komplexního evropského plánu, který stanovil" | "myslím že z toho výčtu opatření kterými se rada v minulých měsících a v minulých letech zabývala je evidentní že tato problematika byla a zůstává další prioritou a to i v rámci toho komplexního evropského plánu který stanovil" | "male" | "95982" | true | "None" |
|
"20200210-0900-PLENARY-cs_20200210-19:59:17_6" | 8
(cs) | "Stavu, ve kterém vítězí chamtivost, klam a ohýbání práva." | "stavu ve kterém vítězí chamtivost klam a ohýbání práva." | "female" | "23699" | true | "None" |
|
"20170515-0900-PLENARY-10-cs_20170515-17:49:05_6" | 8
(cs) | "Ochrana evropských finančních zájmů by měla být jednou z klíčových priorit EU." | "ochrana evropských finančních zájmů by měla být jednou z klíčových priorit eu." | "male" | "124713" | true | "None" |
|
"20151126-0900-PLENARY-3-cs_20151126-09:19:23_4" | 8
(cs) | "Musíme hledat novou rovnováhu mezi dodržováním formalit a silnějším zaměřením na výsledky." | "musíme hledat novou rovnováhu mezi dodržováním formalit a silnějším zaměřením na výsledky." | "female" | "124709" | true | "None" |
|
"20160414-0900-PLENARY-3-cs_20160414-09:24:48_4" | 8
(cs) | "To si vážně myslíte, že mají členské státy regulovat nájemné?" | "to si vážně myslíte že mají členské státy regulovat nájemné?" | "male" | "84175" | true | "None" |
|
"20170405-0900-PLENARY-9-cs_20170405-12:46:28_2" | 8
(cs) | "Je li naším cílem se dohodnout na dobré spolupráci do budoucna a na obchodních dohodách, tak mám pocit, že třeba bod šest, který jasně říká, že Velká Británie nemůže vyjednávat se třetími zeměmi obchodní smlouvy do doby ukončení svého členství v Evropské unii, že takováto ustanovení za prvé Velká Británie nebude muset dodržet a za druhé že jsou příliš tvrdá." | "je li naším cílem se dohodnout na dobré spolupráci do budoucna a na obchodních dohodách tak mám pocit že třeba bod šest který jasně říká že velká británie nemůže vyjednávat se třetími zeměmi obchodní smlouvy do doby ukončení svého členství v evropské unii že takováto ustanovení za prvé velká británie nebude muset dodržet a za druhé že jsou příliš tvrdá." | "male" | "125706" | true | "None" |
|
"20141126-0900-PLENARY-15-cs_20141126-19:46:24_2" | 8
(cs) | "může podpořit růst, ale nepřipadá vám pokrytecké, že na jedné straně sjednáváte obchodní dohodu se Spojenými státy, která obsahuje doložku o arbitrážích, a zároveň vaši poslanci budou navrhovat zítra rozdělení společnosti Google?" | "může podpořit růst ale nepřipadá vám pokrytecké že na jedné straně sjednáváte obchodní dohodu se spojenými státy která obsahuje doložku o arbitrážích a zároveň vaši poslanci budou navrhovat zítra rozdělení společnosti google?" | "male" | "84175" | true | "None" |
|
"20190918-0900-PLENARY-cs_20190918-12:15:57_2" | 8
(cs) | "Právě proto se domnívám, že Evropský parlament zareagoval správně, když navrhuje případné odložení pro případ, že dohoda nebude uzavřena." | "právě proto se domnívám že evropský parlament zareagoval správně když navrhuje případné odložení pro případ že dohoda nebude uzavřena." | "male" | "124710" | true | "None" |
|
"20110512-0900-PLENARY-3-cs_20110512-09:56:24_2" | 8
(cs) | "Právě digitalizace by měla zvýšit přístup široké veřejnosti k materiálům nezbytným ke studiu, poznávání a vzdělávání a posilování kulturní identity." | "právě digitalizace by měla zvýšit přístup široké veřejnosti k materiálům nezbytným ke studiu poznávání a vzdělávání a posilování kulturní identity." | "male" | "28323" | true | "None" |
|
"20171003-0900-PLENARY-10-cs_20171003-15:19:36_8" | 8
(cs) | "Chci zdůraznit, že brána na Balkán Moldavsko by se neměla stát místem doutnajícího konfliktu či druhou Ukrajinou." | "chci zdůraznit že brána na balkán moldavsko by se neměla stát místem doutnajícího konfliktu či druhou ukrajinou." | "male" | "23704" | true | "None" |
|
"20190214-0900-PLENARY-cs_20190214-09:50:13_1" | 8
(cs) | "Jsem v kontaktu s nevládním sektorem a z faktů, které mám, pane komisaři, musím říct, že můj pohled je úplně opačný od Vašeho." | "jsem v kontaktu s nevládním sektorem a z faktů které mám pane komisaři musím říct že můj pohled je úplně opačný od vašeho." | "male" | "125706" | true | "None" |
|
"20180208-0900-PLENARY-13-cs_20180208-12:50:30_2" | 8
(cs) | "To není zápas UNRWA, této organizace, to není zápas mezi Izraelem a Palestinou, to není zápas mezi Evropskou unií a Spojenými státy, to je o tom, že musíme pomáhat lidem, kteří to potřebují." | "to není zápas unrwa této organizace to není zápas mezi izraelem a palestinou to není zápas mezi evropskou unií a spojenými státy to je o tom že musíme pomáhat lidem kteří to potřebují." | "male" | "124713" | true | "None" |
|
"20090423-0900-PLENARY-18-cs_20090423-17:01:21_6" | 8
(cs) | "Evropská unie je připravena spolupracovat a pomoci přivést Moldavsko blíže k Evropské unii. Základem je však demokratické Moldavsko, Moldavsko, které respektuje lidská práva, Moldavsko, kde je svoboda slova a kde fungují základní demokratické instituce." | "evropská unie je připravena spolupracovat a pomoci přivést moldavsko blíže k evropské unii. základem je však demokratické moldavsko moldavsko které respektuje lidská práva moldavsko kde je svoboda slova a kde fungují základní demokratické instituce." | "male" | "95115" | true | "None" |
|
"20170215-0900-PLENARY-9-cs_20170215-13:41:46_1" | 8
(cs) | "Jsem velmi rád, že jsem byl u tohoto historického hlasování, a jsem přesvědčen, že tato dohoda povede k posílení obchodních vztahů mezi Evropskou unií a Kanadou." | "jsem velmi rád že jsem byl u tohoto historického hlasování a jsem přesvědčen že tato dohoda povede k posílení obchodních vztahů mezi evropskou unií a kanadou." | "male" | "125706" | true | "None" |
|
"20170517-0900-PLENARY-21-cs_20170517-21:28:47_3" | 8
(cs) | "Proto je dobře, že zde na půdě Parlamentu projednáváme otázky pracovního práva v Bangladéši." | "proto je dobře že zde na půdě parlamentu projednáváme otázky pracovního práva v bangladéši." | "male" | "125706" | true | "None" |
|
"20180614-0900-PLENARY-11-cs_20180614-12:52:22_1" | 8
(cs) | "Společný rámec pro posuzování proporcionality zvýší transparentnost a předvídatelnost národní regulace." | "společný rámec pro posuzování proporcionality zvýší transparentnost a předvídatelnost národní regulace." | "female" | "124710" | true | "None" |
|
"20120704-0900-PLENARY-12-cs_20120704-17:55:51_1" | 8
(cs) | "Chtěl bych za prvé poděkovat zpravodajce za odvedenou práci." | "chtěl bych za prvé poděkovat zpravodajce za odvedenou práci." | "male" | "23704" | true | "None" |
|
"20101020-0900-PLENARY-12-cs_20101020-17:36:33_5" | 8
(cs) | "Moji kolegové je zřejmě považují za lepší partnery než současnou vládu." | "moji kolegové je zřejmě považují za lepší partnery než současnou vládu." | "male" | "28331" | true | "None" |
|
"20100209-0900-PLENARY-11-cs_20100209-19:30:26_7" | 8
(cs) | "Je proto dobře, že navrhovaná změna rozšiřuje možné alokace z evropských fondů do bydlení marginalizovaných skupin a že umožňuje investovat prostředky nejenom ve městech, ale i na venkově, a to jak formou oprav existujícího bytového fondu, tak novou bytovou výstavbou." | "je proto dobře že navrhovaná změna rozšiřuje možné alokace z evropských fondů do bydlení marginalizovaných skupin a že umožňuje investovat prostředky nejenom ve městech ale i na venkově a to jak formou oprav existujícího bytového fondu tak novou bytovou výstavbou." | "male" | "28323" | true | "None" |
|
"20160414-0900-PLENARY-14-cs_20160414-15:10:37_9" | 8
(cs) | "S ním přirozeně i koncept dopravy na tomto systému založený." | "s ním přirozeně i koncept dopravy na tomto systému založený." | "male" | "124704" | true | "None" |
Dataset Card for Voxpopuli
Dataset Summary
VoxPopuli is a large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation. The raw data is collected from 2009-2020 European Parliament event recordings. We acknowledge the European Parliament for creating and sharing these materials. This implementation contains transcribed speech data for 18 languages. It also contains 29 hours of transcribed speech data of non-native English intended for research in ASR for accented speech (15 L2 accents)
Example usage
VoxPopuli contains labelled data for 18 languages. To load a specific language pass its name as a config name:
from datasets import load_dataset
voxpopuli_croatian = load_dataset("facebook/voxpopuli", "hr")
To load all the languages in a single dataset use "multilang" config name:
voxpopuli_all = load_dataset("facebook/voxpopuli", "multilang")
To load a specific set of languages, use "multilang" config name and pass a list of required languages to languages
parameter:
voxpopuli_slavic = load_dataset("facebook/voxpopuli", "multilang", languages=["hr", "sk", "sl", "cs", "pl"])
To load accented English data, use "en_accented" config name:
voxpopuli_accented = load_dataset("facebook/voxpopuli", "en_accented")
Note that L2 English subset contains only test
split.
Supported Tasks and Leaderboards
- automatic-speech-recognition: The dataset can be used to train a model for Automatic Speech Recognition (ASR). The model is presented with an audio file and asked to transcribe the audio file to written text. The most common evaluation metric is the word error rate (WER).
Accented English subset can also be used for research in ASR for accented speech (15 L2 accents)
Languages
VoxPopuli contains labelled (transcribed) data for 18 languages:
Language | Code | Transcribed Hours | Transcribed Speakers | Transcribed Tokens |
---|---|---|---|---|
English | En | 543 | 1313 | 4.8M |
German | De | 282 | 531 | 2.3M |
French | Fr | 211 | 534 | 2.1M |
Spanish | Es | 166 | 305 | 1.6M |
Polish | Pl | 111 | 282 | 802K |
Italian | It | 91 | 306 | 757K |
Romanian | Ro | 89 | 164 | 739K |
Hungarian | Hu | 63 | 143 | 431K |
Czech | Cs | 62 | 138 | 461K |
Dutch | Nl | 53 | 221 | 488K |
Finnish | Fi | 27 | 84 | 160K |
Croatian | Hr | 43 | 83 | 337K |
Slovak | Sk | 35 | 96 | 270K |
Slovene | Sl | 10 | 45 | 76K |
Estonian | Et | 3 | 29 | 18K |
Lithuanian | Lt | 2 | 21 | 10K |
Total | 1791 | 4295 | 15M |
Accented speech transcribed data has 15 various L2 accents:
Accent | Code | Transcribed Hours | Transcribed Speakers |
---|---|---|---|
Dutch | en_nl | 3.52 | 45 |
German | en_de | 3.52 | 84 |
Czech | en_cs | 3.30 | 26 |
Polish | en_pl | 3.23 | 33 |
French | en_fr | 2.56 | 27 |
Hungarian | en_hu | 2.33 | 23 |
Finnish | en_fi | 2.18 | 20 |
Romanian | en_ro | 1.85 | 27 |
Slovak | en_sk | 1.46 | 17 |
Spanish | en_es | 1.42 | 18 |
Italian | en_it | 1.11 | 15 |
Estonian | en_et | 1.08 | 6 |
Lithuanian | en_lt | 0.65 | 7 |
Croatian | en_hr | 0.42 | 9 |
Slovene | en_sl | 0.25 | 7 |
Dataset Structure
Data Instances
{
'audio_id': '20180206-0900-PLENARY-15-hr_20180206-16:10:06_5',
'language': 11, # "hr"
'audio': {
'path': '/home/polina/.cache/huggingface/datasets/downloads/extracted/44aedc80bb053f67f957a5f68e23509e9b181cc9e30c8030f110daaedf9c510e/train_part_0/20180206-0900-PLENARY-15-hr_20180206-16:10:06_5.wav',
'array': array([-0.01434326, -0.01055908, 0.00106812, ..., 0.00646973], dtype=float32),
'sampling_rate': 16000
},
'raw_text': '',
'normalized_text': 'poast genitalnog sakaenja ena u europi tek je jedna od manifestacija takve tetne politike.',
'gender': 'female',
'speaker_id': '119431',
'is_gold_transcript': True,
'accent': 'None'
}
Data Fields
audio_id
(string) - id of audio segmentlanguage
(datasets.ClassLabel) - numerical id of audio segmentaudio
(datasets.Audio) - a dictionary containing the path to the audio, the decoded audio array, and the sampling rate. In non-streaming mode (default), the path points to the locally extracted audio. In streaming mode, the path is the relative path of an audio inside its archive (as files are not downloaded and extracted locally).raw_text
(string) - original (orthographic) audio segment textnormalized_text
(string) - normalized audio segment transcriptiongender
(string) - gender of speakerspeaker_id
(string) - id of speakeris_gold_transcript
(bool) - ?accent
(string) - type of accent, for example "en_lt", if applicable, else "None".
Data Splits
All configs (languages) except for accented English contain data in three splits: train, validation and test. Accented English en_accented
config contains only test split.
Dataset Creation
Curation Rationale
[More Information Needed]
Source Data
The raw data is collected from 2009-2020 European Parliament event recordings
Initial Data Collection and Normalization
The VoxPopuli transcribed set comes from aligning the full-event source speech audio with the transcripts for plenary sessions. Official timestamps are available for locating speeches by speaker in the full session, but they are frequently inaccurate, resulting in truncation of the speech or mixture of fragments from the preceding or the succeeding speeches. To calibrate the original timestamps, we perform speaker diarization (SD) on the full-session audio using pyannote.audio (Bredin et al.2020) and adopt the nearest SD timestamps (by L1 distance to the original ones) instead for segmentation. Full-session audios are segmented into speech paragraphs by speaker, each of which has a transcript available.
The speech paragraphs have an average duration of 197 seconds, which leads to significant. We hence further segment these paragraphs into utterances with a maximum duration of 20 seconds. We leverage speech recognition (ASR) systems to force-align speech paragraphs to the given transcripts. The ASR systems are TDS models (Hannun et al., 2019) trained with ASG criterion (Collobert et al., 2016) on audio tracks from in-house deidentified video data.
The resulting utterance segments may have incorrect transcriptions due to incomplete raw transcripts or inaccurate ASR force-alignment. We use the predictions from the same ASR systems as references and filter the candidate segments by a maximum threshold of 20% character error rate(CER).
Who are the source language producers?
Speakers are participants of the European Parliament events, many of them are EU officials.
Annotations
Annotation process
[More Information Needed]
Who are the annotators?
[More Information Needed]
Personal and Sensitive Information
[More Information Needed]
Considerations for Using the Data
Social Impact of Dataset
[More Information Needed]
Discussion of Biases
Gender speakers distribution is imbalanced, percentage of female speakers is mostly lower than 50% across languages, with the minimum of 15% for the Lithuanian language data.
VoxPopuli includes all available speeches from the 2009-2020 EP events without any selections on the topics or speakers. The speech contents represent the standpoints of the speakers in the EP events, many of which are EU officials.
Other Known Limitations
Additional Information
Dataset Curators
[More Information Needed]
Licensing Information
The dataset is distributet under CC0 license, see also European Parliament's legal notice for the raw data.
Citation Information
Please cite this paper:
@inproceedings{wang-etal-2021-voxpopuli,
title = "{V}ox{P}opuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation",
author = "Wang, Changhan and
Riviere, Morgane and
Lee, Ann and
Wu, Anne and
Talnikar, Chaitanya and
Haziza, Daniel and
Williamson, Mary and
Pino, Juan and
Dupoux, Emmanuel",
booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.acl-long.80",
pages = "993--1003",
}
Contributions
Thanks to @polinaeterna for adding this dataset.
- Downloads last month
- 3,318