Datasets:
id
int64
0
131k
| text
string
|
---|---|
0 | "aanlyn markte as gevolg van ons voortgesette 'n begrip opsie handel sakeplan pdf terwyl ons steeds die gereelde ons binêre opsies handel" |
1 | "Die ekonomiese posisie van die Asiaat in Suid-Afrika en enkele ander gebiede in Afrika 3 2 1 0 1 0 0" |
2 | "Nadat dit duidelik geword het dat die Regering die aangeleentheid nie verder sou voer nie, het die Volksraad die ANC-regering se miskenning van internasionaal-aanvaarde regte en verpligtinge en die vergrype teen ons volk, onder die aandag van die internasionale gemeenskap gebring." |
3 | "Liefste Alicia, Graag wil ek jou uit my hart bedank dat jy my in 'n prinsessie omtower het! Asook die meisies wat jou gehelp het. Jy het die dag ekstra spesiaal gemaak deur jou sagte persoonlikheid, jou perfekte timing, jou glimlag en jou opgewondenheid vir ons sprokiesdag, dankie dat jy kon deel wees van ons mooiste dag! Groete, Nadia" |
4 | "En Ek sal jou die sleutels van die koninkryk van die hemele gee; en wat jy ook op die aarde mag bind, sal in die hemel gebonde wees, en wat jy ook op die aarde mag ontbind, sal in die hemel ontbonde wees. (Matteus 16:19 AFR53)
Dit is die betekenis daarvan dat die Here vir sy kerk sê dat Hy aan hulle die sleutels van die hemel gee, en dat hulle op die aarde moet oopsluit en toesluit.
Die kerk het 'n verantwoodelikheid van die Here ontvang om die evangelie van die Here Jesus te verkondig. Dit is nie 'n oordeelsverantwoordelikheid nie!
Dit is ook nie die kerkraad wat oor hierdie dinge besluit nie. Jesus Christus is die Koning van die kerk - Hy besluit wat en hoe dinge in die kerk moet gebeur.
Die ouderlinge tree op op sy bevel, m.a.w elke besluit wat hulle neem moet volgens die Bybel wees oor die bepaalde saak.
Daarom leer en vermaan die Here Jesus ons voortdurend deur die verkondiging van sy Woord. Hy leer ons in die Bybel dat Hy baie vertoorn word oor mense wat volhard in die sonde.
Die prediking sluit vir mense die hemelryk oop deur hulle die verlossing in die Here Jesus te leer, en aanhoudend aan hulle te verkondig. Mense wat die verkondiging van God se genade hoor, word deur die Heilige Gees tot bekering gebring, sodat hulle dan glo.
Die toesluit in die prediking bestaan daarin dat alle mense dadelik al uit God se Woord geleer word dat hulle 'n bepaalde verantwoordelikheid het teenoor die Here.
Die Here ban almal wat teen Hom rebelleer uit sy koninkryk uit; die duiwel en sy uitwerping is hiervan 'n voorbeeld.
Die Here verkondig sy genade nie net in elke preek nie. Hy doen dit ook nog sigbaar deur die bediening van die sakramente. Daar hoor en sien en proe jy van die genade van die Here oor jou.
Maar die onordelike mag nie daaraan deelneem nie. Hy moet voel en beleef wat die gevolge daarvan is dat hy die Here verwerp het, sodat dit hom tot bekering kan beweeg.
As iemand aan sy lyf voel hoe sleg dit is om soos 'n onregverdige behandel te word, sal dit hom laat besef wat die liefde van God vir hom werd is.
Hy maak daarmee heeltemal fisies duidelik dat mense wat sy liefde vertrap nie dieselfde voorregte kan geniet as die wat die Here liefhet nie.
Hierdie tughandeling kom die duidelikste na vore rondom die bediening van die Nagmaal. Daar is van tyd tot tyd mense in die kerk wat soos ongelowiges lewe.
Die Here moet geëer word. Almal wat wil lidmate van die kerk wees, moet saamdoen aan hierdie verering van die Here ‑ soos Hy dit voorskryf natuurlik.
Die tug gaan dus in die heel eerste plek oor die eer van God. Dit is tog logies dat die eer van God ook die eer van sy kerk insluit.
Sulke mense is vir die Here 'n ergernis, want hulle bring die eer van God en die aanbidding van die ander kerkgenote in gedrang.
Nou moet u tog net nie die indruk kry dat die tug 'n besem is wat die kerkraad kan gebruik om almal van wie hulle nie hou nie, uit die kerk uit te vee nie.
Prakties werk dit so dat die kerkraad die lidmaat gaan besoek en met hom praat om hom te beweeg om afstand te doen van die dinge wat nie die heiligheid van God bevorder nie.
Die sondaar kan moontlik hulp nodig hê om sy probleem te oorkom, en dan het hy die reg om die hulp van die kerkraad in die saak te vra. Maar die eindpunt moet ware bekering wees.
Hy wat in Hom glo, word nie veroordeel nie; maar hy wat nie glo nie, is alreeds veroordeel omdat hy nie geglo het in die Naam van die eniggebore Seun van God nie. En dit is die oordeel: dat die lig in die wêreld gekom het, en die mense het die duisternis liewer gehad as die lig; want hulle werke was boos. (Johannes 3:18, 19 AFR53)
Kom ons ondersoek onsself, en kyk of ons die vrede van die ewige lewe in ons hart ervaar, en die wil het om die Here van harte te dien. Dan is ons tuis in die gemeente en in die huisgesin van die Here.
Antwoord: Die verkondiging van die heilige evangelie en die Christelike tug. Met albei hierdie handelinge word die koninkryk van die hemel vir die gelowiges oopgesluit en vir die ongelowiges toegesluit.
Vraag 84: Hoe word die koninkryk van die hemel deur die verkondiging van die heilige evangelie oop- en toegesluit?
Antwoord: Volgens die bevel van Christus word aan die gelowiges gesamentlik en afsonderlik verkondig en openlik betuig dat al hulle sondes hulle waarlik deur God ter wille van die verdienste van Christus vergewe is so dikwels as wat hulle die belofte van die evangelie met 'n ware geloof aanneem. Daarenteen word aan al die ongelowiges en huigelaars verkondig dat die toorn van God en die ewige verdoemenis op hulle rus solank hulle hulle nie bekeer nie (a). Volgens hierdie getuienis van die evangelie sal God sowel in hierdie as in die toekomstige lewe oordeel.
Antwoord: Volgens die bevel van Christus word die wat die naam Christen dra en tog 'n onchristelike leer huldig of hulle onchristelik gedra eers herhaalde kere broederlik vermaan. As hulle egter nie van hulle dwalinge of skandelike lewe wil afsien nie, moet dit aan die gemeente of aan die wat deur die gemeente daarvoor aangewys is, gesê word. As hulle hulle ook nie aan laasgenoemde se vermaninge steur nie, word hulle nie langer tot die heilige sakramente toegelaat nie en uit die Christelike gemeente en deur God self uit die ryk van Christus uitgesluit. Hulle word weer as lede van Christus en sy gemeente aangeneem wanneer hulle werklike verbetering beloof en bewys (a)." |
5 | ""Die kierie kom uit Indonisie, gesny van 'n tak wat van jongs af omslinger was deur a wildevy se rank. Hulle het saam grootgeword, en die rank het sy spoor op die tak gelos. Daarom is die slinger ook oneweredig, en hier,"se hy, "by die punt van die kierie moes daar iets gebeur het - die slinger en die tak het inmekaar gevleg en 'n knoop gemaak. Die natuur het die kierie so gemaak."" |
6 | "Om vir 30 dae elke dag seks te hê, klink miskien vir die meeste sterflinge van die Adamsgeslag na ’n droom wat bewaarheid word, maar ’n mens moet mooi dink voordat jy jouself op onbekende terrein begewe. Hier volg die voor- en nadele van ’n 30 dae-seksuitdaging.
Om 30 dae na mekaar seks te hê, is ’n wonderlike geleentheid vir ’n paartjie om saam ’n doelwit vir die slaapkamer te stel, mits hulle dit nie té ernstig opneem nie. INTIEM het interessante resultate met vorige 30-dae seksuitdagings gehad.
“Daar is net soveel programme soos wat daar diëte is. Net soos kitsdiëte, werk kitsseks-idees nie eintlik nie. Waarom is almal altyd so behep met nommers? Die gemiddelde Sandton-paartjie (’n besige familie met kinders) het elke tiende dag seks. So as jy meer as drie keer ’n maand seks het, gaan dinge eintlik goed,” sê prof Elna Mcintosh, ’n seksuoloog.
“Enige dieet werk as ’n mens daarby hou, maar sommige ‘diëte’ kan ’n mens nie volhou nie en dan gaan dinge gewoonlik erger daarna. Daar is min mense met seksprobleme wat by my deur aanklop. Seks is die simptoom, maar nie die ‘siekte’ nie,” sê sy.
“Die lewe gebeur dikwels net met ’n paartjie en dit raak maklik om seks heel onder aan die prioriteitslysie te plaas. Die uitdaging kan só ’n paartjie weer bewus maak van mekaar en van die belangrikheid van intimiteit in ’n huwelik.”
Daar is soveel seksuitdagings as wat daar menings oor die onderwerp is. Dit klink miskien na ’n stelling wat al holrug gery is, maar kommunikasie is die sleutel tot sukses. Praat oor wat intimiteit vir jou as persoon beteken, en moenie aanneem dat alle mans en vrouens weens stereotipering oor dieselfde kam geskeer kan word nie." |
7 | ""הבית המרוקאי" - מרכז מורשת יהודי מרוקו ובית ארוח בסיגנון מרוקאי. הבית מאפשר לקיים ארועים יוצאי דופן המשלבים חוויה מרוקאית ותכנים מעולמם של יהודי מרוקו המסופרים מפיו של נסים קריספיל." |
8 | "Ons blog bestaan om God alle eer te gee. Ons wil vroue wees wat lewe volgens God se riglyne in Sy woord. Ons wil vir mekaar getuig van God se seen en van Sy voorskrifte. Op so 'n manier wil ons ‘n ondersteuning netwerk vorm van vroue vir vroue om mekaar te bemoedig, versterk en op te skerp in die volmaakte wil van God vir ons lewens en gesinne.
Die komitee bestaan uit 5 vroue wat aktief lid is van die bespreking groep. Elke 6 maande word 'n nuwe komitee saamgestel." |
9 | "Genl. Koos de la Rey, een van die Tweede Vryheidsoorlog se grootste leiers, bly tot aan die einde onoorwonne, maar word twaalf jaar later doodgeskiet toe die polisie sy motor vir die van 'n berugte rampokker aansien.
Toe hy maar 'n jaar oud was, verhuis sy ouers na die plaas Welverdiend in die huidige distrik Wolmaransstad. As kind van die veld groei De la Rey op met weinig formele onderwys, maar die veldskool, sy ouers se hand en sy hoë intelligensie sorg vir n goeie vorming.
Weens sy bekwaamheid as krygsman is De la Rey in 1885 as komandant vir Lichtenburg verkies Hierdie betrekking het hy tot 1893 beklee, toe hy lid van die Eerste Volksraad geword het. Hoewel hy nie veel gepraat het nie, het hy nie geaarsel om sy mening kort en kragtig, helder en onomwonde te stel nie. Met die reeds genoemde geheime sitting het hy eers aandagtig na al die argumente geluister. Toe hy uiteindelik op die been kom, het hy hom uitgespreek teen 'n oorlogsverklaring teen Brittanje. Hy was nie ten gunste van 'n stryd teen Brittanje nie en het 'n aggresisiewe oorlog veroordeel as onwys en onnodig. Dt was in elk geval sy ooortuiging dat die Republieke nog aan die opgroei was en dat hulle nog tien of vyftien jaar moes wag alvorens hulle daaraan kon dink op die wapen op te neem.
Die aand van 15 Oktober het Cronjé en De la Rey 'n ernstige meningsverskil gehad oor die verdere strategie aan die westergrens. Dit was die ou militêre opvatting teen die nuwe, dinamiese denke. Cronjé het kennelik niks positiefs geleer uit sy beleg van Potchefstroom gedurende die Eerste Anglo-Boereoorlog nie. Hy was nou vasberade om deur middel van 'n uitgerekte beleg vir Baden-Powell in Mafeking met sy 700 man tot oorgawe te dwing. De la Rey het egter aan hom voorgestel dat alle kommando's weggehou word van Mafeking en dat 'n ligte perdekommando die dorp met 'n stormaanval moet verower. Cronjé was nie daartoe bereid nie. Hy het gevoel dat hy te veel man op die wyse sou verloor, aangesien Mafeking goed van forte voorsien was. De la Rey weer wou nie tyd verspil nie. Die oorlog was nou aan die gang en hy het gevoel dat hulle moet voortgaan in die rigting van Kimberley om die vyand se toevoer af te sny. Hy het Cronjé prontuit afgeraai om soos met die beleg van Potchefstroom twintig jaar tevore op te tree. Toe het Cronjé die hele oorlog deurgebring en wel groot roem verwerf deurdat hy die Britte met sy burgers vasgekeer het, maar hy wat De la Rey is wil net vir Cronjé sê dat die saak omgekeerd was: die Britte het met slegs 200 tot 300 troepe vir Cronjé met sy 600 of 700 burgers uit die gevegsterrein gehou. Dieselfde sou nou by Mafeking gebeur, het De la Rey gevoel.
De la Rey was onteenseglik korrek in sy oordeel. Hoewel die getalle van die burgers romdom Mafeking spoedig afgeneem het tot 2,000 man, het Baden-Powell nogtans op suksesvolle wyse vir meer as sewe maande uitgehou en op so 'n wyse burgers vasgepen wat nuttig op die ander ylbewaakte fronte aangewend kon word." |
10 | "Vir De la Rey was Modderrivier 'n persoonlike terugslag. Hy self is deur 'n bomskerf in sy regterskouer gewond, maar dit was veral die dodelike verwonding van sy oudste seun, Adriaan, teen die aand se kant, wat hom diep geruk het. Adriaan het pas twee dae tevore sy negentiende verjaardag gevier, en ofskoon De la Rey hom persoonlik na die hospitaal op Jacobsdal vervoer het, is die seun die oggend van 29 November in sy arms oorlede.
Met sy terugkeer was De la Rey nie hiermee gediend nie. Sy ervarings van Graspan en Modderrivier het hom oortuig dat die rantjies nie die beste verdedigingslinies was nie, maar die vlaktes daarvoor. Daarom was die vlaktes voor die Magersfonteinrante die aangewese plek vir die Boeremag om hom in te grawe. As hulle tog sou moes retireer sou hulle dan agter die rantjies van Magersfontein kon stelling inneem. As hulle egter by Scholtznek moes retireer, sou hulle hulle vasloop in die Britse mag in Kimberley. De la Rey het ook 'n blaadjjie uit die Britse militêre handboek geneem. Hy het tot die slotsom gekom dat perderuiters - die Boere se vegsmetode - ondoeltreffend was vir die verdediging van 'n front. Voetgangers, wat nie vinnig te perd voor die naderande vyandelike infanterie kon padgee nie, behoort soos by die Britte die front te beman. Die perderuiters moes - ook volgens die Britse metode - die flanke beman ten einde die vyand in die rug aan te val en sodoende sy frontaanvalle te verlam.
Hierdie nuwe stellings het oor 'n afstand van sowat dertien km weerskante van die spoorlyn gestrek. In die sentrum was Magersfonteinkop, ongeveer vier km oos van die spoorlyn en tien km noordoos van Methuen se kamp. Vanaf die Modderrivier was dit 'n oop vlakte wat uiteindelik opgestoot het in die Magersfonteinrantjies.
Na die val van Bloemfontein op 13 Maart trek De la Rey sy kommando's op Brandfort saam. Die regering van die ZAR versoek hom nou ook om die vreedelingekorpse te organiseer en hy plaas sy broer Adriaan de le Rey as veggeneraal oor hulle.
Van 'n Britse getalle oorwig was daar op die noordelike flank hierdie keer nie sprake nie, en French het dit deeglik ontgeld. Hy wou De la Rey omvleuel en die spoorlyn in die Boere se rug afsny, dog die Boeregeneraal het hom die oggend van 11 Junie klaarblyklik opsetlik in die bek van die vallei teenoor sy mag laat inbeweeg, en hom doeltreffend vasgepen. Die hele dag is daar hard geveg. Teen die aand was dit French wat met omsingeling bedreig is. Vir die eerste keer sedert Roberts Bloemfontein verlaat het, het die Boere oor die hele front daarin geslaag om sy aanvalle af te slaan en hul eie stellings te behou.
Vanweë die moeilike terrein kon kol. Roberts nie sy kanonne met sukses rig op die oostelike hang van die nek vanwaar die hoofaanval gekom het nie. Die hewige Mauservuur het hom ook verhoed om voor 09h00 vir kol. Alexander by Rietfontein, 6km verder suid, om hulp te kan vra. Alexander het twee kanonne op die Boere gerig, maar om een of ander rede na minder as 'n uur sy geskut ontrek." |
11 | "Die Britse kolonel het in afwagting van die aanval sy kamp verskans, sodat De la Rey se eerste aanslag nie die gewenste uitwerking gehad het nie. Hy het wel daarin geslaag om alle posisies rondom die kamp behalwe een in besit te kry, waardeur hy in staat gestel is om met kleingewere op 'n afstand van minder as 1,000 meter in die kamp te skiet. Die een posisie wat nog nie in sy besit was nie, was 'n sterk verskanste fort. Dit was die sleutel tot die hele posisie en sou eers geneem moes word alvorens hy die kamp kon bestorm.
Op Elandsfontein het sy aan die begin van Junie 1900 angstig die naderkoms van die Britse kolonnes ingewag. In die maande wat gevolg het, het hulle haar vee weggevoer, maar haar met rus gelaat. Sy het die aanbod om in Kaapstad of in Europa te gaan bly, van die hand gewys. Teen die einde van November 1900 het lord Methuen haar verbied om nader as 16km van Lichtenburg te kom, sonder om te besef dat sy heeltemal bereid was om in 'n wa in die oop veld rond te swerf. Op 1 Desember 1900 het sy haar wa gepak, met haar kinders die spaaider bestyg en met drie swart bediendes, 'n paar koeie, skape en hoenders, die wye veld ingevaar. Negentien maande sou sy so rondswerf, en, soos sy self verklaar, het sy haar wa liefgekry soos 'n mens sy slaapkamer liefhet. In die laaste fase van die oorlog was ook haar bewegings deur die Britse blokhuisstelsel beïnvloed. Soms het dit bars gegaan om nie deur die vyand gevang te word en in 'n konsentrasiekamp te eindig nie.
Op 'n besonderse wyse het De la Rey altyd geweet waar sy vrou haar bevind, en elke oomblik wat hy kon, het hy by haar aangesluit. Wanneer hy voedselvoorrade van die vyand gebuit het, het hy haar nie vergeet nie, en sy was altyd gereed om hom en sy staf te onthaal op 'n dikwels karige maar keurig versorgde maaltyd. Hul toewyding en trou aan mekaar was werklik iets besonders.
Clements se kamp, bestaande uit 1,500 man, 9 kanonne en 'n pom-pom en 'n groot hoeveelheid voorrade, het aan die voet van die suidelike hang van die Magaliesberg gestaan, by die ingang van 'n kloof wat deur mjddel van 'n voetpad verbind is met die kruin van die berg. Vanaf die kruin het hy heliografiese kontak met brig.-genl. R.G. Boradwood gehad, wat noord van die Magaliesberg met hom sou saamwerk om die Boerekommando's uit die omgewing te verdryf.
Suidoos van die kamp was Smuts nie in staat om Vaalkop te verower nie. In die donker kon hy nie uitmaak waar die kop is nie en besluit toe om te wag tot dit lig word. Die oomblik wat Beyers egter van die kruin van die berg op die kamp begin afskiet, het baie Britse troepe na Vaalkop padgegee en sodoende die wagpos daar versterk. Ondanks herhaalde pogings met sy beste manne, kon Smuts nie die kop verower nie. Clements was egter in 'n penarie. Ongeveer 'n derde van sy manskappe was dood, gewond of gevange, en vanaf die sleutelstelling bo-op die berg het die Boere sy kamp vol lood gepomp. Hy het gevolglik gelas dat al sy oorblywende troepe en sy kanonne na Vaalkop terugtrek. Met veel moeite en onder hewige geweervuur is hierdie opdrag teen 10h30 voltooi. Clements was egter verplig om sy kamp met die meeste van sy waens, ammunisie, perde en voedsel agter te lat. Die feit dat die burgers die geleentheid om die kamp te plunder onweerstaanbaar gevind het, het Clements gered. Terwyl 'n lustige buitery aan die gang was, het die Britse aanvoerder sy mag feitlik ongestoor ooswaarts in die rigting van Rietfontein en Pretoria uitgelei. Tevergeefs het De la Rey en Beyers die burgers probeer aanspoor om die vyand se aftog te verhoed.
Ook vanweë sy ontembare geaardheid was dit De la Rey se beleid om die vyand so min moontlik met rus te laat. 'n Staflid van hom vertel hoe 'n veldkornetskap of 'n wagpos gedurig met 'n patrollie of 'n vleuel van die vyand slaags was, sodat daar noit oral rus was nie. Wanneer hulle 'n kans gehad het om die vaynd skade te berokken, is dit gedoen, en as die vaynd te sterk was, het hulle eenvoudig opsy gegaan vir die vyand om verby te kom.
De la Rey het vlug doelbewus aangewend as 'n oorlogskuns om die Britse kolonnes in 'n wilde jaagtog agter hom aan te kry. Uiteindelik, wanneer sy moeë agtervolgers gesus was in die valse gevoel dat hulle nie waaksaam hoef te wees nie, het hy omgeswaai, sy magte blitssnel bymekaar gekry en 'n vyandelike flank aangeval of toegeslaan op 'n voorrade-depot of kamp wat geïsoleer gelaat was. Smuts vertel dat die metode van terugval en oënskynlik nuttelose skermutselinge tussen die groot oorwinnings nie De la Rey se offisiere en burgers moedeloos gemaak het nie. Hulle het sy doel daarmee geken en het grenslose vertroue gehad in sy onfeilbare oordeel om die genadeslag op die regte oomblik toe te dien. Hulle het hierdie terugval-metode dan ook bestempel as "vlug vol moed".
Teen Kersfees 1900 het dit egter geblyk dat, terwyl hewig gevegte in die distrikte Rustenburg en Krugersdorp woed, die res van die Wes-Transvalers nie so effektief was nie. Die offisiere het goeie werk gedoen, maar aangesien hul kommando's oor 'n groot gebied verspreid gelê het, het hulle nêrens werklik doeltreffend opgetree nie. Hulle was ook nie 'n goeie lokaas om groot Britse magte daarheen te trek nie. Die gevolg was dat hierdie burgers meer gerus het as wat goed vir hulle was en dat daar uiteindelik onenigheid ontstaan het wat hul doeltreffendheid nog verder in die wiele gery het.
De la Rey het besef dat sy beheer meer effektief gemaak moes word. Die verspreide kommando's moes in 'n kragtiger gevegsmag omskep word wat die vyand so hardnekkig teister soos die Rustenburg- en Krugersdorpkomando's dit doen. Hy het gevolglik besluit om die westergrens-distrikte meer dikwels persoonlik te besoek ten einde self die een na die ander met die verskillende kommando's rond te gaan en die ritte te bestry solank hulle in die distrik was.
Interessant genoeg het Siener van Rensburg op dieselfde dag, 6 Maart, 'n visie aan De la Rey geopenbaar. Hy het 'n woedende rooi bul gesien wat vanuit Vryburg al langs die Hartsrivier aan die kom was. Op 'n sekere tydstip het die horings van die bul skielik gehang. Net agter die bult by Tweebosch het hy die bul weer gewaar, moet toe was dit 'n poenskop wat in sy spore omspring en in die rigting van Lichtenburg die hasepad kies. Daar bestaan ook getuienis dat De la Rey vir kmdt. Vermaas vertel het dat hy vasberade was om Methuen te vang, en dat Siener van Rensburg hom van dié gesig vertel het.
Vroeg die oggend van 7 Maart het albei Britse kolonnes in die rigting van Roojantjesfontein vertrek. Slegs Grenfell het dit bereik. Soos gewoonlik het Methuen sy kolonne in twee afdelings laat opruk. Om 03h00 uur het hy self met die ossewa-konvooi en 'n gedeelte van die mag, veral voetgangers, vertrek. 'n Uur later het die berede hoofmag en die muilwaens in beweging gekom.
Hoewel albei konvooie nou in Boerehande was, het maj. Paris met 40 man in 'n klipkraal 'n laaste poging tot weerstand gebied. Ondersteun deur die kanonne het Celliers met die Lichtenburgkommando daarin geslaag om hom tot oorgawe te dwing.
Met hierdie optrede het De la Rey sy teerhartigheid en Christenskap, soos trouens en dwarsdeur die oorlog, bewys. Hy het vervolgens vir Celliers opdrag gegee om die gesneuwelde Britte te begrawe en die gewondes te versorg. Vir hierdie doel is die britse ambulanse, tente, komberse en voldoende voedsel agtergelaat. Tot groot ontevredenheid van die burgers het De la Rey vir Methuen vrygelaat om beter mediese behandeling te kry as wat by hulle moontlik is. Hierdie daad het 'n groot indruk op die buitewêreld gemaak en 'n lewenslange vriendskap tussen Methuen en De la Rey beteken.
Op 15 Mei 1902 kom die 60 gekose Boere-afgevaardiggdes by Vereeniging byeen. De la Rey praat bondig wanneer hy eindelik aan die woord kom. Hy het 'n vaste opdrag van sy burgers om hul onafhanklikheid nie prys te gee nie, dog nou moet hy verneem hoe sleg salek elders staan. Elkeen moet vir homself besluit oor die vraag van Louis Botha of die bittere einde nie nou aangebreek het nie. Maar hulle moet probeer om beter voorwaardes te kry.
Na die vrede vestig die De la Reys hulle op die plaas net buite Lichtenburg en begin die heropbou van die verwoeste boedery en opstal. Dat De la Rey en sy vrou smart geken het, ly geen twyfel nie. Teen 1907 het hulle ses van hulle twaalf kinders aan die dood afgestaan.
De la Rey neem nie aktief deel aan die politiek nie, maar hy is lid van die Het Volk-party en 'n Botha-man. Hy word verkies tot lid van die Transvaalse afvaardiging by die Nasionale Konvensie van 1908-1909. Daar is hy kenmerkend stil. Die Konvensie lei direk tot die totstandkoming van die Unie van Suid-Afrika op 31 Mei 1910.
Op 15 September 1914 kom sy lewe tragies tot 'n einde te midde van die aanloop tot die Rebellie. Hy en genl. Christiaan Beyers reis per motor uit Pretoria na Potchefstroom. By Langlaagte ry hulle dwarsdeur 'n polisie-padblokkade wat opgerig is om die berugte moordbende van William Foster vas te trek. 'n Polisieman vuur op die voortsnellende motor en De la Rey word in die rug getref. "Dis raak," fluister hy nog vir laas en sterf.
Bowendien is dit in die eerste plek sy ongewone keuse om die loopgrawe voor die rantjies op te rig, wat die hoogste lof verdien en bewys lewer van sy goeie militêre insig.
Koos de la Rey was 'n man met 'n indrukwekkende voorkoms. Met sy hoë voorkop, arendsneus, vorsende blik en ruie volbaard het 'n patriargale waardigheid uit hom gestraal. Treffend oordeel die S.A. Biografiese Woordeboek dat sy sieleadel hom afgesonder het van die gewone mense: "Sy Godsvertroue was die krag wat sy doelgerigte optrede onderskraag het het; in die krygsgeskiedenis het hy sy naam groot geskryf as onvergelyklike taktikus wie se dade hom ewe merkwaardig as krygsman gemaak het." In daardie tyd, toe dit nog gebruik was om 'n standvastige held as 'n leeu te bestempel, het De la Rey tereg die benaming "die Leeu van Wes-Transvaal" verwerf." |
12 | "Alles van die beste met hierdie besluit Caroline. Ek dink jou oe gaan nog blinker wees, jou wange meer pienk en jy gaan so gesond voel dat jy moontlik vir altyd so sal wil eet. Hou my op hoogte van sake." |
13 | "Categories: 105.7fm, 5fm, 947, Afrikaans, Boer, Boeremusiek, FM Radio, Music, Musiek, Musiekvideo, New Music Now, News, Online Radio, SA Music, SA Nostalgia, South African Music, Video" |
14 | "Die vloek en terselfdertyd vriend van die myners is die nonce. Die nonce is ‘n nommer wat mynwerkers moet vind om bewys te lewer van werk vir hul nuutgebaseerde blokke. Sulke blokke word nie sonder die bewys van werk in die blok-ketting aanvaar nie. Die bewys van werk is ontwerp om uiters maklik te wees vir die netwerk nodusse om te verifieer, maar dit is baie moeilik om te genereer. Om die nonce te vind, moet mynwerkers baie verskillende nonce waardes probeer voordat die regte een geleë is, aangesien die moeilikheids doelwit bereik word. Die probleemdoelwit word kunsmatig geïnduseer, om die Bitcoin-ekosisteem in balans te hou, en die munt waardevol, weens skaarste." |
15 | "Suid-Afrika pronk met die belangrikste nywerheidsektor op die vasteland wat veertig persent van Afrika se totale nywerheidsproduksie oplewer, ontgin 45 persent van Afrika se minerale en wek meer as die helfte van Afrika se elektrisiteit op. In teenstelling met ander Afrikalande het Suid-Afrika sedert die middel van die 17de eeu oor ‘n Blanke bevolking beskik wat sedert die laat 19de eeu ‘n moderne kapitalistiese ekonomiese stelsel en infrastruktuur ontwikkel het. Land- en mynbou was die basis van die industrialisering, en vandag beskik die land reeds oor ‘n hoogs ontwikkelde nywerheids- en dienstesektor. Sy bankstelsel behoort tot die modernstes ter wêreld, terwyl die Johannesburgse Effektebeurs volgens sy markkapitalisasie tot die twintig grootstes wêreldwyd behoort." |
16 | "Klein eilande van handels- en agrariese kapitalisme is al vroeër in kusgebiede gevestig wat deur die Britte gekoloniseer is, terwyl die Afrikanerbevolking in binnelandse Suid-Afrika nog steeds in ‘n voor-kapitalistiese ekonomie geleef het, net soos onafhanklike swart boere in gebiede wat nog nie deur blankes oorheers is nie. As kolonie was Suid-Afrika voor die ontwikkeling van sy mynboubedryf niks meer as ‘n geopolities belangrike besitting nie, ‘n gebied dus waar die Britte as koloniale moondheid hulle tot die oorheersing van relatief klein kusgebiede kon beperk. Toe diamante en goud ontdek is, is die Kaap se ware ekonomiese potensiaal vir die eerste keer onthul. Tegelykertyd is die ekonomiese ontwikkelingskoers vir die volgende eeu vasgeskryf." |
17 | "Die Kommissie vir Geslagsgelykheid ondersoek ’n klag van seksisme teen pres. Jacob Zuma. Die DA het Zuma by die kommissie verkla nadat hy in ’n onderhoud met Dali Tambo op SABC3 gesê het vroue moet trou en kinders kry." |
18 | "In die Boere-Afrikanervolksraad se aansoek by die Hooggeregshof om die Regering te dwing om sy standpunt oor samesprekings in verband met selfbeskikking vir die Boere-Afrikanervolk, te stel, het die Staatsprokureur, wat vir die Regering optree, versuim om sy beantwoordende verklaring teen die spertyd wat deur die hofreëls neergelê word, in te dien. Dié sperdatum het op 19 Junie verstryk.
Die dag daarna het die Volksraad se regsverteenwoordiger 'n dringende faks (wat teruggedateer is na 18 Junie) van die Staatsprokureur ontvang waarin 'n maand uitstel vir die indiening daarvan versoek word. Verskeie redes word vir die versoek aangevoer waarvan slegs twee na die mening van die Volksraad gewig dra, te wete (1) die aanwysing ná die onlangse verkiesing van 'n nuwe minister vir die Dept van Jusitisie (voorheen Justisie en Konstitusionele Sake), wat hom eers op hoogte moet stel met die aangeleentheid; en (2) die noodsaaklikheid om die inhoud van die 8ste en finale verslag van die toenmalige Volkstaatraad, waarna in die Volksraad se funderende verklaring verwys word, te bestudeer.
Die Staatsprokureur het die Volksraad se regsverteenwoordiger versoek om aan hom 'n kopie van dié verslag, wat blykbaar nie in die Staat se argiewe gevind kan word nie, te voorsien.
Aangesien die hof waarskynlik die bogemelde redes as geldig sal beskou en die Staatsprokureur se versoek om uitstel sal kondoneer, het die Volksraad teësinnig ingestem dat uitstel verleen word tot 18 Julie 2014." |
19 | "Baie feesgangers maak ook van die geleentheid gebruik om wild te kyk. Party besoekers geniet die diere wat hulle by die huise besoek en ander ry deur die reservaat om meer wild te besigtig.
10 September 2016 sal vir lank onthou word vir sy groot aantal besoekers wat van oor die land op Leeupoort kom feesvier het en die optredes kom geniet het. Pieter Bodenstein van Leeupoort het nou vir die 9de agtereenvolgende jaar sedert die oprigting van die Boeremusiek-monument die aktiwiteiteite ge-kordineer.
Kosie Beukes, tans 8 jaar oud, was lid van een van die junior orkeste. Kosie speel tans 13 musiekinstrumente. Kosie speel die konsertina voor hom asook agter sy rug. Vir sy ouderdomsgroep 8 tot 10 jaar is Kosie as die beste Instrumentalis op die wereld kampioenskappe in die VSA aangewys." |
20 | "Boere bestry soms Afrika-kommandowurm deur slote om die lande te grawe. Die wurms val daarin en kom nie anderkant uit nie. Volgens Jan Hendrik sal dit werk vir die Afrika-kommandowurm, maar nie vir die herfs-kommandowurm nie." |
21 | "Krisjan Rossouw is ’n self-geleerde fotograaf van Kaapstad. Ten spyte van die feit dat hy geen formele opleiding het nie, word sy werke deur plaaslike en internationale versamelaars opgekoop. Hy werk eenvoudig met sy Nikon D5000 en ’n basiese lens, sonder enige tripod of professionele beligting. Aanvanklik kon hy nie hierdie toerusting bekostig nie, en nou voel dit nie reg om dit te gebruik nie.
Rossouw het maande bestee om bamboes te versamel. Sy foto’s simboliseer die see as ’n plek van vernuwing, ’n bron van kos, maar dan ook die roete waarmee slawe vervoer is.
LM: Ek vind jou werke het ’n mistieke, misterieuse element, asof die figure ’n geheime mag besit. Was hierdie enigsins jou bedoeling?
KR: Baie dankie. Maar nee, dit was nie aanvanklik my bedoeling nie. Ek dink ek het probeer ontslae raak van oortollighede en om kontak te maak met ’n oomblik van waarheid wat vanaf die model gekom het. ’n Oomblik van intimiteit.
’n Deurlopende tema in my werk is die idee van stil krag in my modelle. Baie van die mense met wie ek werk is professionele modelle wat vanuit Afrika en die res van die wêreld kom. Saam met hulle doen ons weg met lae – ons verwyder grimering, stilering, selfs meeste soorte klere. Ek wil ’n enkele, ware foto vasvang van iemand wat gewoonlik voorgee of pose vir ’n lewe.
Dan vind ons oomblikke waar dit eenvoudig twee mense is wat iets deel – nie net ’n model en fotograaf nie. Ek probeer om ’n omgewing te skep waar mense gemaklik is om hulself oor te dra. Ek is geweldig aangetrokke tot daardie oomblikke van innerlike krag wat oorgedra word. Dis nie iets wat ek skep nie. Dit is iets wat die modelle my toelaat om te sien en dan vas te vang.
Ek probeer veel eerder die verhouding tussen ons vasvang. Ek het nooit ’n vaste plan met die spesifieke foto wat ek wil neem nie. Ons gesels, neem ’n paar foto’s, gesels weer, neem weer. En dan sal ek eers dae later na die foto’s kyk.
My nuwe reeks kyk weer na die skoonheid van weggooi- of verlore items – daar is seker ook ’n soort simboliek hieraan as jy kyk na die modelle wat ek gebruik. Hulle inspireer my meer as enigiets anders: hul stories, die paaie wat hulle tot hier geloop het, die geskiedenis waaruit hulle kom.
My verhoudings met die modelle het ’n hele nuwe wêreld oopgemaak van hoe mens dinge kan voorstel. Hoe my idees, hulle ervaring en ons samewerking bymekaar kan kom tot ’n eindproduk.
Teubes Wyne is ’n boetiek-kelder in die Vredendal-omgewing wat in 2011 sy eerste oesjaar geproduseer het. Die Malkopbaai Sauvignon..." |
22 | "Kleuters se goeie gedrag word deur middel van ’n sterrekaartstelsels beloon en ’n afkoelstoel waar tyd opsy deurgebring word, is in plek waar gedrag aangespreek moet word.
In die laerskool geld die sterrekaart- en handtekeningstelsel as beloning en herinnerings dien as gedragshervorming. ’n Sekere aantal herinnerings lei tot verdere gevolge soos ’n vergadering met die betrokke kind se ouers.
Wanneer ’n kind herhaaldelik swak gedrag toon of in gevalle van ernstige wangedrag, soos om te byt, word die ouers gekontak om die onderwyser te kom spreek. Ons verwag van ouers om saam met onderwysers te werk, sodat ons dieselfde boodskap aangaande dissipline aan ons kinders oordra." |
23 | "Ek is n aangename ou met n groot hart. Ek glo in jy die beginsel jy moet jouself liefhe en jou maat soos jouself :). Vra as jy meer wil uitvind" |
24 | "Hierdie boek, geskryf vir die leek in 'n gebruikersvriendelike styl, wys hoe jy met jou eie oë of met 'n verkyker aktief aan sterrekunde..." |
25 | "Met dank aan Kevin Reed van TNET Weather vir sy werk aan die oorspronklike Carterlake voorlegte, en sy ontwerp van die algemene webtuiste PHP management." |
26 | "Die bouer/ontwikkelaar is nie geregistreer by die NHBRC (hierna verwys as “die Raad”) nie en die gehalte van werk verrig deur die bouer/ontwikkelaar is baie swak en die verbruiker weier om te betaal vir die werk verrig;" |
27 | "Volgens die meerderheidsuitspraak in Cool Ideas, gelei deur Majiedt WR, was dit die wetgewer se oogmerk om die huisverbruiker te beskerm toe die wetgewer die HCPM-Wet geskryf het.
Die Grondwetlike hof het verder beslis dat, in die geval wat die bouer en die verbruiker in ‘n kontrak ingetree het en die bouer nie geregistreer was by die Raad nie, die kontrak wel geldig sal bly staan en nie ongeldig sal wees nie. Aangesien die HCPM-Wet glad nie spesifieke voorsiening maak dat die kontrak ongeldig behoort te wees in so ‘n geval nie, word aanvaar dat die kontrak wel geldig bly staan maar in konteks van Artikel 10, net regtens uitvoerbaar sal wees vir die huisverbruiker en nie vir die ongeregistreerde bouer nie. Die kontrak, ingevolge die HCPM-Wet, is wel onwettig en dra ‘n sanksie vir die bouer wat daarin getree het, maar die kontrak is nie ongeldig nie. Die minderheidsuitspraak het wel hiermee verskil." |
28 | "Hierdie posisie, soos bevestig en bewerkstelling deur die Grondwetlike Hof, sal voortaan bly staan tensy die Grondwetlike Hof weer in die toekoms met dieselfde regsvraag uitgedaag word.
Normaalweg in die geval wat ‘n kontrak onwettig is, sal die kontrak in terme van die Gemenereg as ongeldig en onafdwingbaar beskou word en sal beide partye die reg hê om die hof te nader vir restitusie, indien nodig en moontlik. Maar ingevolge die Cool Ideas-saak sal dit nie moontlik wees nie aangesien die Grondwetlike Hof van mening is dat die kontrak inderdaad nie ongeldig is nie.
Dit is baie duidelik dat die HCPM-Wet die huisverbruiker in die mark wou beskerm deur die bouer streng te reguleer. Die reguleering van die bouer is natuurlik grootliks gemik op die kwaliteit van bouwerk wat deur die bouer aan die huisverbruiker verskaf word. Myns insiens was dit nodig vir die wetgewer om so in te gryp as gevolg van die uitbuiting van die huisverbruiker in die verlede en die kwaliteit van die bouwerk van die bouer in die verlede. Dit blyk dan, ingevolge die Cool Ideas-saak, dat daar letterlik geen hoop is vir die bouer nie. Daarom kan die gevolge vir die bouer verder strek as net ‘n blote loesing oor sy/haar swak gehalte bouwerk. Dit is uiters belangrik dat die bouer wat in die mark is of wat die mark betree, homself/haarself baie goed vertroud maak met die HCPM-Wet en wat die nagevolge is van die versuim om te registreer by die Raad as ‘n bouer, όf in terme van Subartikel 6(a), όf in terms van Subartikel 6(b) van die HCPM-Wet." |
29 | "My Pá het die kuns onder die knie gekry om die kern van ’n bonkige storie bondig te verpak met die nodige krag en kwinkslag om deernis daarvoor te wek. Of dit nou ’n nuusberig was in afgemete Afrikaans of ’n kamma-nederlandsche verjaarsdaglimerick vir van zijn vrienden. Of ’n roerende huldeblyk aan sy skoonpa; ons Opa.
Toe ons rondgevra het wat vir julle van ons Pa uitstaan, het amper almal sy gul taalvernuf onthou. Hoe lief was hy nie daarvoor om ’n nuwe woord in ’n blokkiesraaisel te ontdek of ’n ou woord opnuut in te span nie! Só vertel hy ’n maand of wat gelede van medikasie wat sy tydelike konstipasie sou verlig: “Ons hoop op volmaak-gevormde, wollerige kuttels.” sê hy.
Soos dit ’n huldeblyk betaam, moet ek iets kwytraak oor my Pa se kindertyd, sy beroep- en gesinslewe en tussendeur dalk ’n paar grappighede laat val wat nie almal van hom af geweet het nie. Ná hierdie huldeblyk vra ons sy vriend, Mnr. Tobie Barnard, om meer van my Pa se Bybelstudie- en vriendekring te vertel.
My pa is gebore as die oudste van vier kinders uit ’n groottotaal van sewe. Van sy grootword op Tulbagh het hy luisterryk vertel. Van plase genaamd “Tierkloof” en “Mooiplaas”. Van Chevvies, Buicks, Pontiacs en allerlei motors wat my broer Tim op twee jaar al kon uitken. Matrasse wat uitgedra is op die stoep, my ouma se kastaaiingbrood; sy broers en susters in die vrugteboord en almal op ’n streep in handgemaakte klere van streepsakke; sy pa as boer, prokureur en burgemeester wat sy slim seun Kaapstad toe gestuur het vir sy hoërskool-opleiding. Hoe my Pa as regsstudent ál die pad van Stellenbosch tot Tulbagh fietsgetrap het. En die keer toe hy deur die ganse kampus om hulp genader is nadat hy met ’n mosie van wantroue van sy koshuis se inwonende hoof ontslae geraak het.
My pa is gedoop Marthinus, hy is Tinus genoem deur sy ouers, Tienie deur sy vriende en Timmie deur sy halfbroer, George, wat as jongman oorlede is. My Pa het as skoolkind op die Tuine rugbyveld vir die laer spanne haker gespeel … en vandaar af die huis raakgesien waarin ons nou al vir meer as dertig jaar woon. Alhoewel my Pa vir ’n kort tydjie in Johannesburg gewerk het, het hy hom in Seepunt en toe hier in Oranjezicht gevestig, en ter wille van ons gesinstabiliteit, bevorderings-geleenthede wat elders was, oorgesien.
Ek wonder wie van julle weet dat my Pa Kuns as skoolvak geneem het? Op Universiteit die Fotografieklub gestig het? Dat hy Pontius Pilates hoogs verkoue op die verhoogplanke vertolk het in matriek? Op ons stoep hang ’n verdofte poeierverfskildery van sy skooldae af – en ek en Ludi het selfgemaakte speelkaarte ontdek met gesigte van cops ’n’ robbers daarop, en die motors wat hulle sou ry, heel-realisties, in ink geskets. Miskien het my Pa julle vertel van die keer toe hy sy kamermaat voor die Studentehof moes verdedig oor die staatspresident se dogter wie se hare hulle in die kleure van die landsvlag gekleur het?
My Pa het graag en gemaklik stories uit sy kindertyd vertel, veral as iemand nuuts by die geselskap aangesluit het. Of soms het dit net Karen se klavierklanke uit die kamer langsaan gevat om hom vir ’n oomblik terug te neem Tulbagh toe.
As beroepsman, kan ek onobjektief sê, was my pa briljant. Hy het vasgenael Springbokradio se stories geluister as kind en of dit nou koerantberigte was of TV-nuus; my pa was ingelig. Ek onthou die krap van sy baard as ons hom goeienag kom soen het … waar hy die vroegaand nuus kyk met amper ’n heilige ontsag daarvoor – maar as een van ons inkom, draai hy na ons met sy oë wat glinster. Ek hoor nog hoe rasper sy baard onder my lippe teen sy wang.
My Pa was tevrede daarmee om nuusstories te dek wat die ander nie eintlik wou nie. Waar hofsake te vervelig was, het my Pa dit so lewendig beskryf, dat die verslaggewers ná hom daarvoor gewedywer het. Die landbou-berriggewing het hy so kranig gedoen dat hy vir lank die seremoniemeester by die landbou-skrywersvereniging se jaarlikse dinee moes wees. Sy algemene kennis en taalvernuf was knap; sy humorsin skerp – vir ’n tyd lank het hy sy eie radiovasvraspan gehad wat aan die gewilde Span-Saam program deelgeneem het.
En dan was my pa boonop lief vir Aprilgekgrappe – en die fyn-fyn kuns om ’n storie te skryf wat gelyktydig belaglik en geloofwaardig is. Daar is gemoedelike poetse wat hy gebak het waarvoor mense hom nog steeds moet vergewe.
My Pa was ook ’n kleinsakeman-entrepreneur: Toe die snoepie by die SAUK toegemaak het, het my pa die geleentheid aangegryp en proviand in grootmaat by Makro aangekoop en by sy werkslessenaar gesmous. Mense kon sommer vat wat hulle wou en die nodige kleingeld los. Só het ons as gesin ook altyd ’n voorraad van blikkieskoeldrank gehad wat hy netjies, op die nippertjie, in ’n koelboks gepak het voordat ons ’n langpad iewers heen aangedurf het (of al het ons net twee blokke boontoe gery na my Oma en Opa-hulle toe).
As my pa ’n kranige joernalis was, was ons (sy gesin) sy top-nuusstories van die dag. Hy het ons hele kindertyd in film vasgevang; of dit nou met sy kamera was of met sy mikrofoon en bandopnemer wat hy opgestel het om ons musiek- en ander uitvoerings op radiokasetbande op te neem. Selfs gesinskonserte op Ou-Kersaand. Eenkeer toe ons vir hom by die SAUK gaan kuier het, het hy ons besoek in ’n kort nuusberigstyl opgeskryf en vertel dat dit nasionaal uitgesaai is.
Ek onthou my pa wat sorgvuldig in die studeerkamer foamalite– en karton-vliegtuigies uitsny … as my Ma my stuur om hom te roep vir ete, halfpad af by die wenteltrap. Hy het fyn voortgewerk aan die ontwerpe wat destyds op eierboksies gedruk was en het dit nougeset verbeter, met ’n skuifspeld hier-en-daar vir ’n meer vaartbelyne verspreiding van gewig – sodat ons almal saam met hom ’n reeks eksperimentele vlugte vanaf die skuinste op die Tuine-rugbyveld kon gaan toetsgooi op ‘n Saterdag sonder wind.
My Ma het hom sowat veertig jaar gelede ontmoet. Sy het hom gevind in ’n karig-gemeubileerde woonstel met los planke op opgestapelde bakstene as boekrakke; hom getrou en gesweer sy sal nooit een van haar kinders sonder meubels by ’n woonstel laat intrek nie. Só het my Pa elke keer wat een van sy vier kinders koshuis toe moes gaan of na ’n nuwe huis of woonstel moes trek, gedweë met sy kombi of Caravel uitgehelp. Hy kon ’n kar pak dat jy tweekeer meer daarin kon pas as wat jy vooraf veronderstel het.
My Pa se plig by die huis was om wasgoed te was. Hiervan het hy ’n geliefde ritueel gemaak, met sy radio aan, by die trappe af – die een balie na die ander, met sekere klere wat geweek word; ’n wit en ’n donker was, en sokkies-saam-met-handdoeke. Ons klere was so goed versorg dat ek dít wat afgewentel is vanaf Tim na Karen na Ludi, nog soos nuut kon dra. Hy het vrolike deuntjies gefluit terwyl hy die wasgoed aan die draad ophang." |
30 | "Hy was sterk en moedig in sy siekbed, met ’n aftakelende kanker wat vanaf sy kolon vesprei het na sy longe, ribbes en brein. My pa se gesig was in die laaste maand aan die linkerkant verlam, maar hy het sy Wyn-van-die-Maand rooiwyn in kleiner botteltjies gegooi waarin hy ’n rooi strooitjie kon balanseer en sy pille een-een daarmee afsluk.
My Pa het laasweek in die ou Volkshospitaal (Medi-Clinic) gesterf – rustig, met die vredige klanke van sy geliefdes om hom: sy vrou, kinders en kleinkinders. Ons weet nie hoe baie hy kon inneem of hoor – waarvan hy als bewus was – nie … maar dalk het die vrolike kindergeskal hom vlugtig teruggevoer na sy eie kinderdae (tussen sy oorle broers en susters); of dalk was hy vir ’n wyle weer ’n trotse, jong pa met die woelige klomp rondom hom.
Ek is hartseer dat my Pa nie ’n langer tyd met sy kleinkinders – en hulle met hulle Oupa – kon beleef nie." |
31 | "Die volgende toon die opsies om te begin. Spesifiek is twee opsies: die eerste opsie van al die opsies kan jy nuwe mense ontmoet en die tweede opsie kan jy kyk na baie gesprekke." |
32 | "My dekodeerder het so pas die gees gegee en ek moes ’n nuwe aanskaf. Ek het nie die nodigheid ..............." |
33 | "7075 aluminium is vir die vervaardiging van vliegtuie raam, vorm, en 'n hoë-spanning strukturele dele met 'n hoë sterkte en weerstand teen korrosie." |
34 | "'n Benadering vir die realisering van omgewingsopvoeding in die algemene wetenskap sillabus van graad sewe tot nege" |
35 | "ETDs 'n Benadering vir die realisering van omgewingsopvoeding in die algemene wetenskap sillabus van graad sewe tot nege" |
36 | "Gebruik die soekenjin (bo) of die alfabetiese gidse (onder) om te soek vir resepte of ander inligting." |
37 | "Kopiereg 1997 - 2018 QVRP | * die web-weergawe se lesers is slegs 'n gedeelte van die totale aantal gebruikers
Hou jy van ons hulpbronne? Oorweeg asseblief 'n donasie in Bitcoin: 179nZqSyFmYPcvu4ZU733PgXBKUYXcy9DD | Ons toets tans ’n kode om wiskundige probleme op te los met behulp van gebruikers se blaaiers; om nie afhanklik te wees van advertensies nie." |
38 | "As jy nog nie ingestuur het nie is dié jou laaste, maar laaste, kans om in te skryf. Dis soos daai bra's wat hout verkoop op die grondpad net voor die Oppikoppi afdraai. Last chance saloon, pellie. Werk saam, ek sê. Maandag maak hy toe, soos 'n lappop se alie.
Jy weet jy gaan jouself tussen die bene skop as jy checks 'n foto wen wat jy kon beat. En dan gaan jy nog die wenner se roadtrip foto's ook check hier oppie site en dan gaan jy jouself eers haat. Moenie dat dit gebeur nie.
Moer maklik. Stuur vir ons 'n epic foto van 'n vorige roadtrip saam met ‘n kort beskrywing waarop jy was na [email protected], verkieslik ene van jou en jou pelle saam. Belangrik dat dit gees wys, so nie net 'n selfie van jou met 'n tas voor jou Tazz nie oppad V-Town toe nie. Blerrie nool." |
39 | "Links is het 13.00 uur, rechts ’n uur later. Daar houden ze nu siësta, dat kennen ze links niet. Links spreken ze onverstaanbaar Portugees. Rechts spreken ze Spaans, ’n taal waarvan we zo nu en dan ’n woordje kunnen verstaan." |
40 | "Skerp sin vir humor en innemende persoonlikheid. Baie life vir stap en buitelewe en glo mens moet altyd jou uitkyk op die lewe positief hou. Dinge gebeur met 'n rede." |
41 | "Wat kan meer vermaaklike en pret vir meisies as speel haarstyle? Elke klein prinses drome van 'n meester van die hare, make-up en manicure. En waar is dit om te leer hoe om nie tot die internet? Games vir meisies hare - is 'n prettige, kleurvolle programme wat nodig het om die regte haarstyl te vind vir elke kliënt. Dit sal bepaal of jy kan beweeg na die volgende vlak. Online games toelaat meisies te doen hare leer hoe om 'n pragtige haarstyl te maak, haal die kleur van die make-up toebehore, sowel as volg die wense van die kliënt. Haarstyle kan speel elke enkele wedstryd - beide seuns en meisies, beide kinders en volwassenes. Hierdie speletjies is regtig baie interessant en opwindend, sodat selfs die groot meisies kan nie weg te breek van die spel.In die internet is daar baie plekke waar jy kan vind speletjies haarstyle. Hulle het almal belowe groot gehalte en 'n groot keuse, maar nie altyd belowe om waar te wees. Daarom het, op ons webwerf bevat die beste games vir meisies haarstyle, wat almal sal jou liefhê en jou kind. Ontken nie jouself die plesier om te voel vir 'n terwyl professionele haarkapper of stylist, 'n afspraak kom 'n verskeidenheid van kliënte. Aanlyn speletjies kan hare 'n onderbreking van die daaglikse gewoel, afgelei en net geniet die spel. Haarstyle speletjies speel op enige tyd van die dag op ons webwerf. Enige redelike vir jou besoek, en ons altyd probeer om jou aan te bied met iets nuuts, selfs meer boeiend en interessant. Byna al die speletjies haarstyl kombineer verskillende rigtings. Hier sal jy nie net versier die hoofde van hul kliënte, maar ook te kies hul make-up, pas dit op die gesig, die toepaslike klere en bykomstighede te kies. Doen al hierdie dinge nodig is om so gou as moontlik, tot die maksimum bevredigende behoeftes van die kliënt. Games vir meisies haarstyl kan 'n kind boei vir 'n lang tyd, terwyl hul ouers is besig met hul eie sake. Afgesien van die feit dat die kind sal stil en rustig sit, sal dit ook die ontwikkeling van 'n gevoel van styl en skoonheid. Online games haarstyle beskikbaar op ons webwerf in groot getalle. Jou werk is slegs verkiesings - in watter haarstyl speel speletjies. Kies enige en geniet die kleurvolle prente, pret musiek en pret aktiwiteite." |
42 | "'n Troue ontspoor en die volgende oggend probeer vriend en vyand uitpluis wat die vorige aand gebeur het." |
43 | "Ná haar pa se dood besef Gideonette dat sy die enigste oorlewende gesinslid is met ’n familienaam waarop ’n vloek rus. Om haar vrees te oorkom moet sy haar innerlike krag vind om die vloek te breek." |
44 | "Kuierbossie is in die hoof straat van Tulbagh, waar die meeste prominente besighede hul bevind, geleë." |
45 | "Game Description: Demi Lovato wil die kompetisie te wen op die verhoog haar mededinger Selena Gomez.Dit te doen, die twee meisies na jou gekom het vir 'n goeie keuse van kostuums vir die konsert.Vind die mees geskikte vir die sanger rokke, jeans of ander klere, en dan doen hulle hare, en dan juweliersware.
Demi Lovato wil die kompetisie te wen op die verhoog haar mededinger Selena Gomez.Dit te doen, die twee meisies na jou gekom het vir 'n goeie keuse van kostuums vir die konsert." |
46 | "Die grootgrysmuishond (Herpestes ichneumon) is 'n muishond wat aan die suidelike en oostelike kustreke van Suid-Afrika en Mosambiek voorkom.
Die dier is gespikkeld grys en die hare is lank en grof terwyl die bene swart is. Hy het 'n verlengde kop en lyf en word tot 100 cm lank. Die mannetjie weeg tot 3.4 kg en die wyfie tot 3.1 kg. Die muishond kom voor in die rante van riviere, damme en vleie." |
47 | "Inspirasie en troos vir jouself of as geskenk vir iemand na aan jou. Met plek voor in om die ontvanger se naam te skryf, is dit ideaal om ’n verjaarsdag- of groetekaartjie te vervang." |
48 | "Toe ek so ’n paar jaar gelede begin gholf speel het, het ek nie vir een les gegaan nie. Hoe moeilik kan dit tog wees? Jy staan so met jou boude uit, jou rug reguit en swaai ’n stok. Na sowat ’n maand van frustrasie, gaan soek ek toe hulp. Die eerste paar lesse was bloot om alles wat ek verkeerd gedoen het uit te wys en reg te maak. Daarna kon die werk eers begin. As ek van die begin af vir lesse gegaan het, was my rekening soveel minder en my gholfstokke dalk nou nog in my besit. Dit geld ook vir motorfietsry. Dit maak nie saak hoe ’n talentvolle ryer jy dink jy is nie, daar is altyd ruimte vir verbetering.
Een keer ’n maand bied Clinton Pienaar van SA Biking Academy ’n baandag met ’n verskil aan. Die groepie wat dit bywoon, word beperk tot 10 sodat elke ryer op een aspek van sy ry kan fokus. Elke sessie word afgeneem deur ’n fotograaf, sodat jy jou vordering oor die dag merkbaar kan sien. Daar is ook ’n instrukteur wat saamry en jou dophou. Clinton het al die Isle of Man TT gery, so moenie bekommerd wees dat jy dalk vir hom gaan wegry nie.
Die dag skop af met ’n kenmekaarsessie, en elke ryer se doel vir die dag word op ’n bord neergeskryf. Die gedagte is nie dat jy hier is om 15 aspekte aan te spreek nie. Elke ryer moet één doel neerskryf. My doel was om my spoed in draaie te verbeter. ’n Ander ryer wou een sekonde vinniger om die baan gaan. Hoe minder ervare jy is, hoe groter is jou vordering. Ná die eerste paar rondes om die baan het ons na ons foto’s gekyk en almal was verbaas oor hulle tegniek, en hoe anders dit lyk, teenoor hoe dit vir jou voel. Met ’n instrukteur wat saam met jou om die baan ry, was die vordering vir my ongelooflik. Die res van die dag het bestaan uit ’n paar baansessies, gevolg deur ’n ontleding van jou sessie. Vir elke sessie het die instrukteurs jou aan een aspek van jou ry laat werk om jou teen die einde van die dag uit te kry by dit wat jy die oggend op die bord geskryf het.
Met my heel eerste sessie het ek een ryer geïdentifiseer en probeer bybly. Ek kon nie. My spoed was hopeloos te laag. Teen die einde van die dag kon ek bybly, selfs al was die ryer op ’n baie groter fiets.
Nog ’n aspek wat vanself reggekom het, was my reaksie in ’n noodsituasie. Waar ek voorheen die motorfiets wou regop tel en rem, het ek op die betrokke draai net nog meer ingeleuen en die greep vertrou. Op die Long Tom-pas sou dit die verskil gewees het tussen veilig om die draai, of ’n ongeluk. Op Red Star kan jy maar foute maak. Jy kan in niks vasry nie. Op die pad is dit nie so maklik nie.
Ek kan nie so ’n dag hoog genoeg aanskryf nie. Elke ryer wat op ons paaie is, moet ten minste een van hierdie dae bywoon. Daar was selfs twee ryers wat hulle teerpad-ry wou kom opskerp op hulle groot avontuurfietse. Die koste sluit die baan, die instrukteur en ’n heerlike bord kos in. Jy kry ook na die tyd jou foto’s.
As jy nie oor ’n motorfiets beskik nie, of jy is bietjie skrikkerig om met jou eie fiets ’n baan aan te durf, is daarvoor ook ’n oplossing. Ek het ’n Honda CBR 600-baanfiets vir die dag gebruik. Jason Wessels van Moto-rentals het goedgunstiglik een van sy huurfietse aan my beskikbaar gestel. As jy so ’n fiets
huur, voel jy net soos Rossi. Na elke sessie kom Jason self nader, help jou met die fiets en die fiets word deeglik nagegaan. Jy kan selfs ’n renpak by hom huur. Sy huurtarief sluit die fiets, brandstof en ondersteuning vir die hele dag in. Sy persoonlike bystand help ook dat jy net op jou ry kan konsentreer, en nie nog moet sukkel met ’n fiets nie.
Kom slyp jou saag. Kom leer. Elke sekonde op die baan maak van jou ’n beter ryer, en elke stukkie wat jy leer, kan jy toepas in jou daaglikse pendel. Dit is ’n klein prys om te betaal vir jou eie veiligheid. Die volgende baandag is op 23 Julie 2018." |
49 | "59% as makelaars plus jou maandelikse OB klagte sal 0, 04% van die lewering jy per maand het - dit maak jou makelaar 0, 65% wat sal jy betaal deur jou neus; hulle sal jou hard verdiende geld sifon wanneer jy dit die minste verwag. Eenvoud binêre opsies demo meer geword.
Binêre Opsie makelaars verdien geld deur wisseling in die geld geplaas op die verlies van ambagte, As jy ' n bod te plaas en jy dit voorspel verkeerdelik, verloor jy al jou geld 24option, die leier van ons posisie van die beste binêre opsies makelaars in die Verenigde al die basiese binêre opsie kennis en binêre opsie handel strategieë om. Makelaars sal enigste ding is die makelaars posisie jy." |
50 | "Ramaphose sê dat die tien jaar van Zuma se regeer tyd is die rede vir al die probleme van die land – gewoonlik gee hul mos altyd die skuld vir die witman en sy apartheid
Skaars ses dae voor sy twintigste verjaarsdag is ’n jong man Maandagaand op ’n kleinhoewe buite Pretoria geskiet toe hy die voëls waarmee hulle boer gaan voer het.
Die jong seun is na ’n private hospitaal gejaag in die noorde van Pretoria na sy ouers hulp ontbied het. Die jong man is daar gestabiliseer en is tans in ’n bestendige toestand." |
51 | "Die SAUK-werknemers betaal die prys vir slegte bestuursbesluite, en die bestuur gaan aan met die onderhandelinge
SAUK.co.za is 'n trotse deel van die Inspan netwerk, 'n Nie Winsgewende organisasie. (Nie deel van SABC nie)." |
52 | "Na die brand in die Johannesburgse middestad, het dit aan die lig gekom dat dit nie net die ANC is wat versuim om noodsaaklike toerusting in stand te hou nie." |
53 | "Wedersydse Bewonderaars Vind uit of enige van die lede wat jy as gunsteling gelys het ook 'n bewonderaar van jou is.
Voorwaardes As jy hierdie werf gebruik aanvaar jy outomaties ons gebruikersvoorwaardes. Lees die besonderhede hier.
Eks 'n baie spontane mens wat hou van lag, gesels, grappe maak en die buitelewe. Eks mal oor uitdagings en 4x4 ritte.
Sy moet 'n Kind van God wees. 'n Skaam meisie het ek al agtergekom is die mees oulikste. Ek kan ook skaam wees indien ek wil.
'n Piekniek in die park; Aandete by 'n restaurant; Uitgaan vir dans; Ontmoet vir koffie; Stap op die strand" |
54 | "Beantwoord al die vrae. As dit nodig is, raai wat die antwoord is. Merk die vraag en as jy klaar is met jou vraestel kom terug na daardie vrae wat jy gemerk het en kyk of jy nie die antwoord onthou nie.
As jy nodig het om te raai, besluit eers watter jy dink is definitief verkeerd en maak dan ‘n keuse tussen die wat oorbly.
Wanneer jy klaar is met jou vraestel, lees die antwoorde weer deur, jy kan dalk antwoorde onthou soos jy die vraestel skryf of daar is soms antwoorde in die vraestel self - wees dus wakker!
Wanneer jy woorde moet invul wat weggelaat is, kyk na die word voor die opening, dit mag jou ‘n leidraad gee ten opsigte van die antwoord wat gesoek word (soos ‘n, die, hulle, hy, sy, ens.)" |
55 | "Ek hou van die buite lewe en van karre. Om te toer is lekker baie lekker. Ek is n baie sag en gee baie om vir die vrou langs my.
Sy moet my kan aanvaar vir wie en Wat ek is. Sy moet vir my lief wees vir wie en Wat ek is. Sy moet die Here dien en Hom eerste maak in n verhouding" |
56 | "Wat sê die Bybel? is ʼn uitgebreide gids wat meer as 170 van die top vrae beantwoord wat aan Hank Hanegraaff gestel is oor die afgelope 40 jaar van sy bediening." |
57 | "Full Text Available Ds. Molenaar begin sy boek, waarvan hy self die publikasienie beleef het nie, deur te wys op 'n groot tekort, ’n manko,nie alleen in die Gereformeerde vroomheid of lewe nie maarook in die Gereformeerde teologie. Hy beskou dit as hoogsmerkwaardig dat die Gereformeerde teologie in die verledeso goed as niks raakgesien het van die groot betekenis vandie sogenaamde doop met die Heilige Gees nie. Daarby meenhy dat die Gereformeerde predikante verleë sit met die Pinkterfees.Talle probleme meen hy vir die Gereformeerde teoloograak te sien, veral ten aansien van die moontlikhede van dieGees teenoor die so tasbare „onmoontIikhede� in ons lewe. Dieprobleme is syns insiens nie onoplosbaar nie, as mens maardie moontlikhede van die Gees nie beperk tot die verlede nie." |
58 | "Jou registrasie was suksesvol. Jy sal 'n e-pos met 'n skakel vir die bevestiging van die registrasie van Graffiti ontvang.
Jy sal 'n e-pos met tydelike wagwoord ontvang. Jy kan die tydelike wagwoord verander nadat jy ingeteken het.
Ander Land: Kies jou land en ons koerier die pakkie vir jou. Ons maak gebruik van die SA Poskantoor se koerierdiens EMS." |
59 | "Die polisie in Kaapstad vra die publiek om ’n man op beeldmateriaal van kringtelevisie uit te ken in verband met ’n moord wat ondersoek word.
Plaasaanvallers het brandstof oor ’n boer naby Potchefstroom gegooi om hom aan die brand te steek, maar hy kon op hulle skiet om hulle te verwilder.
Die polisie ondersoek die dood van ’n manlike verpleegstudent aan die KSUT wie se lyk onder raaiselagtige omstandighede in sy koshuiskamer gevind is.
Drie Suid-Afrikaners van geboorte, asook ’n voormalige Curriebeker-held van die Westelike Provinsie, is in Skotland se 23-tal ingesluit vir Saterdag se toets teen die Springbokke in Edinburg.
Ek is bekommerd oor die leierskap in Suid-Afrika, want sonder ’n goeie leier werk geen meganismes saam om ’n goeie betroubare doel te verrig nie.
’n Groot groep Suid-Afrikaanse musikante gaan die naweek saamspan om geld in te samel vir ’n plaaslike radio-omroeper se baba, wat nou al weke lank in die hospitaal is." |
60 | "Die amptelike lokprent vir die nuwe Koos Roets film, Hoener met die rooi skoene, is pas bekendgestel." |
61 | "Gabriel skrik wakker in 'n vreemde stad sonder enige herinnering van hoe hy daar gekom het. Was hy die vorige dag nog in Amsterdam? Tot sy verbasing bevind hy hom in die Kaap van Storms, die VOC se ou halfwegstasie - en in die begraafplaas is 'n graf met sy naam op. Die mooi slawemeisie, Zytia, probeer hom help om uit te vind wie hy regtig is, maar 'n Khoi seun met 'n vreemde klip spook by hom. En Zytia se geheimsinnige meesteres soek sy bloed . . ." |
62 | "Jy is net 'n paar klik weg van die besit van jou eie slagveld 4 Premium Oorsprong Sleutel. Lees meer
Hoekom spandeer jou geld wanneer jy afgelope kuur vol gebarste weergawe op hierdie webwerf gratis kan aflaai! Ons bied aan u....
Hoekom jou geld te spandeer wanneer jy Star Wars Battle Free CD Sleutel kan kry op hierdie webwerf eenvoudige en gratis! Op hierdie webwerf ...
Die mees algemene probleme met PC verander kan word veroorsaak alle soorte van foute. FixCleanRepair is geskep om 'n multi-instrument. Dit bied 'n stel van revolusionêre getoets nuts al in die een baie van die probleme wat bring op stadige prestasie op te los, stadig begin spoed en ander kwessies. FixCleanRepair is 'n maklike nut te gebruik met 'n gebruiker-vriendelike koppelvlak wat sit al die nuts in een plek, sodat jy dit maklik kan kliek jou muis en doen baie verskillende take in 'n keer op te los, skoon, en die herstel van jou rekenaar.
FixCleanRepair sal bespoedig jou rekenaar sodat jy nooit hoef te bekommer oor agter terwyl die speel van speletjies, navorsing aanlyn, of selfs gesels met vriende. Maak nie saak wat jy doen aanlyn, dit maak dit vreeslik wanneer jou rekenaar is deursoek en ekstra tyd neem om al die take wat jy hoef te doen, in 'n kort tyd. Met FixCleanRepair, hierdie probleem sal 'n ding van die verlede wees. Jou rekenaar vinniger as ooit wees en jy kan meer tyd geniet pret in plaas daarvan om te wag vir jou rekenaar te haal insluitend tydsverloop terwyl speletjies te speel of gesels aanlyn.
Die register van jou rekenaar is waar die konfigurasie-instellings en opsies is vir jou bedryfstelsel gehou. Dit is die plek van dinge soos die toestel drywers, kern, dienste, en jou user. Die register kan kwessies wat ontstaan vir baie verskillende redes en sal skoongemaak moet van tyd tot tyd. FixCleanRepair sal die register skoon te maak met net 'n klik van die muis om te verseker dat jou rekenaar loop gladder en stewels vinnig in plaas van loop deur ou programme en begin programme wat jy nie meer wil gebruik. Sodra FixCleanRepair het skoongemaak jou register, sal jy die groot verskil dadelik.
Te veel keer, ons vergeet om te rugsteun ons belangrike lêers, Foto's, en ander data op ons rekenaars. Dit kan verwoestend wees indien 'n virus aanvalle en begin die verwydering van jou lêers wat vir altyd verby kan word as jy nie onthou om te rugsteun van u lêers. Met FixCleanRepair, dit sal nooit 'n probleem weer soos dit sal rugsteun van u lêers outomaties. As jy nie enige probleme met jou rekenaar, FixCleanRepair sal selfs in staat wees om lêers wat jy bekommerd mag wees om te herstel is vir ewig weg. Wanneer jy gebruik FixCleanRepair, jy sal in staat wees om te rugsteun en herstel lêers vinnig en doeltreffend sonder enige rompslomp te alle.
Rommel lêers kan enigiets van ou programme wat jy nie meer gebruik word, programme wat jy het verwyder, maar oorblyfsels is nog steeds daar. FixCleanRepair sal eintlik skoon te maak al hierdie rommel lêers en die mense wat jy gebruik bestuur sodat jy die mense wat jy nodig het om vinnig in plaas van jou rekenaar werk sy pad deur die rommel lêers om te begin of enige program te begin kan vind. Al hierdie rommel lêers maak jou rekenaar werk harder deur te soek vir die programme wat jy nodig het wanneer jy dit nodig het. Sodra jy FixCleanRepair gebruik om skoon te maak van hierdie rommel lêers, sal jy 'n groot verskil in die manier waarop jou rekenaar voer sowel as die toename in spoed te sien.
As jy verwyder programme installeer en, jy verlaat leë kolle in jou skyf. As jou rekenaar nodig het 'n taak dit het om te gaan deur die hele skyf selfs al die leë kolle om die programme wat dit nodig het om die verskillende take uit te voer wat nodig is om uit te vind uit te voer. Met FixCleanRepair, skyf fragment sal maklik wees nie en alles wat ekstra ruimte sal nie meer in die voorkant, maar sal geskuif word na die einde van die skyf. Dit beteken al die programme en lêers wat saam gegroepeer word sodat jy PC vinniger en gladder loop om jou take te gaan vinnig en moeiteloos.
Gebreekte kortpaaie is daar weer as gevolg van die installering en die verwydering van programme. Hierdie bring op gebreekte kortpaaie en jou rekenaar het om harder te werk om die korrekte roete van die verskillende take wat jy vra om te doen om uit te vind. Dit sal maak jou rekenaar gaan stadiger en daad vasgeval. Met FixCleanRepair hierdie gebreekte kortpaaie sal geskrap word wat die prestasie van jou rekenaar beter as ooit maak. Dit sal in staat wees om te gaan vinniger, sodat jy kan alle take voltooi in 'n tydige wyse in plaas van wag om vir jou rekenaar. Jy kan die sagteware doen hierdie taak outomaties of kies wanneer jy wil gebreekte kortpaaie te verwyder.
Die verwyder-bestuurder met FixCleanRepair sal werk al die programme wat jy nie meer wil gebruik, insluitend verouderde sagteware te verwyder. Baie keer is daar programme geïnstalleer op jou rekenaar wat jy nie gebruik nie, wat bydra tot die ruimte wat gebruik word vir hierdie programme wat jy kan gebruik word vir meer belangrik sagteware programme. Met FixCleanRepair, die bestuurder kan verwyder al die werk te doen en skoon te maak hierdie gemors met net 'n tikkie van jou muis! Dan sal jy meer ruimte vir alle vorme van nuwe programme en jou rekenaar sal vinniger as voorheen loop op dieselfde tyd.
Wanneer jy op jou rekenaar, daar is verskeie opstart programme wat ook begin as jy jou rekenaar om behoorlik te loop. Aan die ander kant, daar is programme wat Startup op dieselfde tyd van jou rekenaar wat jy nie nodig het om te begin op hierdie tyd. Hierdie programme maak jou rekenaar begin stadig en kan selfs veroorsaak dat jou rekenaar te vries as daar is baie verskillende programme al begin op dieselfde tyd. Met FixCleanRepair, dit sal die programme te bestuur en te verseker dat die programme wat benodig word, insluitend die mense wat jy wil om te begin op dieselfde tyd sal begin vinnig en ander sal nie begin totdat jy wil om dit te gebruik.
Die belangrikste rede is dat jy nooit weer sal moet bekommerd te wees oor jou rekenaars prestasie. Fix, Skoon, en Herstel stop die verlies van die rekenaar se prestasie wat is die wortel van 'n stadiger rekenaar. Die program bied funksies wat sal verseker dat jy enige probleme te keer, sodat jy enige van die funksies wat jy verloor het, kan herwin vinnig en moeiteloos.
Tans moet jy JavaScript gedeaktiveer. Om kommentaar te lewer, maak asseblief seker dat JavaScript en Cookies aangeskakel, en herlaai die bladsy. Klik hier vir instruksies oor hoe om JavaScript in staat te stel in jou leser." |
63 | "08:23 Eerste bietjie sneeu vir die winter. Dis so mooi maar was maar baie koud. Ek sien vreeslik uit na die winter, maar ek dink ek gaan so bietjie swaar kry.
18:47 Nogal koel hier vandag en lyk my die res van die week gaan dit begin koud raak. Ek moet my seker begin gereed maak vir die koue winters." |
64 | "Sy passie is misdaadbekamping en skryf sy terapie; die logiese gevolg, ’n misdaadroman. Daar is egter veel meer aan Duane Aslett as net dit.
Sy tweede roman, Goudduiwel, het pas verskyn met dieselfde karakters as in sy debuut, Skoppensboer, maar gewikkel in ’n nuwe stryd teen die korrupte magte van die onderwêreld.
Goudduiwel word oor twee weke in die Boeke-oase op Aardklop bekend gestel, daar in Potchefstroom waar dié skrywer se heeltydse nering ’n senior lektor in forensiese rekeningkunde aan die Noordwes-Universiteit is.
Aslett het sy loopbaan in die Suid-Afrikaanse Polisiediens begin, maar glo hy lewer ’n groter bydrae tot die bekamping van georganiseerde misdaad deur te help om elke jaar 20 of 30 forensiese rekeningkundiges die land in te stuur.
Rex lei ? ondersoek vir die Valke nadat sy meisie se broer, ’n hoofverdagte in ’n moordsaak, verdwyn, gebeure wat blykbaar verband hou met die vaslê van die Krugermiljoene. Net soos in Skoppensboer moet Rex ’n netwerk van opperste skurke infiltreer. Dit lei tot wilde jaagtogte op stofpaaie so ver as Skukuza.
“Goudduiwel het egter makliker gevloei as Skoppensboer. Ek verstaan karakterontwikkeling en die verwagtinge van romanskryf nou beter.”
Dié skrywer-akademikus, wat in Oos-Londen grootgeword en aan die Afrikaanse Hoërskool Grens gematrikuleer het, sê sy groot begeerte was om ’n vlieënier te word. Toe hy nie die keuring slaag nie, het hy nie ’n benul gehad wat om te doen nie.
’n Familievriend was by die polisie en hy is agter dié aan polisiekollege toe. Sy mikpunt was die intelligensiediens maar daarvoor moes jy gegradueer wees en toe begin hy studeer. Hy verwerf ’n B.Juris deur Unisa, word ’n aanklaer, werk in PWC se forensiese afdeling, verwerf ’n meestersgraad in die regte en op die koop toe ’n meestersgraad in teologie.
Sy skryflus is op skool geprikkel deur ’n inspirerende Engels-onderwyser, maar saam met jare se studies en tussendeur ook vrou-vat was tyd vir skryf skraal – tot 2013 toe hy kans gehad het om twee kortverhale vir Huisgenoot te stuur waarvan Stropers opgeneem is in ’n bundel verhale uit die argief wat gister verskyn het. Skoppensboer is toe sommer ook gebore.
Aslett sê sy derde roman neem al vorm aan “maar word nou op ys geplaas sodat hy oor twee maande sy LL.D-verhandeling kan inhandig." |
65 | "Die engiste probleem wat mens het as jy deur swazi gan dan kan jy nie die nuwe pad om maputo ry nie so dan staan jy weer in maputo... Ek het pelle wat werk in Moz en hulle almal gan komatipoort deur... Dit vat bietjie tyd maar om Maputo te mis is die moeite werd..." |
66 | "Dit is nou n mooi lang verduideliking. Al wat jy in gedagte moet hou is om jou trokkie op sy pens deur die modder te sleep kan soms meer as die 4300kG nodig he en dus die snatch block... maar oor die algemeen sal dit nie eens naastenby nodig wees nie... Oja baie belangrik op so groot as moontelik ka..." |
67 | "Ek is 'n baie liefde volle mense. Ek is vriendelik, eerlik, getrou en 1 uit 'n miljoen. Ek het ook 'n goeie sin vir humor :)
'n Fliek; 'n Musiekkonsert; 'n Piekniek in die park; 'n Sportbyeenkoms bywoon; Aandete by 'n restaurant; Uitgaan vir dans; Teater toe gaan; Ontmoet vir koffie; Ontmoet vir drankies; Stap op die strand" |
68 | "Heel regs boaan die foto is daar 'n groot rots met 'n baken op, dis die Hondeklip waarna Hondeklipbaai vernoem is." |
69 | "Ek het n volle lewe gelewe. Dwars our die wereld gewerk, met baie lewes ondervinding. Ek is karasmaties, en baie kunstig. Soek net n rustige maat om lewe saam verder te...
Ek is n gewone Boeremeisie wat hou van die see, avontuur en die buitelewe. Ek is n eerlike en vertroubare persoon. Ek hou niks van oneerlikheid en mense wat voorgee hulle is...
’n Polisievrou het Woensdag in die hof verskyn vir haar beweerde betrokkenheid by die rooftog van ’n Oos-Kaapse polisiekantoor.
Volgende jaar se Wêreldskolerugbyfees sal ’n sterk Kiwi-geurtjie hê met vier skole van Nieu-Seeland wat hul slag teen van Suid-Afrika se voorste spanne sal kom wys.
Wat het jy op Werkersdag 2017 gedoen? Jy het heel moontlik gebraai of wasgoed gewas. Dalk het jy soos ’n betrokke landsburger aan ’n optog deelgeneem. Of dalk was jy een van die gelukkiges wat die afsluitingskonsert van die Suidoosterfees, Legendary Divas, Maandag in Kaapstad bygewoon het.
Ek was aanvanklik ’n bietjie huiwerig om ’n kaartjie aan te skaf omdat die woord “divas” in die titel soms vir my problematies is. Hoewel die woord onder meer “gevierde sangeres” beteken, het dit in moderne tye ’n bietjie van ’n katterige ondertoon gekry. Gelukkig het ek gou gesien wie hierdie divas is – Vicky Sampson, Amanda Strydom en Gloria Bosman – en almal op één verhoog. Dis die ware Jacobinas, die klassieke divas.
Maar ek wil my verstout om nog ’n diva tot die drie groot name te voeg – dié van Janine Neethling. Sy was die musikale regisseur van die produksie en die musikale baasbrein. Soos wat ’n mens van Neethling kan verwag, het sy musiek gekies wat by dié vroue se stemme pas – groot, uniek en kragtig.
Maar in plaas daarvan om verder te wonder, het hulle losgetrek en die gehoor het gou uitgevind wat ’n diva is en hoe sy moet klink.
Die produksie het begin met ’n allegaartjie – van “Jabulani” tot “Ek kan rock in my taal”. In ’n ander vertoning sou dit die “showstopper” aan die einde van die vertoning gewees het, maar dit was bloot die begin. ’n Mens het sommer met die opening besef hier kom ’n ding of vier.
So, wat het jy op Werkersdag gedoen? Gebid, gemarsjeer of gedans? Is daar ’n verskil, mag ’n mens wonder. Of soos Strydom dit stel: “Mag ons die lig uit die hemel uit op ons neerdans.” Met vervangde heupe en al." |
70 | "KORS Meng die meel, suiker en sout in ’n voedselverwerker. Voeg die koue botter by en pols tot dit soos growwe krummels lyk. Gooi in ’n bak. Sprinkel 60 ml (¼ k) yswater in, roer en druk die deeg tot dit bymekaarkom. Indien nodig, voeg nog ’n bietjie yswater by. Keer die deeg op kleefplastiek uit en verkoel 30 min.
Rol die deeg in ’n sirkel uit op ’n oppervlak wat liggies met meel bestrooi is. Rol die deeg lossies om ’n koekroller en rol dit versigtig in die voorbereide pan oop sodat die oortollige deeg oor die rand hang. Druk die deeg sagkens in die pan in en plooi of knyp die rande. Bedek en sit vir 30 min. in die vrieskas.
VULSEL Vou die room in ’n groot bak by die karamel in tot lig en donsig. Druk die vloeistof uit die geweekte gelatien, sit die vel in ’n hittebestande bak en roer oor ’n pot pruttende water tot die gelatien oplos.
BOLAAG Klits die room, versiersuiker en vanieljegeursel met ’n handklitser saam tot styf. Smeer of spuit die geklitste room oor die verkoelde tert. Hou die tert verkoel tot reg vir voorsit.
Het jy 'n storie van hoop, 'n besondere lewensles, 'n vreemde ervaring, lekkerlag-staaltjie of sommer net iets wat jy op die hart het." |
71 | "BONUS: As intekenaar ontvang jy ons eksklusiewe nuusbriewe, Koffie & Beskuit en Nuusflitse, GRATIS. Jy kan egter enige tyd op die nuusbrief uitteken.
BONUS: Gedurende jou proeftydperk sal jy ons eksklusiewe intekenaarsnuusbriewe, Koffie & Beskuit en Nuusflitse, GRATIS ontvang. Jy kan egter enige tyd op die nuusbrief uitteken.
Die World Choir Games, wat deur die Interkultur-stigting aangebied word, vind vanjaar die eerste keer in Afrika plaas. Hierdie glansgeleentheid is geskep vir nieprofessionele kore van reg oor die hele wêreld om deel te neem en vind slegs elke tweede jaar plaas." |
72 | "Ek respekteer die mense om my. Ek is goed en ordentlik groot gemaak. Ek is maklik aanpasbaar. Geniet dit om mense om my te he. Die dame wat moontlik vir my 'n kans gaan gee sal op die hande gedra word. Ek sien my self as 'n ou met baie goeie maniere en selfrespek, asook netjies(bohalwe die skoenekas) hahaha, ek sien myself ook as romanties. Ek is nie skaam nie, maar ek is GLAD nie voor op die wa of uit-die-kassie uit nie.
Rustig "free-spirit" tipe girl, intellegent, nie 'n couch-potato nie. Iemand saam met wie ek amper alles saam kan doen,.. Positiewe gesindheid oor haarself en die lewe. Liefdevol en opreg, wat nie iemand/iets anders probeer wees nie. Moet oor die weg kan kom met mense. 'n Musiek lover. En net iemand wat saam my kan lag oor dinge van die dag." |
73 | "TiCs was tot die naweek in ons kontrei en ons het gou die plakkers vasgeplak ! Die waentjie was intussen vir ‘n maand in Botswana en dit word tot groot seën gebruik !!" |
74 | "Die stad ontwikkel steeds sedert die 18de eeu, en is die ekonomiese en kulturele sentrum van die streek. Die dieretuin, wat meer as 300 spesies op uitstalling het, insluitend ware seldsaamhede, is oral in Europa bekend. Die warmwatermeer Sóstófürdő is al vir 'n paar eeue 'n toeriste-aantreklikheid. Die water het 'n temperatuur van omtrent 26 °C, en die meer word deur 'n park van 2000 m² omring." |
75 | "8. Verwyder die bouquet garni uit die sop en roer die room deur. Garneer met die oorblywende soetrissierepies en bedien dadelik." |
76 | "6. Verwyder uit die oond en toets met m sosatiestokkies of die kieste sag is. Indien nie, vou die skaapkop weer toe en bak tot kieste sag is. Wanneer die kieste sag is, bak die kop tot dit goudbruin is en die pensvel bros en krakerig." |
77 | "Toe het hy my weer terug laat loop aan die kant van die stroom. Terwyl ek teruggaan, kyk, toe het ek aan die kant van die stroom 'n menigte bome gesien, aan altwee kante.
En hy het vir my gesê: Hierdie waters vloei weg na die oostelike landstreek en loop in die Vlakte af en gaan na die see; in die see word dit uitgelei, sodat die waters daarvan gesond kan word. En al die lewende wesens wat wemel, oral waar die dubbele stroom kom, sal lewe;
en daar sal 'n menigte visse wees, omdat hierdie waters daarheen gekom het; en dié waters sal gesond word," |
78 | "Ek werk in verskillende mediums. Elke onderwerp vra 'n spesifieke medium. As ek egter tot 'n slotsom moet kom oor wat vir my die belangriste is, sal ek die tekenkuns uitsonder." |
79 | "God gebruik hierargie om op te bou – nie af te breek soos die wêreld nie. Die wêreld haat gesag. Tekste oor outoriteit/gesag:
Belangrik: moet nooit in onbeheerste woede dissiplineer nie (oorsaak van die wêreld se reaksie teen lyfstraf)
“Hieraan het ons die liefde leer ken, dat Hy sy lewe vir ons afgelê het; en ons behoort ons lewe vir die broeders af te lê”" |
80 | "'n Ondersoek na die fisieke fiksheidsvereistes wat deur die Suid–Afrikaanse Leër gestel word en die mate waarin Transvaalse seuns wat die middelbare skool verlaat, hieraan voldoen" |
81 | "Ná net ses jaar in die Suid-Afrikaanse media is Maroela Media die enigste Afrikaanse nuuswebwerf op die top 10 nuuswebwerwe in die land, en ‘n kortkop agter ander nasionale Engelse nuusreuse. Veels geluk met jou 6de verjaardag, Maroela!
Baie geluk Maroela Nuus, julle hou die lesers rêrig 24/7 op hoogte van alles. Somtyds is julle nuusberigte bietjie vaag maar oor die algemeen bly almal altyd op hoogte van die nuus.
Die DBV in Bloemfontein het gesê bewerings dat diere in die plaaslike dieretuin honger ly, is onwaar. Wat dink jy oor die saak?
Ek voel gerusgestel en glo die DBV sal ingryp indien die diere werklik in onaanvaarbare omstandighede aangehou word.
Ek glo die bewerings op sosiale media is oordryf, maar ek is steeds bekommerd oor die toestande waarin die diere aangehou word.
Die burgerregte-organisasie AfriForum sal Dinsdag ’n dringende aansoek by die Pretoriase hooggeregshof indien om die Universiteit van Suid-Afrika (Unisa) te verhoed om ʼn nuwe taalbeleid, wat met Afrikaans as onderrigmedium wegdoen, in te stel.
AfriForum se teenkanting teen Unisa se nuwe taalbeleid volg enkele dae nadat die organisasie se vorige regsaksie teen die senaats- en raadsbesluit oor die taalbeleid van die Universiteit van die Vrystaat (UV) geslaag het. Nadat AfriForum hom tot die Vrystaatse hooggeregshof gewend het, het die hof Donderdag beslis dat die UV se besluit oor sy nuwe taalbeleid ter syde gestel word. Die universiteit het egter Vrydag aangedui dat hy teen die hofuitspraak sal appelleer.
AfriForum sal ook die universiteitsenaat en -raad se besluite oor die taalbeleid self met regsaksie probeer omkeer, soos wat in die geval van die UV gebeur het.
Noem dit maar op, elke span het sy eie Tom Jenkins: waar jou kragte getap word, waar die manne van die seuns geskei word, wat jy gehaat het en vir wie jy nooit ʼn Kerskaartjie sou stuur nie.
Maar wanneer die wedstryd einde se kant toe gestaan het en jy jou tweede asem gekry het, het jy aan jou innerlike Tom Jenkins gedink, die ou wat jou gehelp het om vas te byt en deur te druk.
Dis iemand soos hy wat die Springbokke gehelp het om in 1995 in bykomende speeltyd die All Blacks in die Wêreldbeker-eindstryd te troef.
Wanneer die Bokke se tonge uitgehang het, het die afrigter Kitch Christie altyd na die moontlikheid van bykomende speeltyd verwys. Dan het hulle vasgebyt, verder gehardloop, nog harder geoefen en die vrugte gepluk." |
82 | "Daar is baie dinge wat mense glo is waar as dit kom by redding. Maar ons leer uit hierdie gedeelte van Jesus se laaste ure dat daar net sekere vereises is om gered te word. Vandag as jy besef jy het n Redder nodig, moet jy kom." |
83 | "Die verloop van die opbrengskoerskromme oor die konjunktuursiklus en die betekenis daarvan vir die befondsing van banke " |
84 | "Deur hierdie basiese riglyne toe te pas en altyd jou beste te lewer, sal jy ver kom. Kort voor lank sal die woord oor jou goeie diens versprei en sal jou kliëntebasis aansienlik groei.
Strandfontein se A blok-woonwaplekke is gesluit tot verdere kennisgewing. Die publiek se veiligheid is vir die raad ’n prioriteit...
Die ernstige droogte in die Wes-Kaap het Matzikama-munisipaliteit verplig om ’n Droogteverligtingsfonds ter ondersteuning van die landbousektor, te stig...." |
85 | "Hierdie jellie is net die ding om te maak – dis so lekker, jy sal al jou mango’s sommer begin ryp wens. As jy nie lemmetjies in die hande kan kry nie, of voel dis te duur, kan jy gewone suurlemoen gebruik.
Gooi die mengsel in ’n maatbeker uit – jy het 1 koppie vloeistof nodig. As die pulp ’n bietjie te min is, kan jy dit met ’n bietjie water of ekstra lemoensap aanvul. (Ek verpulp gewoonlik sommer 2 mango’s op ’n slag en gebruik dit wat oorbly, verdun met lemoensap as ’n heerlike verkwikkende drankie.)" |
86 | "Dit is ‘n massiewe skande en ‘n aanduiding hoekom dit so sleg gaan in ons land nadat die sogenaamde demokrasie oorgeneem het. Dis ons “nuwe” Suid Afrika, beslis nie ou Suid Afrika nie.
@CHRISTA – Nie dat ek sy optrede goedpraat nie, MAAR, as jy gaan visvang, vang jy die vis aan die hoek. Die ander swem vir eers verby. Nadat jy klaar gemaak het met die gevangde vis gooi jy weer lyn in vir die volgende een. Die beste raad is wanneer jy wettiglik afgetrek word, BLY STIL. Jy het dit verdien. Sorg dat jy volgende keer binne die wet is, dan het hy niks op jou nie en dis nie nodig vir jou om te deflekteer nie. Geniet jou dag.
’n Internasionale haaisensus word later vandeesmaand gehou, en sal na verwagting sowat drie jaar neem om te voltooi. Die see om suidelike Afrika word as een van die prioriteitsgebiede gelys om aandag te kry, aangesien min data oor die haaibevolking van dié gebied bekend is.
Hy het Sondag vir die Blou Bulle as plaasvervanger teen die Sharks Vyftiental opgedraf, twee omkeerballe gewen en het toe ná sowat tien minute sy mediale kruisligament geskeur.
Verlede jaar, toe Smit saam met die Springbokspan na Brittanje en Italië getoer het, het hy sy speelkans vir die Bokke teen die Britse Barbarians gekry. Dit was egter nie ʼn toetswedstryd waarin hy sy kleure kon verdien nie, maar hy was gewaarmerk om in die toets teen Engeland te speel.
Smit was sedert die tweede week in November verlede jaar langs die kantlyn. Sondag is hy ná sy besering van die bank af “ingefasseer”, maar na die agt maande se aflê gaan hy nou nog tussen ses en agt weke nie kan speel nie.
Hy is geopereer, het vir die Blou Bulle in die Supersportreeks gespeel, en is op die bank vir die SA A-span se tweede wedstryd gekies. Daar is egter besluit hy is nog nie heeltemal reg nie en hy is onttrek.
♦ Daar is natuurlik talle amper soortgelyke gevalle in Suid-Afrikaanse rugby. Die jongste is dié van Juan de Jongh, wat die Stormers verlede jaar aangevoer het. Hy het nadat hy sy knieligament in Februarie geskeur het, genoegsaam herstel om die SA A-span aan te voer.
Saterdag het hy vir die Stormers teen die Cheetahs harsingskudding opgedoen en is nie vir die naweek se wedstryd teen die Sunwolves beskikbaar nie." |
87 | "Ek was opgewonde toe ek Annebelle se rok sien, want net minute vroeër het ek verby 'n boom gestap met die mooiste geel bloeisels en geweet dat ek hulle daar wil afneem.
Tydens my besoek aan Parys, Frankryk kon ek vir Morne, Christelle en kleine Jovan Steyn afneem. Dit was lekker om ook hulle herinninge wat hulle nou maak in hul tydjie oorsee te kon vasvang en dit verewig. Ons het in die tuine voor die Louvre hierdie pragtige foto's geneem." |
88 | "Die ontwerp van 'n kursus vir Afrikaans vir spesifieke doeleindes vir eerstejaar-onderwysstudente binne die taakgebaseerde benadering " |
89 | "Hierdie versnit van musiek, digkuns, 'n skeut volkskuns en 'n wyntema is gebottel vir die fynproewer. Daniel Hugo en Etienne van Heerden se bloemlesing, Miskien sal ek die wingerd prys as hoofbron, word aangevul met volkskuns opgeteken deur Pieter Grobbelaar. Hierdie voordrag- en musiekprogram deur akteurs, sangers en 'n pianis beloof om 'n tinteling op die palet te wees.
Dis 'n eenmanvertoning oor die reis van grootword en die ontnugtering wat daarmee gepaardgaan. Dis 'n studie oor die emosionele samestelling van 'n familie en die vreugdes van vryheid en vlug. Die proses van grootword, word met deernis geskets met behulp van die Groot Verseboek, ma se grammofoonspeler en Pa se Camel Filters." |
90 | "Ek het Mariette by die Elardus Park tak ontmoet toe julle die ander kantore ingerig het en saam met haar getrek om die rede as jy iets gedoen wil he sy dit onmiddelik doen en afhandel en sy ‘n mens op hoogte hou van jou navrae en goeie raad gee oor die kontrakte en fone." |
91 | "Ons het nog nooit probleme gehad dat ons moes wag of slegte diens ontvang het nie. Ek verneem van ander kantore dat hulle partykeer maar moet sukkel vir diens. Ek kan spog dat ons altyd uitstekende diens ontvang." |
92 | "Dit was dream come true time en ek sou dit noddefok gesien het as dit nie vir tant Mali was nie. Check, Koppi gaan actually meer oor die mense saam met wie jy uithang – daai nuwe tjommas wat jy ontmoed by die bar, daai ou wat jou uit die moshpit opruk wanneer jy so bietjie grond vreet. Jy ken mos daai tjerrie wat keer dat jy nie jou voete faktap in die kampvuur verbrand nie. Dis 'n familie experience of note en ek belowe jou nou daar is min dinge so sexy soos 'n laag stof oor 'n paar pragtige borste nie. Nou check ek klaar daar is mense wat weer teem oor mense wat draks gebruik het en sulke kak. Newsflash moederfokkers: JOU BLOEDJIE DROP ACID, SNUIF CAT EN ROOK BOOM as jy hom by Menlyn Mall aflaai om "movies" saam met sy maatjies te gaan kyk. Real parenting is nie so maklik soos 'n paar grand in sy gatsak te stop nie. Fokkit.
In disctrick Mordor het jy nie 'n dop of twee saam die drummer wat jy week na week in Empire check gedrink nie. Jy het ook nie shit by mense gesteel nie en jy het noddefok jouself soos 'n dom doos gedra nie." |
93 | "Die acting is baie solid en die ouens wat die casting gedoen het, het ‘n uitstekende taak verrig. Die akteurs werk goed saam en is perfek vir die onderskeie rolle gekies. As jy ‘n side-by-side vergelyking tref tussen die Runaways comic se cover wat 15 jaar gelede vrygestel (2003) is en die nuwe TV reeks (2017) se poster sal jy presies sien wat ek bedoel:" |
94 | "Hierdie lêer kom vanaf Wikimedia Commons en kan ook in ander projekte gebruik word. Die beskrywing op die lêer se inligtingsblad word hieronder weergegee.
naamsvermelding – U moet erkenning aan die werk gee op die manier gespesifiseer deur die outeur of lisensiehouer (maar nie op 'n manier wat suggesteer dat hulle u of u gebruik van die werk onderskryf nie).
Die lêer bevat aanvullende inligting wat moontlik deur 'n digitale kamera of skandeerder bygevoeg is.
As die lêer verander is, sal sekere inligting dalk nie meer ooreenkom met dié van die gewysigde lêer nie." |
95 | "Ons liggame is vir die Here kosbaar en belangrik. Daar is duidelike redes daarvoor. Die eerste rede is dat Hy ons geskape het.
Ons moet dit verstaan – God het ons gemaak. Geen mens is deur die duiwel geskape nie. Trouens, Satan kan nie skep nie – hy kan net breek. God is die Groot Maker, Satan is die Groot Breker.
Ons liggame is vir God belangrik. Jesus het immers sélf vlees geword. Dink daaraan – daar was die oomblik van sy konsepsie toe die Heilige Gees oor Maria gekom het. Hy was vir 40 weke in Sy moeder. Hy was ‘n babatjie wat aan haar gesoog het en doeke gedra het. Hy was ‘n peuter, ‘n kleuter, ‘n tiener, ‘n jongman, ‘n volwassene. Hy was 100% God, maar tegelykertyd ook 100% mens. Hy het volkome “liggaamlikheid” ervaar – net soos ons, behalwe dat Hy nie gesondig het nie. (Heb. 4:15)
Die belangrikheid van ons liggame word verder daardeur bewys dat Jesus se liggaam ook gefolter en gemartel is ter wille van ons, ja, ook vir ons liggame. Onthou jy die woorde van die profeet Jesaja? (53:5): “Maar Hy is ter wille van ons oortredinge deurboor, ter wille van ons ongeregtighede is Hy verbrysel; die straf wat vir ons die vrede aanbring, was op Hom, en deur sy wonde het daar vir ons genesing gekom.”
Wanneer jy weer oor jou liggaam dink – goed of sleg – dink daaraan dat Jesus ook ‘n liggaam gehad het en ook ter wille van ons liggame gesterf het. Daarom moet jy goed daarna omsien en kan jy ook bid vir die genesing van jou liggaam.
“Ons liggame is nie bedoel vir seksuele losbandigheid nie. Hulle is daar vir die Here, net soos die Here sorg dra vir ons liggame.” (v. 13)
“Vlug dus weg van seksuele losbandigheid. Geen ander sonde beïnvloed ’n mens se liggaam so direk soos hierdie een nie. Want as jy seksuele losbandigheid bedryf, sondig jy teen jou eie liggaam.” (v. 18)
Die gedeelte van die pad wat 54km oos van Vivo inmekaar getuimel het. Die padtekens soos gesien in die foto is die enigste aanwysings dat daar ‘n probleem in die padoppervlakte voorkom.
Boere in die Vivo-omgewing meen die toestand van die pad, en gebrek aan optrede voldoen nie aan wetlike bepalings in die provinsie nie.
Die pad is oortrek met slaggate soos gesien op hierdie foto. Dit maak die situasie moeilik vir die padverbruiker om die slaggate te ontduik.
“Veiligheidsmaatskappye wat op die alarm reageer het, het later vasgestel die verdagtes het toegang tot die huis probeer verkry deur die glas in die deur te breek, maar is versteur toe die alarm afgegaan het.”
Ek het my sekerheids firma se dienste lankal gekanselleer want die meeste van hulle beteken niks nie." |
96 | "Wendy Maartens woon in Table View – ’n klipgooi van die “groot blou dam”, Rietvlei se strandmeer en die Weskus waar alles om die draai van die gety, vroegoggend se vangs en die stories van vroeër jare dwaal. Sy is ’n kinderboekskrywer, joernalis, vertaler en dromer. Sy skilder graag, doen graveerwerk op klip, maak tuin en toets haar kinderstories op haar ganskinders, Petunia en Lelieblom.
Ecklon self het die eerste plantmuseum in Suid-Afrika gevestig met 325 plante wat hy in 1825 aan die museum geskenk het.
Hy het vantevore die Eugène Maraisprys vir Die grammatika van liefhê, die Stalsprys vir geskiedeniswetenskappe vir Van Wyk Louw – ’n lewensverhaal, die Louis Hiemstraprys vir nie-fiksie Die honderd jaar van M.E.R., die C.J. Langenhovenprys vir taalwetenskap en die N.P. van Wyk Louwmedalje vir die volgehoue uitbouing van ’n vertakking of vertakkings van die geesteswetenskappe, ontvang.
Die geskiedenis van die ontwikkeling van Afrikaans word volledig deur Steyn beskryf in sy boek Ons gaan ’n taal maak – Afrikaans sedert die Patriot-jare wat in 2014 deur Kraal-Uitgewers gepubliseer is. Antoinette Koster, bemarkingshoof van Kraal-Uitgewers, het gesê dit is gepas om Steyn se hoogstaande en volgehoue akademiese bydrae op dié wyse te vereer. Volgens Koster is daar niemand anders wat “meer geskik” is vir die toekenning nie.
Sal nutteloos wees om Zuma te besoek. Hy plak in Nelspruit. Vroeer die week gaan kyk waar op MALA MALA hy vir hom ‘n tweede nkandla kan gaan bou net sodat ouens soos malema en die ondersoekbeamptes van die Openbare Beskermer verward kan raak oor waar hy hom bevind as hulle hom graag wil besoek….
Volgens Van Schalkwyk het daar ʼn man by die gebou opgedaag en daarop aangedring om die vroue se toilet te gebruik. Sy het aanvanklik geweier dat die man enige van die toilette gebruik maar het later voorgestel dat hy die manstoilet gebruik. Van Schalkwyk het die man weggewys nadat hy geweier het om die manstoilet te gebruik.
Dis baie snaaks hoe Isaac Mangena se “dat geriewe slegs vir die gebruik van wit mense is” soos ek die berig verstaan is daar wel geriewe vir alle rasse hier genoem net ekleen sy eie een!
Ek wil nou glad nie puntenerig wees nie, mar kyk bietjie mooi na die verdeling. Nêrens word daar voorsiening gemaak vir wit mans, buiten die bestuurder nie. Dis darem erg, komende van ‘n wit man af…(As jy nie die humor hier sien nie, besoek asb jou naaste toilet..jy gaan dit nodig kry)." |
97 | "Dankie vir die beskrywing van die voertuie dit is n begin nou nog net n beter beskrywing van die verdagtes en die publiek kan die polisie help om die skelms te bang
Dankie vir die beskrywing van die voertuie dit is n begin nou nog net n beter beskrywing van die verdagtes en die publiek kan die polisie help om die skelms te vang
ʼn Polisiesersant het Donderdag in die George-landdroshof in die Wes-Kaap verskyn in verband met die beweerde verkragting van sy eksvriendin.
ʼn Lasbrief vir inhegtenisneming is gemagtig en die verdagte is deur Opod in hegtenis geneem. Hy het in die hof verskyn op drie aanklagte van verkragting en ʼn aanklag van aanranding met die doel om ernstig te beseer.
ʼn Militante groep wat bande het met die Islamitiese Staat (IS) in Egipte het verantwoordelikheid vir die voorval aanvaar, maar dié bewering kon egter nie bevestig word nie. Sherif Ismail, Egipte se premier, het gesê dit is onmoontlik om die oorsaak van die ongeluk te bepaal tot die data op die vlugopnemers ontleed is.
As die Europese seisoen aan die einde van Mei verby is, gaan daar van die Cheetahs verwag word om in die middel van die Suid-Afrikaanse seisoen te rus. Watter kans het die spelers dan om die Bokafrigter, Rassie Erasmus, van hul vaardighede te oortuig?
In Suid-Afrika is die fokus op Arabella in die Wes-Kaap waar die Vodacom-toernooi vanoggend begin het.
Brandstof maak 98% van die totale gewig uit van ’n vuurpyl wat die aarde se aantrekkingskrag moet ontsnap vir ’n reis na die buitenste ruim. Ishimatsu meen dit sal veel goedkoper wees om met minder brandstof op te styg, en dan onderweg vol te maak.
Volgens hom is die bestanddele vir vuurpylbrandstof reeds op die maan, naamlik waterys en regoliet. Die brandstof kan van die maan met geoutomatiseerde vuurpyle na verbykomende tuie geneem word sodat die tuie nie op die maan hoef te land nie." |
98 | "Smelt die bestanddele vir die sous saam en gooi oor die poeding sodra dit uit die oond kom. Steek gaatjies in die poeding met ‘n vurk om die sous te help intrek.
Ons vra om verskoning vir die fout wat ingesluip het. Dankie dat julle dit onder ons aandag gebring het! Ons het die wysigings aangebring.
Botha, wat benewens sy vaart ook goeie aanvoeling en vaardighede het, het as 21-jarige sy twee toetse onder die afrigter Heyneke Meyer gespeel en indruk gemaak voordat die beserings sy loopbaan ontwrig het.
Hy het 34 wedstryde vir die Blou Bulle en 48 vir die Bulls gespeel nadat hy in 2011 as kaptein van die Junior Bokke sy eerste proesel internasionale rugby gehad het.
Na herhaalde pogings om sy terugkeer te maak wat telkens deur kniebeserings in die wiele gery is, het Ulster verlede jaar besluit om nie sy kontrak te bekragtig nie nadat Botha weer vir die Bulls op toer in Nieu-Seeland sy knie beseer het.
Die afleiding was dat Van Zyl ongelukkig was omdat hy min speeltyd gekry het en ondermeer ook dikwels vir sy mede-Springbok Rudy Paige in Superwedstryde moes terugstaan. Hy het, op provinsiale en toetsvlak, nie sy regmatige kans gehad om sy slag te wys nie.
Van Zyl het, eers vir die Vrystaat Cheetahs (32 wedstryde) en toe vir die Cheetahs (ook 32 wedstryde) sy merk gemaak en het sedert 2014 in 20 wedstryde vir die Blou Bulle en 44 vir die Bulls gespeel." |
99 | "En julle weet natuurlik dat die tugmaatreëls wat ingestel is tydens die uitlek van die 2014 vraestelle teruggetrek is?" |
Dataset Card for "oscar"
Dataset Summary
OSCAR or Open Super-large Crawled ALMAnaCH coRpus is a huge multilingual corpus obtained by language classification and filtering of the Common Crawl corpus using the goclassy architecture. Data is distributed by language in both original and deduplicated form.
The version here is the original OSCAR 2019 release: https://oscar-project.org/post/oscar-2019/
For more recent versions, visit the oscar-corpus organization on the Hub:
- OSCAR 22.01 (released in January 2022): oscar-corpus/OSCAR-2201
- OSCAR 21.09 (released in September 2021): oscar-corpus/OSCAR-2109
Supported Tasks and Leaderboards
OSCAR is mainly inteded to pretrain language models and word represantations.
Languages
All the data is distributed by language, both the original and the deduplicated versions of the data are available. 166 different languages are available. The table in subsection Data Splits Sample Size provides the language code for each subcorpus as well as the number of words (space separated tokens), lines and sizes for both the original and the deduplicated versions of OSCAR.
Dataset Structure
We show detailed information for all the configurations of the dataset.
Data Instances
Click to expand the Data/size information for each language (deduplicated)
unshuffled_deduplicated_af
- Size of downloaded dataset files: 65.99 MB
- Size of the generated dataset: 172.30 MB
- Total amount of disk used: 238.29 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "aanlyn markte as gevolg van ons voortgesette 'n begrip opsie handel sakeplan pdf terwyl ons steeds die gereelde ons binêre opsies handel"
}
unshuffled_deduplicated_als
- Size of downloaded dataset files: 1.26 MB
- Size of the generated dataset: 2.96 MB
- Total amount of disk used: 4.22 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"De Nazionalpark hät e Flächi vo 170,3 km² und isch dodemit s grösti Naturschutzgebiet vo de Schwiz. Er ligt uf em Gebiet vo de ..."
}
unshuffled_deduplicated_am
- Size of downloaded dataset files: 61.35 MB
- Size of the generated dataset: 216.15 MB
- Total amount of disk used: 277.50 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"አየር መንገዱ ከአዲስ አበባ ወደ ሮም ጣሊያን በማምራት ላይ በነበረበት ጊዜ ረዳት አብራሪው የጉዞውን አቅጣጫ በመቀየር ጄኔቭ አውሮፓላን ማረፊያ በማሳረፍ እጁን ለፖሊስ ሰጥቷል።\\nየኢትዮጵያ መንግስት የ..."
}
unshuffled_deduplicated_an
- Size of downloaded dataset files: 0.14 MB
- Size of the generated dataset: 0.85 MB
- Total amount of disk used: 0.99 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"واااااااأسفاه الأمم تفتخر ب 0 أمي ووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووو..."
}
unshuffled_deduplicated_ar
- Size of downloaded dataset files: 9.67 GB
- Size of the generated dataset: 33.57 GB
- Total amount of disk used: 43.23 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"مرحبا بك عزيز الزائر نتمنى لك أوقاتاً سعيدة معنا وأن نزداد شرفا بخدمتك ولا تنسى التسجيل معنا لتستفيد بكل جديد\\nأهلا وسهلا بك زا..."
}
unshuffled_deduplicated_arz
- Size of downloaded dataset files: 10.02 MB
- Size of the generated dataset: 35.91 MB
- Total amount of disk used: 45.94 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"بنى عجل : قبيلة من عجل بن لجيم بن صعب بن على بن بكر بن وائل انتقل اغلبهم الى البصرة فى العراق و اصفهان و خراسان فى ايران و اذرب..."
}
unshuffled_deduplicated_as
- Size of downloaded dataset files: 15.51 MB
- Size of the generated dataset: 74.07 MB
- Total amount of disk used: 89.58 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"আমি, এই সংগঠনৰ সদস্য সকলে একেলগ হৈ অসমকে ধৰি ভাৰতৰ উত্তৰ পূৰ্বাঞ্চলৰ অমূল্য কলা-সাংস্কৃতিক সম্পদৰাজি বৃহত্তৰ অষ্ট্ৰেলিয়াৰ সন্মু..."
}
unshuffled_deduplicated_ast
- Size of downloaded dataset files: 0.86 MB
- Size of the generated dataset: 2.17 MB
- Total amount of disk used: 3.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"The Killers llanzaron el so álbum debú, Hot Fuss, en xunu de 2004 nel Reinu Xuníu, al traviés de la discográfica Lizard King, y..."
}
unshuffled_deduplicated_av
- Size of downloaded dataset files: 0.07 MB
- Size of the generated dataset: 0.34 MB
- Total amount of disk used: 0.41 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Жинда малъараб ва божизе бегьулеб рагІудаса кьуризе бегьуларо гьев. Гьес насихІат гьабизе кколелъул бацІцІадаб диналъул рахъалъ..."
}
unshuffled_deduplicated_az
- Size of downloaded dataset files: 521.74 MB
- Size of the generated dataset: 1.53 GB
- Total amount of disk used: 2.05 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"AZTV-Artıq 7 ildir ki, Abşeron rayonu dotasiya almadan bütün xərclərini yerli daxilolmalar hesabına maliyyələşdirir.\\nDünən, 10..."
}
unshuffled_deduplicated_azb
- Size of downloaded dataset files: 5.19 MB
- Size of the generated dataset: 20.08 MB
- Total amount of disk used: 25.27 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"لعلی ١٣-جو عصرده یاشاییب یاراتمیش گؤرکملی آذربایجان شاعرلریندندیر. ١٢٢٤-جی ایلده تبریزده آنادان اولموشدور، گنج یاشلاریندا تیجار..."
}
unshuffled_deduplicated_ba
- Size of downloaded dataset files: 25.98 MB
- Size of the generated dataset: 93.84 MB
- Total amount of disk used: 119.82 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Күҙәтеү ҡуласаһы моделен хәҙер Мифтахетдин Аҡмулла исемендәге Башҡорт дәүләт педагогия университетында ла эшләргә мөмкин\\t\\nКүҙ..."
}
unshuffled_deduplicated_bar
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": " vo"
}
unshuffled_deduplicated_bcl
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"& ÿ ó / í 0 - ø û ù ö ú ð ï ú \\u0014 ù þ ô ö í ÷ ò \\u0014 ÷ í ù û ö í \\u0001 û ñ ç þ \\u0001 ð \\u0007 þ ò ñ ñ ò ô \\u0017 û ö ô ÷..."
}
unshuffled_deduplicated_be
- Size of downloaded dataset files: 306.70 MB
- Size of the generated dataset: 1.08 GB
- Total amount of disk used: 1.39 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Брэсцкія ўлады не дазволілі прафсаюзу РЭП правесці пікетаванне ў парку Воінаў-інтэрнацыяналістаў 30 мая 2018 года.\\nСітуацыю пр..."
}
unshuffled_deduplicated_bg
- Size of downloaded dataset files: 3.85 GB
- Size of the generated dataset: 14.45 GB
- Total amount of disk used: 18.30 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ЖАЛБОПОДАТЕЛЯТ директор на Дирекция „ Обжалване и данъчно-осигурителна практика“- Бургас, редовно призован, се представлява от ..."
}
unshuffled_deduplicated_bh
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.04 MB
- Total amount of disk used: 0.04 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"सुकमा जिला भारत के छत्तीसगढ़ राज्य में एगो जिला बाटे। एकर मुख्यालय सुकमा शहर बाटे। एकर कुल रकबा 5636 वर्ग कि॰मी॰ बाटे।\"..."
}
unshuffled_deduplicated_bn
- Size of downloaded dataset files: 1.26 GB
- Size of the generated dataset: 6.24 GB
- Total amount of disk used: 7.50 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ভড়ং সর্বস্ব বাংলা আর্ট অ্যান্ড কালচারের হিসাব গুলিয়ে দেওয়ার ম্যাজিকের নাম ব্রাত্য রাইসু November 23, 2017\\nTagged with ডায়োজিনি..."
}
unshuffled_deduplicated_bo
- Size of downloaded dataset files: 22.37 MB
- Size of the generated dataset: 144.65 MB
- Total amount of disk used: 167.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"བོད་མི་འདི་དག་ནི་རང་རྒྱུད་སྒོ་རུ་ཕུད་དེ་གཞན་རྒྱུད་པང་དུ་ཉར་ནས་གསོ་སྐྱོང་བྱེད་དགོས་ཟེར་བ་དང་གཅིག་མཚུངས་རེད།\\nཚན་རིག་ནི་དང་ཐོག་རང..."
}
unshuffled_deduplicated_bpy
- Size of downloaded dataset files: 0.19 MB
- Size of the generated dataset: 1.78 MB
- Total amount of disk used: 1.97 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"পৌরসভা এহার আয়তন (লয়াহান) ২,৭৩০,.৬৩ বর্গ কিলোমিটার। পৌরসভা এহার মাপাহানর অক্ষাংশ বারো দ্রাঘিমাংশ ইলতাই 18.63° S 48.18° W ।[১]..."
}
unshuffled_deduplicated_br
- Size of downloaded dataset files: 6.47 MB
- Size of the generated dataset: 17.00 MB
- Total amount of disk used: 23.47 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Ar mank Magalhães(Daveoù a vank) a zo ur spesad evned, Spheniscus magellanicus an anv skiantel anezhañ.\\nGallout a reer implijo..."
}
unshuffled_deduplicated_bs
- Size of downloaded dataset files: 0.04 MB
- Size of the generated dataset: 0.15 MB
- Total amount of disk used: 0.18 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ž šř é ú šř šř ě šř ž é č ě ž ů ě ď éé ýš ě ě Ž č š ý ě ď é ýš ě ď ě éé ýš ě č ž ě š ý ď ě ýš é ú č ž č š ý ď ý ž é éě ď é č ýš..."
}
unshuffled_deduplicated_bxr
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"2002 оной хабар буряад хэлэ бэшэгэй һалбари Үндэһэтэнэй хүмүүнлиг ухаанай дээдэ һургуули болгогдожо өөршэлэгдөө.\\nХарин мүнөө б..."
}
unshuffled_deduplicated_ca
- Size of downloaded dataset files: 1.73 GB
- Size of the generated dataset: 4.57 GB
- Total amount of disk used: 6.30 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Daniel Vendrell, conegut com Vandrell, ha sigut un dels il•lustradors contemporanis més influents, representant a la nova onada..."
}
unshuffled_deduplicated_cbk
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano..."
}
unshuffled_deduplicated_ce
- Size of downloaded dataset files: 1.87 MB
- Size of the generated dataset: 7.04 MB
- Total amount of disk used: 8.90 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Шаьш анархисташ ду бохучу жигархойн дIахьедарехь дуьйцу, оьрсийн ницкъаллийн структурийн а, федералан каналан а Iалашонаш \\\"мар..."
}
unshuffled_deduplicated_ceb
- Size of downloaded dataset files: 7.12 MB
- Size of the generated dataset: 24.83 MB
- Total amount of disk used: 31.95 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Si Isko walay pupamilok nga nagtan-aw sa unahan, natugaw. “Naunsa ka gud diha Isko nga layo man kaayo ang imong panan-aw?” ni I..."
}
unshuffled_deduplicated_ckb
- Size of downloaded dataset files: 60.32 MB
- Size of the generated dataset: 237.72 MB
- Total amount of disk used: 298.05 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"رسی رۆژ - ساڵێک دوای بومەلەرزەی کرماشان میوانی بەرنامە : کاک سیاوەش حەیاتی چالاکی مەدەنی -قەسری شیرین\\nپارچە موزیک 30 / 10 / 20..."
}
unshuffled_deduplicated_cs
- Size of downloaded dataset files: 10.49 GB
- Size of the generated dataset: 25.71 GB
- Total amount of disk used: 36.20 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Akce anarchistů proti připravovanému novému služební řádu a nízkým mzdám 1903 – Historie českého anarchismu (1880 – 1939)\\nRost..."
}
unshuffled_deduplicated_cv
- Size of downloaded dataset files: 7.47 MB
- Size of the generated dataset: 27.49 MB
- Total amount of disk used: 34.95 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Шыранӑ чухне ӑнсӑртран латин кирилл саспаллисем вырӑнне латин саспаллисене ҫырсан, сайт эсир ҫырнине юсама тӑрӑшӗ.\\nКу сайтра ч..."
}
unshuffled_deduplicated_cy
- Size of downloaded dataset files: 53.63 MB
- Size of the generated dataset: 141.22 MB
- Total amount of disk used: 194.86 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Mae capeli Cymreig yr Andes ym Mhatagonia wedi cyhoeddi na fydd gwasanaethau yno weddill y mis, oherwydd yr eira trwm sydd wedi..."
}
unshuffled_deduplicated_da
- Size of downloaded dataset files: 3.82 GB
- Size of the generated dataset: 10.24 GB
- Total amount of disk used: 14.06 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Den 2.-5. februar 2016 løb det tredje kursus i uddannelsen af 4kommunesamarbejdets Local Impact Coaches, af stablen i Gentofte ..."
}
unshuffled_deduplicated_de
- Size of downloaded dataset files: 60.80 GB
- Size of the generated dataset: 156.30 GB
- Total amount of disk used: 217.10 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Auf dieser Seite gibt es mind. ein YouTube Video. Cookies für diese Website wurden abgelehnt. Dadurch können keine YouTube Vide..."
}
unshuffled_deduplicated_diq
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Zıwanê Slawki, zıwano merdumanê Slawano. Zıwanê Slawki yew lızgeyê Zıwananê Hind u Ewropao. Keyeyê Zıwananê Slawki beno hirê letey:"
}
unshuffled_deduplicated_dsb
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Pśiklaskaju južo pśed pśedstajenim... 1500 źiśi njamóžo wěcej docakaś, měsćańska hala w Chóśebuzu - wupśedana."
}
unshuffled_deduplicated_dv
- Size of downloaded dataset files: 16.84 MB
- Size of the generated dataset: 82.19 MB
- Total amount of disk used: 99.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ބ. އަތޮޅުގައި ހުޅުވަން ތައްޔާރުވަމުން އަންނަ ވައްކަރު ރިސޯޓުގައި ވަޒީފާ އަދާކުރަން ޝައުގުވެރިވާ ފަރާތްތަކަށް ކުރިމަތިލުމުގެ ފުރ..."
}
unshuffled_deduplicated_el
- Size of downloaded dataset files: 7.91 GB
- Size of the generated dataset: 28.74 GB
- Total amount of disk used: 36.65 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Νεκρός εντοπίστηκε μέσα στο σπίτι του στην οδό Ηρώδου Αττικού στον αριθμό 7 ο επικεφαλής του προξενικού τμήματος της Ρωσικής πρ..."
}
unshuffled_deduplicated_eml
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"A séguit dal prucès ad rubutiśasiòṅ di abitànt dal pòpul ad Mikenes, Angoras 'l è finî dènt'r a 'n robot cun la tèsta dna rana ..."
}
unshuffled_deduplicated_en
- Size of downloaded dataset files: 496.50 GB
- Size of the generated dataset: 1299.75 GB
- Total amount of disk used: 1796.24 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Mtendere Village was inspired by the vision of Chief Napoleon Dzombe, which he shared with John Blanchard during his first visi..."
}
unshuffled_deduplicated_eo
- Size of downloaded dataset files: 92.86 MB
- Size of the generated dataset: 240.12 MB
- Total amount of disk used: 332.99 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Ĉu ... preĝi | mediti | ricevi instigojn || kanti | muziki || informiĝi | legi | studi || prepari Diservon\\nTemas pri kolekto d..."
}
unshuffled_deduplicated_es
- Size of downloaded dataset files: 60.46 GB
- Size of the generated dataset: 160.86 GB
- Total amount of disk used: 221.32 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Como se librará de la celulitis en el gimnasio La piel superflua en las manos después del adelgazamiento, Los bailes fáciles pa..."
}
unshuffled_deduplicated_et
- Size of downloaded dataset files: 966.79 MB
- Size of the generated dataset: 2.45 GB
- Total amount of disk used: 3.41 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"MTÜ AB Video järgib oma tegevuses kodanikuühenduste eetilise tegevuse üldtunnustatud põhimõtteid, mis on lühidalt kokkuvõetud 7..."
}
unshuffled_deduplicated_eu
- Size of downloaded dataset files: 134.68 MB
- Size of the generated dataset: 363.93 MB
- Total amount of disk used: 498.61 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Gure jarduerek eraikuntzarekin, elkarbizitzarekin, hirigintzarekin eta ekologiarekin dute harremana, baita ideia eta konponbideak irudikatu eta garatzearekin ere, eraikuntza sektorea hobetuz, pertsonen erosotasuna eta bizi-kalitatea hobetzeko."
}
unshuffled_deduplicated_fa
- Size of downloaded dataset files: 10.46 GB
- Size of the generated dataset: 40.06 GB
- Total amount of disk used: 50.52 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"قـــــــــــــــــرار بود با هم کنـــــــــــــار بیایم نه اینکه از کنــــــــــــار هم رد بشیم...!!!\\nاگر روزی دلت لبریز غم بو..."
}
unshuffled_deduplicated_fi
- Size of downloaded dataset files: 5.38 GB
- Size of the generated dataset: 13.99 GB
- Total amount of disk used: 19.37 GB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Kiitos Deelle kaikesta - 1,5 viikkoa kulunut, kun Dee ei ole enää ollut omani. Reilu viikko sitten sunnuntaina vein Deen uuteen kotiinsa. Itselläni on ollut niin ristiriitaiset t..."
}
unshuffled_deduplicated_fr
- Size of downloaded dataset files: 55.46 GB
- Size of the generated dataset: 148.28 GB
- Total amount of disk used: 203.75 GB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Média de débat d'idées, de culture et de littérature. Récits, décryptages, analyses, portraits et critiques autour de la vie des idées. Magazine engagé, ouvert aux autres et au monde.. Bring up to date in french"
}
unshuffled_deduplicated_frr
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Hiragana’ Practice’Sheet’1’(A -O)’ ’ Name:’________ __________________________’Section:’_______________ _’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ..."
}
unshuffled_deduplicated_fy
- Size of downloaded dataset files: 10.27 MB
- Size of the generated dataset: 26.73 MB
- Total amount of disk used: 37.00 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Nim in sêfte ride op Holmsjön, yn ien fan 'e lytse marren yn de omkriten, of nim se op avontueren lykas nonresidential. lâns Indalsälven wetter. Holm Sportklubb hawwe kano 's te huur, yn gearwurking mei de Baltyske Power konferinsje."
}
unshuffled_deduplicated_ga
- Size of downloaded dataset files: 22.22 MB
- Size of the generated dataset: 63.86 MB
- Total amount of disk used: 86.08 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Is fóram é seo chun plé a dhéanamh ar an leabhar atá roghnaithe do mhí na Samhna 2013 amháin. Ní féidir ach le baill chláraithe..."
}
unshuffled_deduplicated_gd
- Size of downloaded dataset files: 0.42 MB
- Size of the generated dataset: 1.36 MB
- Total amount of disk used: 1.78 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Zhou Yujun, a 'phàrtaidh Rùnaire Comataidh Sgìre Yanfeng ann Hengyang bhaile agus a Sgìre pàrtaidh agus an riaghaltas a' bhuidheann-riochdachaidh a 'tighinn a chèilidh air ar companaidh air Apr. 14, 2017."
}
unshuffled_deduplicated_gl
- Size of downloaded dataset files: 155.85 MB
- Size of the generated dataset: 408.34 MB
- Total amount of disk used: 564.19 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"O persoal de Inditex da provincia de Pontevedra segue a reclamar iguais condicións laborais no conxunto do país - CIG: Confeder..."
}
unshuffled_deduplicated_gn
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"º ÑÆÚÓ À Ã Ð É Æ ¾ ÄÂ Î À ¼ Æ É ÄÛ = Ü Ý\\\"Þ ßà á â ã ä å æçè ã é ê â å àë ì æê íî é á ë ï í çì àð í Ü à ñ ê é ò ä ì\"..."
}
unshuffled_deduplicated_gom
- Size of downloaded dataset files: 0.38 MB
- Size of the generated dataset: 1.87 MB
- Total amount of disk used: 2.24 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"दुष्ट शीळ हें कौरवांचें । रामें सविस्तर देखूनि साचें । बोलिले वचनें जें दुर्वाचे । करी तयांचें अनुस्मरण ॥२२०॥\"..."
}
unshuffled_deduplicated_gu
- Size of downloaded dataset files: 162.97 MB
- Size of the generated dataset: 759.34 MB
- Total amount of disk used: 922.32 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"અધિક માસ ચાલે છે. સમગ્ર ભારતમાં અને તેમાંય ખાસ કરીને પવિત્ર કે ધાર્મિક કહેવાય છે તેવા સ્થાનક પર કથાનો દોર ચાલે છે. ઉનાળાની કાળઝ..."
}
unshuffled_deduplicated_he
- Size of downloaded dataset files: 3.04 GB
- Size of the generated dataset: 10.47 GB
- Total amount of disk used: 13.51 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"זקוקים לרשתות נגד יתושים? מחפשים רשת מתאימה לחלון צר וקטן? רשתות נגד יתושים אקורדיון של חברת קליר-מש הן הפתרון.\\nרשתות לחלונות ..."
}
unshuffled_deduplicated_hi
- Size of downloaded dataset files: 2.01 GB
- Size of the generated dataset: 9.57 GB
- Total amount of disk used: 11.58 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"'आइटम गर्ल' बनकर हिट हुई थीं राखी सावंत, आज करीना-कटरीना तक फॉलो कर रही हैं ट्रेंड नक्सलियों का दम निकालेगा बाइक ग्रेनेड लॉन्च..."
}
unshuffled_deduplicated_hr
- Size of downloaded dataset files: 46.74 MB
- Size of the generated dataset: 121.50 MB
- Total amount of disk used: 168.23 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"U raspravi je sudjelovao i HSS-ov saborski zastupnik rekavši kako poljoprivrednici ne osjete mjere o kojima ministar govori jer..."
}
unshuffled_deduplicated_hsb
- Size of downloaded dataset files: 0.72 MB
- Size of the generated dataset: 1.89 MB
- Total amount of disk used: 2.61 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Budyšin (SN/BŠe). Elektronikarjo mějachu lětsa cyle hinaši zazběh do swojeho wukubłanja. Wokrjesne rjemjeslnistwo bě mjenujcy w..."
}
unshuffled_deduplicated_ht
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan..."
}
unshuffled_deduplicated_hu
- Size of downloaded dataset files: 7.37 GB
- Size of the generated dataset: 19.09 GB
- Total amount of disk used: 26.46 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"monster - Amatőr, házi szex videók és kezdő csjaok pornó filmjei. - Free amateur, home made sex videos and online porn movies. ..."
}
unshuffled_deduplicated_hy
- Size of downloaded dataset files: 393.62 MB
- Size of the generated dataset: 1.56 GB
- Total amount of disk used: 1.96 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Արցախի Հանրապետության հռչակման 26-րդ տարեդարձի կապակցությամբ Շուշիի Արվեստի կենտրոնում կազմակերպվել է մոսկվաբնակ նկարիչներ՝ հայ..."
}
unshuffled_deduplicated_ia
- Size of downloaded dataset files: 0.05 MB
- Size of the generated dataset: 0.38 MB
- Total amount of disk used: 0.43 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha h..."
}
unshuffled_deduplicated_id
- Size of downloaded dataset files: 6.00 GB
- Size of the generated dataset: 17.05 GB
- Total amount of disk used: 23.05 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Perihal dari itu, kalau kunci hal yang demikian hilang, pemilik wajib melapor ke bengkel sah untuk dibuatkan kunci baru dengan ..."
}
unshuffled_deduplicated_ie
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Plastic Yo Yo Metal Yo Yos Wooden Yo Yo Keychain Yo Yo Translucent Yo Yo Light Up Yo Yo Globe Yo Yo Stress Reliever Yo Yo Jellyfish Yo Yo Sports Ball Yo Yo Sound Yo Yo Miniature Yo Yo Promotional Yo Yo Novelty Yo Yo Video Game Yo Yo ECO Recycled Yo Yo"
}
unshuffled_deduplicated_ilo
- Size of downloaded dataset files: 0.23 MB
- Size of the generated dataset: 0.68 MB
- Total amount of disk used: 0.91 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Segun ken ni Ping-ay, ti yellow corn ti maysa kadagiti nadakamat a liberalized agricultural commodity iti daytoy a free trade k..."
}
unshuffled_deduplicated_io
- Size of downloaded dataset files: 0.04 MB
- Size of the generated dataset: 0.14 MB
- Total amount of disk used: 0.19 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Chekia esas parlamentala republiko. La chefo di stato esas la prezidanto. Til 2013 lu elektesis dal parlamento. Pos ta yaro, ol..."
}
unshuffled_deduplicated_is
- Size of downloaded dataset files: 332.87 MB
- Size of the generated dataset: 894.28 MB
- Total amount of disk used: 1.23 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Eyjar.net - upplýsinga- og fréttamiðill um Vestmannaeyjar - Fréttir - Nái núverandi stefna stjórnvalda fram að ganga mun það va..."
}
unshuffled_deduplicated_it
- Size of downloaded dataset files: 27.93 GB
- Size of the generated dataset: 74.09 GB
- Total amount of disk used: 102.03 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Jaundice - causes, treatment & pathology massaggio a osteochondrosis dellindizio di una controindicazione\\nTrattamento su un co..."
}
unshuffled_deduplicated_ja
- Size of downloaded dataset files: 40.80 GB
- Size of the generated dataset: 113.63 GB
- Total amount of disk used: 154.44 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"神社などへ一緒に同行して、様々な角度のショットで家族写真やお子様の写真を撮影致します!お好みに合わせて様々な写真を取ることができますので、その場でカメラマンへのリクエストも可能です!お子様の晴れ姿を、緊張していない自然な笑顔で残しませんか?\\n※七五三の..."
}
unshuffled_deduplicated_jbo
- Size of downloaded dataset files: 0.20 MB
- Size of the generated dataset: 0.70 MB
- Total amount of disk used: 0.91 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "ni'o 23 la cimast. cu 23moi djedi fi'o masti la cimast. noi ke'a cu cimoi masti .i 22 la cimast. cu purlamdei .ije 24 la cimast. cu bavlamdei"
}
unshuffled_deduplicated_jv
- Size of downloaded dataset files: 0.21 MB
- Size of the generated dataset: 0.62 MB
- Total amount of disk used: 0.82 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"José Mourinho (diwaca: [ʒuˈzɛ moˈɾiɲu]; lair ing Setubal, Portugal, 26 Januari 1963; umur 55 taun) iku salah siji pelatih bal k..."
}
unshuffled_deduplicated_ka
- Size of downloaded dataset files: 377.23 MB
- Size of the generated dataset: 1.99 GB
- Total amount of disk used: 2.36 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"წამიყვანე შენთან ერთად (ქართულად) / Возьми меня с собой (картулад) / (რუსული სერიალები ქართულად) (რუსების პორნო ონლაინში) (ruse..."
}
unshuffled_deduplicated_kk
- Size of downloaded dataset files: 389.12 MB
- Size of the generated dataset: 1.59 GB
- Total amount of disk used: 1.97 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Түлкібас ауданында «Латын негізді әліпби мен емле ережесі туралы насихат» жобасының тобы семинар өткізді\\nЕлорданың «Қазақстан»..."
}
unshuffled_deduplicated_km
- Size of downloaded dataset files: 114.48 MB
- Size of the generated dataset: 610.61 MB
- Total amount of disk used: 725.09 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ខ្សឹបដាក់ត្រចៀក៖ លោក សួស សុផានិត នាយផ្នែករដ្ឋបាលព្រៃឈើ ស្រុកភ្នំក្រវាញ់ ដែលទើបឡើងកាន់តំណែងថ្មី បើកដៃឲ្យឈ្នួញ ប្រព្រឹត្តបទល្មើស ..."
}
unshuffled_deduplicated_kn
- Size of downloaded dataset files: 215.52 MB
- Size of the generated dataset: 1.08 GB
- Total amount of disk used: 1.30 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ರಾಷ್ಟ್ರಪತಿ ಪ್ರಣಬ್ ಮುಖರ್ಜಿಯಿಂದ ಪದ್ಮ ಪ್ರಶಸ್ತಿ ಪ್ರದಾನ | President Pranab Mukherjee Confers Padma Awards | Photo Gallery on Kannada..."
}
unshuffled_deduplicated_ko
- Size of downloaded dataset files: 4.46 GB
- Size of the generated dataset: 12.00 GB
- Total amount of disk used: 16.47 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"CIA 프로젝트에서는 데이터베이스로 들어오는 요청을 중간에 수집(Sniffing)하고 수집한 데이터를 분석(Parsing)하여 그로 인한 결과를 판단하여 알릴 수 있는 시스템(Push Service)이 필요하다. 그리고 연구를 ..."
}
unshuffled_deduplicated_krc
- Size of downloaded dataset files: 0.62 MB
- Size of the generated dataset: 2.41 MB
- Total amount of disk used: 3.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Шамханланы, Бийлени къаршысына ябушуп, Батыр уланларыбызны къоллары булан «ортакъ ожакъ» къургъанбыз. Шо иш уллу зараллы иш бол..."
}
unshuffled_deduplicated_ku
- Size of downloaded dataset files: 23.34 MB
- Size of the generated dataset: 63.09 MB
- Total amount of disk used: 86.43 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Me di 114 bernameyên xwe yên berê da perçeyên ji berhemên zanyarî yên kurdzanên mezin bi wergera kurdî da ...\\nMe di 114 bernam..."
}
unshuffled_deduplicated_kv
- Size of downloaded dataset files: 0.33 MB
- Size of the generated dataset: 1.21 MB
- Total amount of disk used: 1.54 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Коми кытшыслӧн ыджытжык тор вӧр увтын куйлӧ, сійӧн и фаунасӧ татӧн аркмӧтӧны вӧрын олісь подаэз. Ассямаӧн лоӧ сія, мый кытшас с..."
}
unshuffled_deduplicated_kw
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼Pray without ceasing🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏..."
}
unshuffled_deduplicated_ky
- Size of downloaded dataset files: 106.22 MB
- Size of the generated dataset: 408.40 MB
- Total amount of disk used: 514.61 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Turmush: Бишкек шаардык кеңешинин кезексиз отурумунда мэрге ишенбөөчүлүк көрсөтүү маселеси каралат, - депутат Т.Сагынов\\nБишкек..."
}
unshuffled_deduplicated_la
- Size of downloaded dataset files: 3.42 MB
- Size of the generated dataset: 9.79 MB
- Total amount of disk used: 13.22 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Hæ sunt generationes Noë: Noë vir justus atque perfectus fuit in generationibus suis; cum Deo ambulavit.\\nEcce ego adducam aqua..."
}
unshuffled_deduplicated_lb
- Size of downloaded dataset files: 8.30 MB
- Size of the generated dataset: 21.42 MB
- Total amount of disk used: 29.72 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Während dem Gaardefestival \\\"Ambiance Jardins\\\" vum 15. bis de 17. Mee huet den SNJ nees zesumme mam Groupe Animateur en Inform..."
}
unshuffled_deduplicated_lez
- Size of downloaded dataset files: 0.77 MB
- Size of the generated dataset: 3.08 MB
- Total amount of disk used: 3.84 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Ахцегь хуьр, виридалай ч1ехи лезги хуьрерикая я. Ам Урусатдин виридалай къиблепатавай хуьрерикай я. Ин хуьр...\"..."
}
unshuffled_deduplicated_li
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.03 MB
- Total amount of disk used: 0.04 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"'t Good Goedenraad aan de Ezerbaek besjteit oet 'n kesjtièl mèt gesjlote haof en 'n park van 26 hectare. Hie in sjtoon väól beu..."
}
unshuffled_deduplicated_lmo
- Size of downloaded dataset files: 0.10 MB
- Size of the generated dataset: 0.46 MB
- Total amount of disk used: 0.57 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Serét (en tortonés: Sregh; en piemontés: Srèj) l'è 'n cümü italià, de la regiù del Piemónt, en Pruvìncia de Alessandria. El g'h..."
}
unshuffled_deduplicated_lo
- Size of downloaded dataset files: 23.63 MB
- Size of the generated dataset: 119.29 MB
- Total amount of disk used: 142.92 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"ຜູ້ພິພາກສາ ປະຈຳເຂດ ສຫລ ທ່ານນຶ່ງ ຕັດສິນວ່າ ໂຄງການເກັບກຳຂໍ້ມູນ ທາງໂທລະສັບ ຂອງອົງການ ຄວາມໝັ້ນຄົງແຫ່ງຊາດ ແມ່ນຖືກຕ້ອງ ຕາມກົດໝາຍ.\\nກະ..."
}
unshuffled_deduplicated_lrc
- Size of downloaded dataset files: 0.02 MB
- Size of the generated dataset: 0.06 MB
- Total amount of disk used: 0.08 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"آرلینگتون یئ گئل د شأریا ڤولاتچە ڤیرجینیا و یئ گئل د شأریا ڤولات ڤولاتچە یا یأکاگئرئتە ئمریکاە. ئی شأر دویومی کألوٙن شأر د راسا..."
}
unshuffled_deduplicated_lt
- Size of downloaded dataset files: 1.65 GB
- Size of the generated dataset: 4.20 GB
- Total amount of disk used: 5.86 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Čir vir vir pavasaris! Čia čia čia… dalinamės labai simpatiška video pamokėle, kurią pristato ab888art galerija.\\nBe galo papra..."
}
unshuffled_deduplicated_lv
- Size of downloaded dataset files: 710.45 MB
- Size of the generated dataset: 1.91 GB
- Total amount of disk used: 2.62 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Dekoratīvi sliekšņi MITSUBISHI OUTLANDER 2007, izgatavoti no ovālas formas, pulētas nerūsējošā tērauda caurules...\\ndažādas tūn..."
}
unshuffled_deduplicated_mai
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"१ · २ · ३ · ४ · ५ · ६ · ७ · ८ · ९ · १० · ११ · १२ · १३ · १४ · १५ · १६ · १७ · १८ · १९ · २० · २१ · २२ · २३ · २४ · २५ · २६ · २७ · २..."
}
unshuffled_deduplicated_mg
- Size of downloaded dataset files: 4.30 MB
- Size of the generated dataset: 13.59 MB
- Total amount of disk used: 17.89 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Nanamboatra taratasy apetaka sy soso-kevitra ho an'ny olona te-hanatevin-daharana ity fihetsiketsehana ity i Anocrena.\\nNosorat..."
}
unshuffled_deduplicated_mhr
- Size of downloaded dataset files: 1.63 MB
- Size of the generated dataset: 6.26 MB
- Total amount of disk used: 7.89 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Акрет жап годым Уганда кундемым Пигмей племена- влак айлен шогеныт. мемнан эран 1 курым гыч Банту племена влакат тиде кундемышк..."
}
unshuffled_deduplicated_min
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.31 MB
- Total amount of disk used: 0.33 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\" ..."
}
unshuffled_deduplicated_mk
- Size of downloaded dataset files: 303.12 MB
- Size of the generated dataset: 1.19 GB
- Total amount of disk used: 1.49 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"„Филм плус“ е насловен првиот филмски месечник во Македонија, чиј прв број ќе биде промовиран вечер во „Менада“. Новото македон..."
}
unshuffled_deduplicated_ml
- Size of downloaded dataset files: 496.80 MB
- Size of the generated dataset: 2.69 GB
- Total amount of disk used: 3.18 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"സ്ത്രീ പ്രവേശനം സര്ക്കാര് പൂര്ണമായും അംഗീകരിക്കുന്നുവെന്നും ശബരിമലയുടെ സുരക്ഷയില് ഇടപെടുമെന്നും സര്ക്കാര് ഹൈക്കോടതിയില്\\..."
}
unshuffled_deduplicated_mn
- Size of downloaded dataset files: 219.52 MB
- Size of the generated dataset: 883.46 MB
- Total amount of disk used: 1.10 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"МУБИС-ын багш мэргэжлийн хөрвөх сургалтыг төгссөн багшид багшлах эрх олгох тухай ~ БМДИ-ийн захирлын тушаал - Багшийн мэргэжил ..."
}
unshuffled_deduplicated_mr
- Size of downloaded dataset files: 299.68 MB
- Size of the generated dataset: 1.49 GB
- Total amount of disk used: 1.79 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Home / motivational marathi story / उद्योजकता (Entrepreneurship) / यांना हे जमलय, तर आपल्याला का नाही जमणार ?\\nयापैकी कोणाचीही ..."
}
unshuffled_deduplicated_mrj
- Size of downloaded dataset files: 0.29 MB
- Size of the generated dataset: 1.10 MB
- Total amount of disk used: 1.38 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Лӹпӹвлӓ (латинлӓ Lepidoptera ; алыкмарла лыве-влак) — капшангывлӓ йыхыш пырышы сӱмӓн нӹл шылдыран капшангывлӓ. Цилӓжӹ 180000 тӹ..."
}
unshuffled_deduplicated_ms
- Size of downloaded dataset files: 16.39 MB
- Size of the generated dataset: 49.45 MB
- Total amount of disk used: 65.85 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Sanad pertama daripada Zuhair bin Harb daripada ‘Affan daripada Hammad daripada Thabit daripada Anas.\\nSanad kedua daripada ‘Ab..."
}
unshuffled_deduplicated_mt
- Size of downloaded dataset files: 5.90 MB
- Size of the generated dataset: 17.68 MB
- Total amount of disk used: 23.58 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "tibgħat il-kawża lura lill-Qorti Ġenerali għall-annullament jew għat-tnaqqis tal-penalità imposta mill-Kummissjoni bid-deċiżjoni inizjali kif emendata bid-deċiżjoni ta’ rettifika;"
}
unshuffled_deduplicated_mwl
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Deciplina social i outónoma que angloba atebidades de ouserbaçon, de análeze, de çcriçon, cumparaçon, de sistematizaçon i de sp..."
}
unshuffled_deduplicated_my
- Size of downloaded dataset files: 207.14 MB
- Size of the generated dataset: 1.11 GB
- Total amount of disk used: 1.32 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ျမ၀တီ - ရန္ကုန္တိုင္းေဒသႀကီး ေျမာက္ဥကၠလာပႏွင္႕ ဗဟန္းၿမိဳ႔နယ္ မေကြးတိုင္း ေဒသႀကီး ပခုကၠဴၿမိဳ႔နယ္တို႔၌ ျမန္မာ႕တပ္မေတာ္အား ေထာက္ခံ..."
}
unshuffled_deduplicated_myv
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"2018 иень умарьковонь 6-це чистэ сась паро куля! Россиянь культурань Министерствась макссь невтемань конёв (прокатной удостовер..."
}
unshuffled_deduplicated_mzn
- Size of downloaded dataset files: 0.16 MB
- Size of the generated dataset: 0.63 MB
- Total amount of disk used: 0.79 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"قرآن یا قوران اسلام ِآسمونی کتاب هسته. مسلمونون گانّّه قرآن ره خدا، وحی جه برسنییه، «محمد معجزه» هسته و ثقلین حدیث دله ونه خَو..."
}
unshuffled_deduplicated_nah
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "In mācuīlpōhualxihuitl VI (inic chicuacē) in mācuīlpōhualli xiuhitl cāhuitl īhuīcpa 501 xihuitl oc 600 xihuitl."
}
unshuffled_deduplicated_nap
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ò AUDIT í Ç è î ÿ å å 30 ò ÿ ÿ é, õ ñ ì ÿ, ê ã- ò à ì. å â å í ç â à à é ñ è å é ó ó ë. å å å û è å î é è à. à è à AUDIT 1-7 â ..."
}
unshuffled_deduplicated_nds
- Size of downloaded dataset files: 5.27 MB
- Size of the generated dataset: 13.48 MB
- Total amount of disk used: 18.76 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Dor kann sik vun nu af an de hele plattdüütsche Welt – vun Niebüll bit New York, vun Helgoland bit Honolulu – drapen. Allens, w..."
}
unshuffled_deduplicated_ne
- Size of downloaded dataset files: 240.63 MB
- Size of the generated dataset: 1.24 GB
- Total amount of disk used: 1.48 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"बर्दिबास नगरपालिकाको तेस्रो नगर परिषदबाट पारित आ.व.२०७३।७४ को संशोधित र २०७४।७५ को प्रस्तावित नीति, कार्यक्रम तथा बजेट\\nअार्थिक..."
}
unshuffled_deduplicated_new
- Size of downloaded dataset files: 0.83 MB
- Size of the generated dataset: 4.26 MB
- Total amount of disk used: 5.09 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"थ्व शहरयागु अक्षांश ३४.७००१६४ उत्तर व देशान्तर ८६.३७६४६९ पश्चिम खः (34.700164° N 86.376469° W)। थ्व थासे ७२२६७३२ वर्ग मिटर (२.७..."
}
unshuffled_deduplicated_nl
- Size of downloaded dataset files: 15.73 GB
- Size of the generated dataset: 41.91 GB
- Total amount of disk used: 57.65 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Op vrijdag 31 augustus wordt het nieuwe studiejaar van de masteropleiding architectuur geopend met een dagexcursie naar Venlo.\\..."
}
unshuffled_deduplicated_nn
- Size of downloaded dataset files: 23.58 MB
- Size of the generated dataset: 58.32 MB
- Total amount of disk used: 81.90 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Planomtale krav til innhald Bakgrunn: Spørsmål frå fleire kommunar om kva ein planomtale/planbeskrivelse bør innehalde Fylkeskommunen og fylkesmannen har i ein del saker reist motsegn på formelt grunnlag"
}
unshuffled_deduplicated_no
- Size of downloaded dataset files: 1.96 GB
- Size of the generated dataset: 5.11 GB
- Total amount of disk used: 7.07 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Ytterligere aktører i primærhelsetjenesten og andre NHS-virksomheter ble infisert, inkludert legekontor.Læreren vår er så attra..."
}
unshuffled_deduplicated_oc
- Size of downloaded dataset files: 1.34 MB
- Size of the generated dataset: 4.00 MB
- Total amount of disk used: 5.34 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": ".рф (rf, còdi punycode: .xn--p1ai)[1] es lo nom de domeni en rus per Russia. Foguèt activat lo 12 de mai de 2010. Lo còdi latin es .ru."
}
unshuffled_deduplicated_or
- Size of downloaded dataset files: 38.72 MB
- Size of the generated dataset: 197.63 MB
- Total amount of disk used: 236.36 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ଭୁବନେଶ୍ୱର, ୨୭/୧– (ଓଡ଼ିଆ ପୁଅ) ସିପିଆଇ ଜାତୀୟ ପରିଷଦର ଆହ୍ୱାନକ୍ରମେ ଗତକାଲି ଜାନୁୟାରୀ ୨୬ ସାଧାରଣତନ୍ତ୍ର ଦିବସକୁ ଦେଶ ବ୍ୟାପୀ ସମ୍ବିଧାନ ସୁରକ୍ଷା ..."
}
unshuffled_deduplicated_os
- Size of downloaded dataset files: 2.83 MB
- Size of the generated dataset: 11.00 MB
- Total amount of disk used: 13.83 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"1. Лæппу æмæ чызг казрæдзийы зæрдæмæ куы фæцæуынц æмæ, куы сфæнд кæнынц сæ цард баиу кæнын, уæд лæппу бар ракуры чызгæй, цæмæй ..."
}
unshuffled_deduplicated_pa
- Size of downloaded dataset files: 102.39 MB
- Size of the generated dataset: 483.04 MB
- Total amount of disk used: 585.42 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ਰਜਿ: ਨੰ: PB/JL-138/2018-20 ਜਿਲਦ 63, ਬਾਨੀ ਸੰਪਾਦਕ (ਸਵ:) ਡਾ: ਸਾਧੂ ਸਿੰਘ ਹਮਦਰਦ ਫ਼ੋਨ : 0181-2455961-62-63, 5032400, ਫੈਕਸ : 2455960, 2..."
}
unshuffled_deduplicated_pam
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Áku pu i Anak ning Aláya at ngeni ipákit kó kékayu ngan nûng makanánu lang susúlat détinang kulit a mágkas. Lauan ya ing tarátu..."
}
unshuffled_deduplicated_pl
- Size of downloaded dataset files: 20.19 GB
- Size of the generated dataset: 50.59 GB
- Total amount of disk used: 70.78 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"System informatyczny - Załącznik nr 1 do zarządzenia Wójta Gminy Podegrodzie Nr 530/2013 z dnia 27 maja 2013 r\\nSystem informat..."
}
unshuffled_deduplicated_pms
- Size of downloaded dataset files: 0.71 MB
- Size of the generated dataset: 2.00 MB
- Total amount of disk used: 2.72 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Louvigné-du-Désert a l'é na comun-a fransèisa ant la region aministrativa dla Brëtagna, ant ël dipartiment d'Ille-et-Vilaine. A..."
}
unshuffled_deduplicated_pnb
- Size of downloaded dataset files: 2.58 MB
- Size of the generated dataset: 9.44 MB
- Total amount of disk used: 12.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"ایہ فائل Wikimedia Commons توں اے تے دوجیاں ویونتاں تے وی ورتی جاےکدی اے۔ گل بات اس دے فائل گل بات صفہ تے تھلے دتی گئی۔\"..."
}
unshuffled_deduplicated_ps
- Size of downloaded dataset files: 71.83 MB
- Size of the generated dataset: 254.79 MB
- Total amount of disk used: 326.61 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Many people usually use the time period ‘business to business (B2B) advertising,’ however most of them do not know precisely wh..."
}
unshuffled_deduplicated_pt
- Size of downloaded dataset files: 26.00 GB
- Size of the generated dataset: 68.37 GB
- Total amount of disk used: 94.37 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Você pode estar lendo este texto no sofá, levantar pra pegar uma breja na geladeira, dar uma cagada e sentar novamente, sem int..."
}
unshuffled_deduplicated_qu
- Size of downloaded dataset files: 0.02 MB
- Size of the generated dataset: 0.07 MB
- Total amount of disk used: 0.09 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Warayu wichay (kastilla simipi: Ascensión de Guarayos) nisqaqa Buliwya mama llaqtapi, Santa Krus suyupi, huk llaqtam, Warayu pruwinsyap uma llaqtanmi."
}
unshuffled_deduplicated_rm
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"practicists agrars / practicistas agraras AFP pon far ina furmaziun da basa scursanida per cuntanscher in attestat federal da q..."
}
unshuffled_deduplicated_ro
- Size of downloaded dataset files: 4.48 GB
- Size of the generated dataset: 11.66 GB
- Total amount of disk used: 16.14 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"“În viață, oportunitatea nu este totul. Cine atrage Lumina, cineva bun în umbră. Timpul ne creează.” maestru\\nLyn.Evans: Ce mar..."
}
unshuffled_deduplicated_ru
- Size of downloaded dataset files: 166.68 GB
- Size of the generated dataset: 611.70 GB
- Total amount of disk used: 778.38 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Доступ к данному профилю для публичного просмотра закрыт администрацией сайта - профиль находится на модерации.\\nРазработчикам ..."
}
unshuffled_deduplicated_sa
- Size of downloaded dataset files: 7.27 MB
- Size of the generated dataset: 38.33 MB
- Total amount of disk used: 45.60 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"अनिरुद्धनगरे क्रीडिता रामलीला सम्प्रति समाप्ता अस्ति । तस्य कानिचन् चित्राणि पूर्वमेव प्रकाशितानि सन्ति । द्वौ चलचित्रौ अपि ..."
}
unshuffled_deduplicated_sah
- Size of downloaded dataset files: 7.01 MB
- Size of the generated dataset: 27.46 MB
- Total amount of disk used: 34.49 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████..."
}
unshuffled_deduplicated_scn
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "La gilusìa è nu sintimentu dulurusu ca nasci d'un disideriu di pussessu sclusivu ntê cunfrunti dâ pirsuna amata e dû timuri, dû suspettu o dâ cirtizza dâ sò nfidiltati."
}
unshuffled_deduplicated_sd
- Size of downloaded dataset files: 74.17 MB
- Size of the generated dataset: 275.48 MB
- Total amount of disk used: 349.66 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"هر ڪو ڄاڻي ٿو ته جڏهن توهان هڪ وڏي خريد ڪرڻ چاهيون ٿا, توهان پڄي ضروري حڪم ۾ ان جي ڪم ڪرڻ جي هٿ ۾ لاڳاپو ڪيو آهي. جي شيء آهي ته..."
}
unshuffled_deduplicated_sh
- Size of downloaded dataset files: 1.45 MB
- Size of the generated dataset: 6.44 MB
- Total amount of disk used: 7.87 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Opština Gornja Radgona se nalazi u sjeveroistočnoj Sloveniji i graniči s susjednom Austriji duž rijeke Mure. Sa tridesetim nase..."
}
unshuffled_deduplicated_si
- Size of downloaded dataset files: 175.62 MB
- Size of the generated dataset: 842.57 MB
- Total amount of disk used: 1.02 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"ලාංකීය සිතිවිලි සිංහල බ්ලොග් කියවනය කොත්තු සින්ඩිය ලංකා Blogger හත්මාළුව ලංකා බ්ලොග් කියවනය මාතලන්ගේ සින්ඩිය මොබයිල්lk\\nඅවකාශය ..."
}
unshuffled_deduplicated_sk
- Size of downloaded dataset files: 1.96 GB
- Size of the generated dataset: 4.80 GB
- Total amount of disk used: 6.76 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Aktivity | Agentúra podporovaného zamestnávania | vzdelávanie pre klientov, vzdelávanie pre odborníkov, kurzy\\nŠpecializované k..."
}
unshuffled_deduplicated_sl
- Size of downloaded dataset files: 523.22 MB
- Size of the generated dataset: 1.32 GB
- Total amount of disk used: 1.85 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Če Creatures, ki je želel, da pridejo na čas, predvsem je povedlo – razlikuje od ljubosumja začel grizenja kolen (ali zadnjica)..."
}
unshuffled_deduplicated_so
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"тттттттттттттттттттттттттттттттт тттттттттттттттттттттттттттттттт тттттттттттттттттттттттттттттттт ттттттттттттттттуууууууууууу..."
}
unshuffled_deduplicated_sq
- Size of downloaded dataset files: 445.36 MB
- Size of the generated dataset: 1.21 GB
- Total amount of disk used: 1.66 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Çfarë do të më pëlqente tek një femër ose çfarë do të më shndërronte në një shpërthim drite? – Albert Vataj\\nTë gjithëve një zo..."
}
unshuffled_deduplicated_sr
- Size of downloaded dataset files: 665.03 MB
- Size of the generated dataset: 2.36 GB
- Total amount of disk used: 3.03 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Корисни савети за сваки дан. На сајту су разне категорије, као што су љепота, мода, кување и поправка властитим рукама.\\nШколск..."
}
unshuffled_deduplicated_su
- Size of downloaded dataset files: 0.05 MB
- Size of the generated dataset: 0.16 MB
- Total amount of disk used: 0.21 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Kartu krédit nyaéta \"duit plastik\" anu dikaluarkeun ku bank pikeun alat pambayaran di tempat-tempat nu tangtu samisal jiga di hotél, réstoran, tempat rékréasi jeung sajabana.[1]"
}
unshuffled_deduplicated_sv
- Size of downloaded dataset files: 10.19 GB
- Size of the generated dataset: 26.33 GB
- Total amount of disk used: 36.51 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"1783 är ett viktigt årtal i den nya tidens historia. Det året slöts en fred i Paris och därmed blev de 13 brittiska kolonierna ..."
}
unshuffled_deduplicated_sw
- Size of downloaded dataset files: 2.95 MB
- Size of the generated dataset: 8.98 MB
- Total amount of disk used: 11.92 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Miripuko hiyo inakuja mwanzoni mwa Wiki Takatifu kuelekea Pasaka na ikiwa ni wiki chache tu kabla ya Papa Francis kuanza ziara yake katika nchi hiyo yenye idadi kubwa kabisa ya watu katika ulimwengu wa nchi za Kiarabu."
}
unshuffled_deduplicated_ta
- Size of downloaded dataset files: 971.12 MB
- Size of the generated dataset: 5.48 GB
- Total amount of disk used: 6.45 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"பொழுது சாய்ந்து வெகு நேரமாகிவிட்டது. கூலி வேலைக்குப் போயிருந்த 'சித்தாள் ' பெண்கள் எல்லோரும் வீடு திரும்பி விட்டார்கள். இன்னும்..."
}
unshuffled_deduplicated_te
- Size of downloaded dataset files: 342.43 MB
- Size of the generated dataset: 1.70 GB
- Total amount of disk used: 2.04 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"హర్యానాలో టోల్ దగ్గర సిబ్బంది.. స్థానిక ప్రజలు కొట్టుకున్నారు. కర్నాల్ అనే గ్రామానికి సమీపంలో టోల్ గేట్ ఉంది. అయితే సాధారణంగా స..."
}
unshuffled_deduplicated_tg
- Size of downloaded dataset files: 62.90 MB
- Size of the generated dataset: 261.68 MB
- Total amount of disk used: 324.60 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Ҳумайро гуфтааст, мухолифи низом аст, низоме, ки дар Тоҷикистон вуҷуд дорад. Ба ин маънӣ, худро мухолифи давлату ҳукумати Тоҷик..."
}
unshuffled_deduplicated_th
- Size of downloaded dataset files: 3.54 GB
- Size of the generated dataset: 17.11 GB
- Total amount of disk used: 20.65 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ฟันที่แลดูขาวสะอาดไม่มีเศษอาหารติดอยู่ เหงือกสีชมพู ไม่เจ็บ หรือมีเลือดออกเวลาแปรงฟันหรือขัดฟัน ไม่มีปัญหาเรื่องกลิ่นปาก ทำให้ก..."
}
unshuffled_deduplicated_tk
- Size of downloaded dataset files: 2.22 MB
- Size of the generated dataset: 7.12 MB
- Total amount of disk used: 9.34 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Türkmenistanyň Prezidenti agyr atletika boýunça dünýä çempionatyna taýýarlyk işleriniň barşy bilen tanyşdy\\nHalallykdan kemal t..."
}
unshuffled_deduplicated_tl
- Size of downloaded dataset files: 151.34 MB
- Size of the generated dataset: 431.69 MB
- Total amount of disk used: 583.04 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"“Gusto ko manawagan sa mga Unit Head ng Chanel 2 Salve. Kasi napapansin ko iyon mga alaga ko ang taping halos once a week lang,..."
}
unshuffled_deduplicated_tr
- Size of downloaded dataset files: 10.39 GB
- Size of the generated dataset: 28.47 GB
- Total amount of disk used: 38.86 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Son yıllarda görülen ay tutulmalarına göre daha etkili olacağı söylenen Kanlı veya Kırmızı Ay Tutulmasına saatler kaldı. Bu akş..."
}
unshuffled_deduplicated_tt
- Size of downloaded dataset files: 85.89 MB
- Size of the generated dataset: 321.37 MB
- Total amount of disk used: 407.26 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"\\\"Иремнең вафатына 40 көн узгач, Алмаз да безнең өйгә кереп үлде\\\". Арчада 35 яшьлек ир өстенә кондызлар ега башлаган агач төшк..."
}
unshuffled_deduplicated_tyv
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Экии, хүндүлуг аалчылар болгаш тыва дылдың деткикчилери! Тыва дылдың болгаш чогаалдың ховар бир башкызынга, Менги Ооржакка, ажы..."
}
unshuffled_deduplicated_ug
- Size of downloaded dataset files: 20.53 MB
- Size of the generated dataset: 86.44 MB
- Total amount of disk used: 106.97 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"زاڭ-ءتۇزىم | عىلىم-تەحنيكا | ءتىل-ادەبيەت | تۇرمىس | دەنە تاربيە | ساياحات-ورتا | سۋرەتتى حابار | سىر سۇحبات | ارناۋلى تاقىرىپ ..."
}
unshuffled_deduplicated_uk
- Size of downloaded dataset files: 8.04 GB
- Size of the generated dataset: 29.86 GB
- Total amount of disk used: 37.90 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Про надання роз'яснення (щодо форми письмового зобов'язання громадян про зворотне ввезення/вивезення товарів), Державна митна с..."
}
unshuffled_deduplicated_ur
- Size of downloaded dataset files: 483.59 MB
- Size of the generated dataset: 1.82 GB
- Total amount of disk used: 2.31 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"آئیے اہم اسلامی کتب کو یونیکوڈ میں انٹرنیٹ پر پیش کرنے کے لئے مل جل کر آن لائن ٹائپنگ کریں۔ محدث ٹائپنگ پراجیکٹ کے ذریعے آپ روز..."
}
unshuffled_deduplicated_uz
- Size of downloaded dataset files: 4.30 MB
- Size of the generated dataset: 12.00 MB
- Total amount of disk used: 16.29 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Qurama tog'lari tizmasining Toshkentdan 154 km uzoqlikdagi Toshkent-Ush yo'li yeqasidaxushmanzara tabiat qo'ynida joylashgan maydoni 30 ga.\nBolalarni sog'lomlashtirish oromgohi Bo'stonliq tumani Oqtosh muntaqasining soy-salqin gushasida joylashgan."
}
unshuffled_deduplicated_vec
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Par ogni pónto, ła derivada ła xe ła pendensa de ła reta tangente a ła curva de ła funsion f. Ła reta de cołor róso l'è senpre ..."
}
unshuffled_deduplicated_vi
- Size of downloaded dataset files: 10.71 GB
- Size of the generated dataset: 33.60 GB
- Total amount of disk used: 44.31 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Canh chua cá bông lau không chỉ là món ăn giải nhiệt, thanh mát ngày hè mà còn là món siêu bổ dưỡng, rất tốt cho người gầy ốm. ..."
}
unshuffled_deduplicated_vo
- Size of downloaded dataset files: 0.30 MB
- Size of the generated dataset: 2.10 MB
- Total amount of disk used: 2.40 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Sarniguet binon zif in ziläk: Hautes-Pyrénées, in topäd: Midi-Pyrénées, in Fransän. Sarniguet topon videtü 43°19’ 7’’ N e lunetü 0°5’ 19’’ L."
}
unshuffled_deduplicated_wa
- Size of downloaded dataset files: 0.08 MB
- Size of the generated dataset: 0.22 MB
- Total amount of disk used: 0.29 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Cisse pådje ci n' est co k' on djermon, dj' ô bén k' el pådje est djusse sibåtcheye, eyet co trop tene; et s' divreut ele ecråxhî ene miete."
}
unshuffled_deduplicated_war
- Size of downloaded dataset files: 0.55 MB
- Size of the generated dataset: 2.36 MB
- Total amount of disk used: 2.90 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "An Honce amo in usa ka baryo ngan munisipalidad ha distrito han Rožňava ha rehiyon han Košice ha nasod han Slovakia.\nAn Rumegies amo in usa ka komyun ha departamento han Nord ngan ha rehiyon han Nord-Pas-de-Calais ha nasod han Fransya."
}
unshuffled_deduplicated_wuu
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.03 MB
- Total amount of disk used: 0.04 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"伊春元旦天气 伊春腊八天气 伊春春节天气 伊春情人节天气 伊春元宵节天气 伊春愚人节天气 伊春清明节天气 伊春劳动节天气 伊春母亲节天气 伊春端午节天气 伊春七夕节天气 伊春教师节天气 伊春中秋节天气 伊春国庆节天气 伊春重阳节天气 伊春万圣节天气 伊春..."
}
unshuffled_deduplicated_xal
- Size of downloaded dataset files: 0.03 MB
- Size of the generated dataset: 0.12 MB
- Total amount of disk used: 0.15 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Арнгудин Орн гисн Европд бәәдг һазр. 2007 җилин тooһaр эн орн нутгт 3,600,523 әмтн бәәдг билә. Арнгудин Орнин хотл балһсна нерн..."
}
unshuffled_deduplicated_xmf
- Size of downloaded dataset files: 0.94 MB
- Size of the generated dataset: 4.63 MB
- Total amount of disk used: 5.58 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"მოჩამილი ტექსტი წჷმორინელი რე Creative Commons Attribution-ShareAlike ლიცენზიათ; შილებე გეძინელი პირობეფიშ არსებუა. კილიშკილიშა..."
}
unshuffled_deduplicated_yi
- Size of downloaded dataset files: 22.20 MB
- Size of the generated dataset: 88.29 MB
- Total amount of disk used: 110.49 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ממשותדיק - חבֿרה, איך אַרבעט איצט אױף אַ זשורנאַל. טאָמער איר האָט עפּעס צוצוגעבן זאָלט איר שיקן מיר אַן אָנזאָג. ס'װעט הײסן \\\"..."
}
unshuffled_deduplicated_yo
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.03 MB
- Total amount of disk used: 0.04 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Copyright © 2018 BBC. BBC kò mọ̀ nípa àwọn ohun tí ó wà ní àwọn ojú òpó tí ó wà ní ìta. Ọwọ́ tí a fi mú ìbáṣepọ̀ ti ìta.\"..."
}
unshuffled_deduplicated_yue
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 你還不爆 我累了 投降輸一半可以嗎\"..."
}
unshuffled_deduplicated_zh
- Size of downloaded dataset files: 99.98 GB
- Size of the generated dataset: 267.88 GB
- Total amount of disk used: 367.86 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"中国铝灰网 中国有色金属矿产网 中国黄莲网 中国水轮发电机网 中国抽油泵网 中国数控雕刻机网 中国不锈钢抛光网 中国磨具加工网 中国压铸铝网 中国耐水腻子网 中国手机摄像头网 中国粗粮网 中国车门锁网 中国钛粉网 中国轮圈网\\n天天中奖彩票图 天天中彩票..."
}
Click to expand the Data/size information for each language (original)
unshuffled_original_af
- Size of downloaded dataset files: 85.79 MB
- Size of the generated dataset: 254.08 MB
- Total amount of disk used: 339.87 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "aanlyn markte as gevolg van ons voortgesette 'n begrip opsie handel sakeplan pdf terwyl ons steeds die gereelde ons binêre opsies handel"
}
unshuffled_original_als
- Size of downloaded dataset files: 1.49 MB
- Size of the generated dataset: 5.30 MB
- Total amount of disk used: 6.78 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"De Nazionalpark hät e Flächi vo 170,3 km² und isch dodemit s grösti Naturschutzgebiet vo de Schwiz. Er ligt uf em Gebiet vo de ..."
}
unshuffled_original_am
- Size of downloaded dataset files: 102.79 MB
- Size of the generated dataset: 378.06 MB
- Total amount of disk used: 480.85 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"አየር መንገዱ ከአዲስ አበባ ወደ ሮም ጣሊያን በማምራት ላይ በነበረበት ጊዜ ረዳት አብራሪው የጉዞውን አቅጣጫ በመቀየር ጄኔቭ አውሮፓላን ማረፊያ በማሳረፍ እጁን ለፖሊስ ሰጥቷል።\\nየኢትዮጵያ መንግስት የ..."
}
unshuffled_original_an
- Size of downloaded dataset files: 0.15 MB
- Size of the generated dataset: 1.33 MB
- Total amount of disk used: 1.48 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"واااااااأسفاه الأمم تفتخر ب 0 أمي ووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووو..."
}
unshuffled_original_ar
- Size of downloaded dataset files: 22.23 GB
- Size of the generated dataset: 87.94 GB
- Total amount of disk used: 110.17 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"مرحبا بك عزيز الزائر نتمنى لك أوقاتاً سعيدة معنا وأن نزداد شرفا بخدمتك ولا تنسى التسجيل معنا لتستفيد بكل جديد\\nأهلا وسهلا بك زا..."
}
unshuffled_original_arz
- Size of downloaded dataset files: 15.90 MB
- Size of the generated dataset: 70.13 MB
- Total amount of disk used: 86.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"بنى عجل : قبيلة من عجل بن لجيم بن صعب بن على بن بكر بن وائل انتقل اغلبهم الى البصرة فى العراق و اصفهان و خراسان فى ايران و اذرب..."
}
unshuffled_original_as
- Size of downloaded dataset files: 21.43 MB
- Size of the generated dataset: 117.73 MB
- Total amount of disk used: 139.17 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"আমি, এই সংগঠনৰ সদস্য সকলে একেলগ হৈ অসমকে ধৰি ভাৰতৰ উত্তৰ পূৰ্বাঞ্চলৰ অমূল্য কলা-সাংস্কৃতিক সম্পদৰাজি বৃহত্তৰ অষ্ট্ৰেলিয়াৰ সন্মু..."
}
unshuffled_original_ast
- Size of downloaded dataset files: 0.92 MB
- Size of the generated dataset: 2.54 MB
- Total amount of disk used: 3.46 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"The Killers llanzaron el so álbum debú, Hot Fuss, en xunu de 2004 nel Reinu Xuníu, al traviés de la discográfica Lizard King, y..."
}
unshuffled_original_av
- Size of downloaded dataset files: 0.08 MB
- Size of the generated dataset: 0.42 MB
- Total amount of disk used: 0.50 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Жинда малъараб ва божизе бегьулеб рагІудаса кьуризе бегьуларо гьев. Гьес насихІат гьабизе кколелъул бацІцІадаб диналъул рахъалъ..."
}
unshuffled_original_az
- Size of downloaded dataset files: 927.76 MB
- Size of the generated dataset: 2.96 GB
- Total amount of disk used: 3.89 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"AZTV-Artıq 7 ildir ki, Abşeron rayonu dotasiya almadan bütün xərclərini yerli daxilolmalar hesabına maliyyələşdirir.\\nDünən, 10..."
}
unshuffled_original_azb
- Size of downloaded dataset files: 6.64 MB
- Size of the generated dataset: 28.47 MB
- Total amount of disk used: 35.11 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"لعلی ١٣-جو عصرده یاشاییب یاراتمیش گؤرکملی آذربایجان شاعرلریندندیر. ١٢٢٤-جی ایلده تبریزده آنادان اولموشدور، گنج یاشلاریندا تیجار..."
}
unshuffled_original_ba
- Size of downloaded dataset files: 33.22 MB
- Size of the generated dataset: 133.70 MB
- Total amount of disk used: 166.92 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Күҙәтеү ҡуласаһы моделен хәҙер Мифтахетдин Аҡмулла исемендәге Башҡорт дәүләт педагогия университетында ла эшләргә мөмкин\\t\\nКүҙ..."
}
unshuffled_original_bar
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": " vo"
}
unshuffled_original_bcl
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"& ÿ ó / í 0 - ø û ù ö ú ð ï ú \\u0014 ù þ ô ö í ÷ ò \\u0014 ÷ í ù û ö í \\u0001 û ñ ç þ \\u0001 ð \\u0007 þ ò ñ ñ ò ô \\u0017 û ö ô ÷..."
}
unshuffled_original_be
- Size of downloaded dataset files: 498.29 MB
- Size of the generated dataset: 1.88 GB
- Total amount of disk used: 2.38 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Брэсцкія ўлады не дазволілі прафсаюзу РЭП правесці пікетаванне ў парку Воінаў-інтэрнацыяналістаў 30 мая 2018 года.\\nСітуацыю пр..."
}
unshuffled_original_bg
- Size of downloaded dataset files: 8.34 GB
- Size of the generated dataset: 33.75 GB
- Total amount of disk used: 42.09 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ЖАЛБОПОДАТЕЛЯТ директор на Дирекция „ Обжалване и данъчно-осигурителна практика“- Бургас, редовно призован, се представлява от ..."
}
unshuffled_original_bh
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.12 MB
- Total amount of disk used: 0.13 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"सुकमा जिला भारत के छत्तीसगढ़ राज्य में एगो जिला बाटे। एकर मुख्यालय सुकमा शहर बाटे। एकर कुल रकबा 5636 वर्ग कि॰मी॰ बाटे।\"..."
}
unshuffled_original_bn
- Size of downloaded dataset files: 2.14 GB
- Size of the generated dataset: 10.77 GB
- Total amount of disk used: 12.91 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ভড়ং সর্বস্ব বাংলা আর্ট অ্যান্ড কালচারের হিসাব গুলিয়ে দেওয়ার ম্যাজিকের নাম ব্রাত্য রাইসু November 23, 2017\\nভড়ং সর্বস্ব বাংলা আর..."
}
unshuffled_original_bo
- Size of downloaded dataset files: 28.94 MB
- Size of the generated dataset: 195.40 MB
- Total amount of disk used: 224.34 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"བོད་མི་འདི་དག་ནི་རང་རྒྱུད་སྒོ་རུ་ཕུད་དེ་གཞན་རྒྱུད་པང་དུ་ཉར་ནས་གསོ་སྐྱོང་བྱེད་དགོས་ཟེར་བ་དང་གཅིག་མཚུངས་རེད།\\nཚན་རིག་ནི་དང་ཐོག་རང..."
}
unshuffled_original_bpy
- Size of downloaded dataset files: 0.34 MB
- Size of the generated dataset: 4.35 MB
- Total amount of disk used: 4.69 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"পৌরসভা এহার আয়তন (লয়াহান) ২,৭৩০,.৬৩ বর্গ কিলোমিটার। পৌরসভা এহার মাপাহানর অক্ষাংশ বারো দ্রাঘিমাংশ ইলতাই 18.63° S 48.18° W ।[১]..."
}
unshuffled_original_br
- Size of downloaded dataset files: 9.18 MB
- Size of the generated dataset: 30.20 MB
- Total amount of disk used: 39.38 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Ar mank Magalhães(Daveoù a vank) a zo ur spesad evned, Spheniscus magellanicus an anv skiantel anezhañ.\\nGallout a reer implijo..."
}
unshuffled_original_bs
- Size of downloaded dataset files: 0.05 MB
- Size of the generated dataset: 0.48 MB
- Total amount of disk used: 0.53 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ž šř é ú šř šř ě šř ž é č ě ž ů ě ď éé ýš ě ě Ž č š ý ě ď é ýš ě ď ě éé ýš ě č ž ě š ý ď ě ýš é ú č ž č š ý ď ý ž é éě ď é č ýš..."
}
unshuffled_original_bxr
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"2002 оной хабар буряад хэлэ бэшэгэй һалбари Үндэһэтэнэй хүмүүнлиг ухаанай дээдэ һургуули болгогдожо өөршэлэгдөө.\\nХарин мүнөө б..."
}
unshuffled_original_ca
- Size of downloaded dataset files: 3.10 GB
- Size of the generated dataset: 8.62 GB
- Total amount of disk used: 11.73 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Daniel Vendrell, conegut com Vandrell, ha sigut un dels il•lustradors contemporanis més influents, representant a la nova onada..."
}
unshuffled_original_cbk
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano yo gano..."
}
unshuffled_original_ce
- Size of downloaded dataset files: 2.09 MB
- Size of the generated dataset: 8.73 MB
- Total amount of disk used: 10.82 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Шаьш анархисташ ду бохучу жигархойн дIахьедарехь дуьйцу, оьрсийн ницкъаллийн структурийн а, федералан каналан а Iалашонаш \\\"мар..."
}
unshuffled_original_ceb
- Size of downloaded dataset files: 11.07 MB
- Size of the generated dataset: 40.97 MB
- Total amount of disk used: 52.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Si Isko walay pupamilok nga nagtan-aw sa unahan, natugaw. “Naunsa ka gud diha Isko nga layo man kaayo ang imong panan-aw?” ni I..."
}
unshuffled_original_ckb
- Size of downloaded dataset files: 111.88 MB
- Size of the generated dataset: 510.97 MB
- Total amount of disk used: 622.85 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"رسی رۆژ - ساڵێک دوای بومەلەرزەی کرماشان میوانی بەرنامە : کاک سیاوەش حەیاتی چالاکی مەدەنی -قەسری شیرین\\nپارچە موزیک 30 / 10 / 20..."
}
unshuffled_original_cs
- Size of downloaded dataset files: 21.72 GB
- Size of the generated dataset: 57.08 GB
- Total amount of disk used: 78.80 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Akce anarchistů proti připravovanému novému služební řádu a nízkým mzdám 1903 – Historie českého anarchismu (1880 – 1939)\\nRost..."
}
unshuffled_original_cv
- Size of downloaded dataset files: 9.40 MB
- Size of the generated dataset: 41.05 MB
- Total amount of disk used: 50.45 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Шыранӑ чухне ӑнсӑртран латин кирилл саспаллисем вырӑнне латин саспаллисене ҫырсан, сайт эсир ҫырнине юсама тӑрӑшӗ.\\nКу сайтра ч..."
}
unshuffled_original_cy
- Size of downloaded dataset files: 81.74 MB
- Size of the generated dataset: 224.93 MB
- Total amount of disk used: 306.67 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Mae capeli Cymreig yr Andes ym Mhatagonia wedi cyhoeddi na fydd gwasanaethau yno weddill y mis, oherwydd yr eira trwm sydd wedi..."
}
unshuffled_original_da
- Size of downloaded dataset files: 6.00 GB
- Size of the generated dataset: 16.76 GB
- Total amount of disk used: 22.76 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Den 2.-5. februar 2016 løb det tredje kursus i uddannelsen af 4kommunesamarbejdets Local Impact Coaches, af stablen i Gentofte ..."
}
unshuffled_original_de
- Size of downloaded dataset files: 119.51 GB
- Size of the generated dataset: 331.22 GB
- Total amount of disk used: 450.73 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Auf dieser Seite gibt es mind. ein YouTube Video. Cookies für diese Website wurden abgelehnt. Dadurch können keine YouTube Vide..."
}
unshuffled_original_diq
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Zıwanê Slawki, zıwano merdumanê Slawano. Zıwanê Slawki yew lızgeyê Zıwananê Hind u Ewropao. Keyeyê Zıwananê Slawki beno hirê letey:"
}
unshuffled_original_dsb
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Pśiklaskaju južo pśed pśedstajenim... 1500 źiśi njamóžo wěcej docakaś, měsćańska hala w Chóśebuzu - wupśedana."
}
unshuffled_original_dv
- Size of downloaded dataset files: 24.91 MB
- Size of the generated dataset: 131.63 MB
- Total amount of disk used: 156.54 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ބ. އަތޮޅުގައި ހުޅުވަން ތައްޔާރުވަމުން އަންނަ ވައްކަރު ރިސޯޓުގައި ވަޒީފާ އަދާކުރަން ޝައުގުވެރިވާ ފަރާތްތަކަށް ކުރިމަތިލުމުގެ ފުރ..."
}
unshuffled_original_el
- Size of downloaded dataset files: 17.31 GB
- Size of the generated dataset: 66.27 GB
- Total amount of disk used: 83.58 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Νεκρός εντοπίστηκε μέσα στο σπίτι του στην οδό Ηρώδου Αττικού στον αριθμό 7 ο επικεφαλής του προξενικού τμήματος της Ρωσικής πρ..."
}
unshuffled_original_eml
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"A séguit dal prucès ad rubutiśasiòṅ di abitànt dal pòpul ad Mikenes, Angoras 'l è finî dènt'r a 'n robot cun la tèsta dna rana ..."
}
unshuffled_original_en
- Size of downloaded dataset files: 903.83 GB
- Size of the generated dataset: 2525.44 GB
- Total amount of disk used: 3429.27 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Mtendere Village was inspired by the vision of Chief Napoleon Dzombe, which he shared with John Blanchard during his first visi..."
}
unshuffled_original_eo
- Size of downloaded dataset files: 117.07 MB
- Size of the generated dataset: 314.18 MB
- Total amount of disk used: 431.27 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Ĉu ... preĝi | mediti | ricevi instigojn || kanti | muziki || informiĝi | legi | studi || prepari Diservon\\nTemas pri kolekto d..."
}
unshuffled_original_es
- Size of downloaded dataset files: 106.04 GB
- Size of the generated dataset: 298.49 GB
- Total amount of disk used: 404.53 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Como se librará de la celulitis en el gimnasio La piel superflua en las manos después del adelgazamiento, Los bailes fáciles pa..."
}
unshuffled_original_et
- Size of downloaded dataset files: 1.88 GB
- Size of the generated dataset: 5.17 GB
- Total amount of disk used: 7.06 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"MTÜ AB Video järgib oma tegevuses kodanikuühenduste eetilise tegevuse üldtunnustatud põhimõtteid, mis on lühidalt kokkuvõetud 7..."
}
unshuffled_original_eu
- Size of downloaded dataset files: 248.19 MB
- Size of the generated dataset: 894.83 MB
- Total amount of disk used: 1.14 GB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Gure jarduerek eraikuntzarekin, elkarbizitzarekin, hirigintzarekin eta ekologiarekin dute harremana, baita ideia eta konponbideak irudikatu eta garatzearekin ere, eraikuntza sektorea hobetuz, pertsonen erosotasuna eta bizi-kalitatea hobetzeko."
}
unshuffled_original_fa
- Size of downloaded dataset files: 20.96 GB
- Size of the generated dataset: 84.21 GB
- Total amount of disk used: 105.17 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"قـــــــــــــــــرار بود با هم کنـــــــــــــار بیایم نه اینکه از کنــــــــــــار هم رد بشیم...!!!\\nاگر روزی دلت لبریز غم بو..."
}
unshuffled_original_fi
- Size of downloaded dataset files: 9.97 GB
- Size of the generated dataset: 28.57 GB
- Total amount of disk used: 38.54 GB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Kiitos Deelle kaikesta - 1,5 viikkoa kulunut, kun Dee ei ole enää ollut omani. Reilu viikko sitten sunnuntaina vein Deen uuteen kotiinsa. Itselläni on ollut niin ristiriitaiset t..."
}
unshuffled_original_fr
- Size of downloaded dataset files: 105.32 GB
- Size of the generated dataset: 303.19 GB
- Total amount of disk used: 408.51 GB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Média de débat d'idées, de culture et de littérature. Récits, décryptages, analyses, portraits et critiques autour de la vie des idées. Magazine engagé, ouvert aux autres et au monde.. Bring up to date in french"
}
unshuffled_original_frr
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Hiragana’ Practice’Sheet’1’(A -O)’ ’ Name:’________ __________________________’Section:’_______________ _’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ’ ..."
}
unshuffled_original_fy
- Size of downloaded dataset files: 12.40 MB
- Size of the generated dataset: 36.24 MB
- Total amount of disk used: 48.64 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Nim in sêfte ride op Holmsjön, yn ien fan 'e lytse marren yn de omkriten, of nim se op avontueren lykas nonresidential. lâns Indalsälven wetter. Holm Sportklubb hawwe kano 's te huur, yn gearwurking mei de Baltyske Power konferinsje."
}
unshuffled_original_ga
- Size of downloaded dataset files: 29.27 MB
- Size of the generated dataset: 92.37 MB
- Total amount of disk used: 121.63 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Is fóram é seo chun plé a dhéanamh ar an leabhar atá roghnaithe do mhí na Samhna 2013 amháin. Ní féidir ach le baill chláraithe..."
}
unshuffled_original_gd
- Size of downloaded dataset files: 0.52 MB
- Size of the generated dataset: 2.02 MB
- Total amount of disk used: 2.55 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Zhou Yujun, a 'phàrtaidh Rùnaire Comataidh Sgìre Yanfeng ann Hengyang bhaile agus a Sgìre pàrtaidh agus an riaghaltas a' bhuidheann-riochdachaidh a 'tighinn a chèilidh air ar companaidh air Apr. 14, 2017."
}
unshuffled_original_gl
- Size of downloaded dataset files: 235.38 MB
- Size of the generated dataset: 656.48 MB
- Total amount of disk used: 891.87 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"O persoal de Inditex da provincia de Pontevedra segue a reclamar iguais condicións laborais no conxunto do país - CIG: Confeder..."
}
unshuffled_original_gn
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.04 MB
- Total amount of disk used: 0.05 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"º ÑÆÚÓ À Ã Ð É Æ ¾ ÄÂ Î À ¼ Æ É ÄÛ = Ü Ý\\\"Þ ßà á â ã ä å æçè ã é ê â å àë ì æê íî é á ë ï í çì àð í Ü à ñ ê é ò ä ì\"..."
}
unshuffled_original_gom
- Size of downloaded dataset files: 0.44 MB
- Size of the generated dataset: 2.25 MB
- Total amount of disk used: 2.71 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"दुष्ट शीळ हें कौरवांचें । रामें सविस्तर देखूनि साचें । बोलिले वचनें जें दुर्वाचे । करी तयांचें अनुस्मरण ॥२२०॥\"..."
}
unshuffled_original_gu
- Size of downloaded dataset files: 232.02 MB
- Size of the generated dataset: 1.09 GB
- Total amount of disk used: 1.33 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"અધિક માસ ચાલે છે. સમગ્ર ભારતમાં અને તેમાંય ખાસ કરીને પવિત્ર કે ધાર્મિક કહેવાય છે તેવા સ્થાનક પર કથાનો દોર ચાલે છે. ઉનાળાની કાળઝ..."
}
unshuffled_original_he
- Size of downloaded dataset files: 5.66 GB
- Size of the generated dataset: 21.11 GB
- Total amount of disk used: 26.77 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"זקוקים לרשתות נגד יתושים? מחפשים רשת מתאימה לחלון צר וקטן? רשתות נגד יתושים אקורדיון של חברת קליר-מש הן הפתרון.\\nרשתות לחלונות ..."
}
unshuffled_original_hi
- Size of downloaded dataset files: 3.66 GB
- Size of the generated dataset: 17.93 GB
- Total amount of disk used: 21.59 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"'आइटम गर्ल' बनकर हिट हुई थीं राखी सावंत, आज करीना-कटरीना तक फॉलो कर रही हैं ट्रेंड नक्सलियों का दम निकालेगा बाइक ग्रेनेड लॉन्च..."
}
unshuffled_original_hr
- Size of downloaded dataset files: 79.42 MB
- Size of the generated dataset: 243.83 MB
- Total amount of disk used: 323.24 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"U raspravi je sudjelovao i HSS-ov saborski zastupnik rekavši kako poljoprivrednici ne osjete mjere o kojima ministar govori jer..."
}
unshuffled_original_hsb
- Size of downloaded dataset files: 1.39 MB
- Size of the generated dataset: 4.49 MB
- Total amount of disk used: 5.87 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Budyšin (SN/BŠe). Elektronikarjo mějachu lětsa cyle hinaši zazběh do swojeho wukubłanja. Wokrjesne rjemjeslnistwo bě mjenujcy w..."
}
unshuffled_original_ht
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan..."
}
unshuffled_original_hu
- Size of downloaded dataset files: 15.69 GB
- Size of the generated dataset: 43.07 GB
- Total amount of disk used: 58.77 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"monster - Amatőr, házi szex videók és kezdő csjaok pornó filmjei. - Free amateur, home made sex videos and online porn movies. ..."
}
unshuffled_original_hy
- Size of downloaded dataset files: 897.36 MB
- Size of the generated dataset: 3.94 GB
- Total amount of disk used: 4.84 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Արցախի Հանրապետության հռչակման 26-րդ տարեդարձի կապակցությամբ Շուշիի Արվեստի կենտրոնում կազմակերպվել է մոսկվաբնակ նկարիչներ՝ հայ..."
}
unshuffled_original_ia
- Size of downloaded dataset files: 0.08 MB
- Size of the generated dataset: 0.69 MB
- Total amount of disk used: 0.78 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha ha h..."
}
unshuffled_original_id
- Size of downloaded dataset files: 10.60 GB
- Size of the generated dataset: 32.32 GB
- Total amount of disk used: 42.91 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Perihal dari itu, kalau kunci hal yang demikian hilang, pemilik wajib melapor ke bengkel sah untuk dibuatkan kunci baru dengan ..."
}
unshuffled_original_ie
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Plastic Yo Yo Metal Yo Yos Wooden Yo Yo Keychain Yo Yo Translucent Yo Yo Light Up Yo Yo Globe Yo Yo Stress Reliever Yo Yo Jellyfish Yo Yo Sports Ball Yo Yo Sound Yo Yo Miniature Yo Yo Promotional Yo Yo Novelty Yo Yo Video Game Yo Yo ECO Recycled Yo Yo"
}
unshuffled_original_ilo
- Size of downloaded dataset files: 0.27 MB
- Size of the generated dataset: 0.92 MB
- Total amount of disk used: 1.20 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Segun ken ni Ping-ay, ti yellow corn ti maysa kadagiti nadakamat a liberalized agricultural commodity iti daytoy a free trade k..."
}
unshuffled_original_io
- Size of downloaded dataset files: 0.04 MB
- Size of the generated dataset: 0.16 MB
- Total amount of disk used: 0.20 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Chekia esas parlamentala republiko. La chefo di stato esas la prezidanto. Til 2013 lu elektesis dal parlamento. Pos ta yaro, ol..."
}
unshuffled_original_is
- Size of downloaded dataset files: 533.03 MB
- Size of the generated dataset: 1.52 GB
- Total amount of disk used: 2.06 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Eyjar.net - upplýsinga- og fréttamiðill um Vestmannaeyjar - Fréttir - Nái núverandi stefna stjórnvalda fram að ganga mun það va..."
}
unshuffled_original_it
- Size of downloaded dataset files: 52.16 GB
- Size of the generated dataset: 147.38 GB
- Total amount of disk used: 199.54 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Jaundice - causes, treatment & pathology massaggio a osteochondrosis dellindizio di una controindicazione\\nTrattamento su un co..."
}
unshuffled_original_ja
- Size of downloaded dataset files: 79.56 GB
- Size of the generated dataset: 232.22 GB
- Total amount of disk used: 311.78 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"神社などへ一緒に同行して、様々な角度のショットで家族写真やお子様の写真を撮影致します!お好みに合わせて様々な写真を取ることができますので、その場でカメラマンへのリクエストも可能です!お子様の晴れ姿を、緊張していない自然な笑顔で残しませんか?\\n※七五三の..."
}
unshuffled_original_jbo
- Size of downloaded dataset files: 0.21 MB
- Size of the generated dataset: 0.77 MB
- Total amount of disk used: 0.98 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "ni'o 23 la cimast. cu 23moi djedi fi'o masti la cimast. noi ke'a cu cimoi masti .i 22 la cimast. cu purlamdei .ije 24 la cimast. cu bavlamdei"
}
unshuffled_original_jv
- Size of downloaded dataset files: 0.22 MB
- Size of the generated dataset: 0.69 MB
- Total amount of disk used: 0.91 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"José Mourinho (diwaca: [ʒuˈzɛ moˈɾiɲu]; lair ing Setubal, Portugal, 26 Januari 1963; umur 55 taun) iku salah siji pelatih bal k..."
}
unshuffled_original_ka
- Size of downloaded dataset files: 680.74 MB
- Size of the generated dataset: 3.77 GB
- Total amount of disk used: 4.45 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"წამიყვანე შენთან ერთად (ქართულად) / Возьми меня с собой (картулад) / (რუსული სერიალები ქართულად) (რუსების პორნო ონლაინში) (ruse..."
}
unshuffled_original_kk
- Size of downloaded dataset files: 615.06 MB
- Size of the generated dataset: 2.83 GB
- Total amount of disk used: 3.45 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Түлкібас ауданында «Латын негізді әліпби мен емле ережесі туралы насихат» жобасының тобы семинар өткізді\\nЕлорданың «Қазақстан»..."
}
unshuffled_original_km
- Size of downloaded dataset files: 193.28 MB
- Size of the generated dataset: 1.10 GB
- Total amount of disk used: 1.30 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ខ្សឹបដាក់ត្រចៀក៖ លោក សួស សុផានិត នាយផ្នែករដ្ឋបាលព្រៃឈើ ស្រុកភ្នំក្រវាញ់ ដែលទើបឡើងកាន់តំណែងថ្មី បើកដៃឲ្យឈ្នួញ ប្រព្រឹត្តបទល្មើស ..."
}
unshuffled_original_kn
- Size of downloaded dataset files: 342.15 MB
- Size of the generated dataset: 1.76 GB
- Total amount of disk used: 2.11 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ರಾಷ್ಟ್ರಪತಿ ಪ್ರಣಬ್ ಮುಖರ್ಜಿಯಿಂದ ಪದ್ಮ ಪ್ರಶಸ್ತಿ ಪ್ರದಾನ | President Pranab Mukherjee Confers Padma Awards | Photo Gallery on Kannada..."
}
unshuffled_original_ko
- Size of downloaded dataset files: 8.81 GB
- Size of the generated dataset: 25.29 GB
- Total amount of disk used: 34.10 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"CIA 프로젝트에서는 데이터베이스로 들어오는 요청을 중간에 수집(Sniffing)하고 수집한 데이터를 분석(Parsing)하여 그로 인한 결과를 판단하여 알릴 수 있는 시스템(Push Service)이 필요하다. 그리고 연구를 ..."
}
unshuffled_original_krc
- Size of downloaded dataset files: 0.66 MB
- Size of the generated dataset: 2.68 MB
- Total amount of disk used: 3.34 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Шамханланы, Бийлени къаршысына ябушуп, Батыр уланларыбызны къоллары булан «ортакъ ожакъ» къургъанбыз. Шо иш уллу зараллы иш бол..."
}
unshuffled_original_ku
- Size of downloaded dataset files: 33.38 MB
- Size of the generated dataset: 99.06 MB
- Total amount of disk used: 132.44 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Me di 114 bernameyên xwe yên berê da perçeyên ji berhemên zanyarî yên kurdzanên mezin bi wergera kurdî da ...\\nMe di 114 bernam..."
}
unshuffled_original_kv
- Size of downloaded dataset files: 0.40 MB
- Size of the generated dataset: 2.38 MB
- Total amount of disk used: 2.78 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Коми кытшыслӧн ыджытжык тор вӧр увтын куйлӧ, сійӧн и фаунасӧ татӧн аркмӧтӧны вӧрын олісь подаэз. Ассямаӧн лоӧ сія, мый кытшас с..."
}
unshuffled_original_kw
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.04 MB
- Total amount of disk used: 0.05 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼Pray without ceasing🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏🏼🙏..."
}
unshuffled_original_ky
- Size of downloaded dataset files: 152.64 MB
- Size of the generated dataset: 630.79 MB
- Total amount of disk used: 783.43 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Turmush: Бишкек шаардык кеңешинин кезексиз отурумунда мэрге ишенбөөчүлүк көрсөтүү маселеси каралат, - депутат Т.Сагынов\\nБишкек..."
}
unshuffled_original_la
- Size of downloaded dataset files: 5.46 MB
- Size of the generated dataset: 27.80 MB
- Total amount of disk used: 33.26 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Hæ sunt generationes Noë: Noë vir justus atque perfectus fuit in generationibus suis; cum Deo ambulavit.\\nEcce ego adducam aqua..."
}
unshuffled_original_lb
- Size of downloaded dataset files: 10.73 MB
- Size of the generated dataset: 30.60 MB
- Total amount of disk used: 41.32 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Während dem Gaardefestival \\\"Ambiance Jardins\\\" vum 15. bis de 17. Mee huet den SNJ nees zesumme mam Groupe Animateur en Inform..."
}
unshuffled_original_lez
- Size of downloaded dataset files: 0.83 MB
- Size of the generated dataset: 3.38 MB
- Total amount of disk used: 4.20 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Ахцегь хуьр, виридалай ч1ехи лезги хуьрерикая я. Ам Урусатдин виридалай къиблепатавай хуьрерикай я. Ин хуьр...\"..."
}
unshuffled_original_li
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.03 MB
- Total amount of disk used: 0.04 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"'t Good Goedenraad aan de Ezerbaek besjteit oet 'n kesjtièl mèt gesjlote haof en 'n park van 26 hectare. Hie in sjtoon väól beu..."
}
unshuffled_original_lmo
- Size of downloaded dataset files: 0.10 MB
- Size of the generated dataset: 0.47 MB
- Total amount of disk used: 0.58 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Serét (en tortonés: Sregh; en piemontés: Srèj) l'è 'n cümü italià, de la regiù del Piemónt, en Pruvìncia de Alessandria. El g'h..."
}
unshuffled_original_lo
- Size of downloaded dataset files: 33.92 MB
- Size of the generated dataset: 182.36 MB
- Total amount of disk used: 216.28 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"ຜູ້ພິພາກສາ ປະຈຳເຂດ ສຫລ ທ່ານນຶ່ງ ຕັດສິນວ່າ ໂຄງການເກັບກຳຂໍ້ມູນ ທາງໂທລະສັບ ຂອງອົງການ ຄວາມໝັ້ນຄົງແຫ່ງຊາດ ແມ່ນຖືກຕ້ອງ ຕາມກົດໝາຍ.\\nກະ..."
}
unshuffled_original_lrc
- Size of downloaded dataset files: 0.02 MB
- Size of the generated dataset: 0.07 MB
- Total amount of disk used: 0.09 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"آرلینگتون یئ گئل د شأریا ڤولاتچە ڤیرجینیا و یئ گئل د شأریا ڤولات ڤولاتچە یا یأکاگئرئتە ئمریکاە. ئی شأر دویومی کألوٙن شأر د راسا..."
}
unshuffled_original_lt
- Size of downloaded dataset files: 3.44 GB
- Size of the generated dataset: 9.45 GB
- Total amount of disk used: 12.89 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Čir vir vir pavasaris! Čia čia čia… dalinamės labai simpatiška video pamokėle, kurią pristato ab888art galerija.\\nBe galo papra..."
}
unshuffled_original_lv
- Size of downloaded dataset files: 1.49 GB
- Size of the generated dataset: 4.27 GB
- Total amount of disk used: 5.75 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Dekoratīvi sliekšņi MITSUBISHI OUTLANDER 2007, izgatavoti no ovālas formas, pulētas nerūsējošā tērauda caurules...\\ndažādas tūn..."
}
unshuffled_original_mai
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.33 MB
- Total amount of disk used: 0.34 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"१ · २ · ३ · ४ · ५ · ६ · ७ · ८ · ९ · १० · ११ · १२ · १३ · १४ · १५ · १६ · १७ · १८ · १९ · २० · २१ · २२ · २३ · २४ · २५ · २६ · २७ · २..."
}
unshuffled_original_mg
- Size of downloaded dataset files: 6.22 MB
- Size of the generated dataset: 21.79 MB
- Total amount of disk used: 28.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Nanamboatra taratasy apetaka sy soso-kevitra ho an'ny olona te-hanatevin-daharana ity fihetsiketsehana ity i Anocrena.\\nNosorat..."
}
unshuffled_original_mhr
- Size of downloaded dataset files: 1.84 MB
- Size of the generated dataset: 7.55 MB
- Total amount of disk used: 9.38 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Акрет жап годым Уганда кундемым Пигмей племена- влак айлен шогеныт. мемнан эран 1 курым гыч Банту племена влакат тиде кундемышк..."
}
unshuffled_original_min
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.63 MB
- Total amount of disk used: 0.64 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\" ..."
}
unshuffled_original_mk
- Size of downloaded dataset files: 508.24 MB
- Size of the generated dataset: 2.20 GB
- Total amount of disk used: 2.71 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"„Филм плус“ е насловен првиот филмски месечник во Македонија, чиј прв број ќе биде промовиран вечер во „Менада“. Новото македон..."
}
unshuffled_original_ml
- Size of downloaded dataset files: 938.69 MB
- Size of the generated dataset: 5.24 GB
- Total amount of disk used: 6.18 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"സ്ത്രീ പ്രവേശനം സര്ക്കാര് പൂര്ണമായും അംഗീകരിക്കുന്നുവെന്നും ശബരിമലയുടെ സുരക്ഷയില് ഇടപെടുമെന്നും സര്ക്കാര് ഹൈക്കോടതിയില്\\..."
}
unshuffled_original_mn
- Size of downloaded dataset files: 472.36 MB
- Size of the generated dataset: 2.33 GB
- Total amount of disk used: 2.81 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Монгол улс, Улаанбаатар хот - 14191 Энхтайваны өргөн чөлөө - 10, Багш хөгжлийн ордон, Багшийн мэргэжил дээшлүүлэх институт\\nБаг..."
}
unshuffled_original_mr
- Size of downloaded dataset files: 525.31 MB
- Size of the generated dataset: 2.82 GB
- Total amount of disk used: 3.34 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Home / motivational marathi story / उद्योजकता (Entrepreneurship) / यांना हे जमलय, तर आपल्याला का नाही जमणार ?\\nयापैकी कोणाचीही ..."
}
unshuffled_original_mrj
- Size of downloaded dataset files: 0.30 MB
- Size of the generated dataset: 1.16 MB
- Total amount of disk used: 1.47 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Лӹпӹвлӓ (латинлӓ Lepidoptera ; алыкмарла лыве-влак) — капшангывлӓ йыхыш пырышы сӱмӓн нӹл шылдыран капшангывлӓ. Цилӓжӹ 180000 тӹ..."
}
unshuffled_original_ms
- Size of downloaded dataset files: 28.46 MB
- Size of the generated dataset: 122.33 MB
- Total amount of disk used: 150.79 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Sanad pertama daripada Zuhair bin Harb daripada ‘Affan daripada Hammad daripada Thabit daripada Anas.\\nSanad kedua daripada ‘Ab..."
}
unshuffled_original_mt
- Size of downloaded dataset files: 7.53 MB
- Size of the generated dataset: 24.47 MB
- Total amount of disk used: 32.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "tibgħat il-kawża lura lill-Qorti Ġenerali għall-annullament jew għat-tnaqqis tal-penalità imposta mill-Kummissjoni bid-deċiżjoni inizjali kif emendata bid-deċiżjoni ta’ rettifika;"
}
unshuffled_original_mwl
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Deciplina social i outónoma que angloba atebidades de ouserbaçon, de análeze, de çcriçon, cumparaçon, de sistematizaçon i de sp..."
}
unshuffled_original_my
- Size of downloaded dataset files: 369.85 MB
- Size of the generated dataset: 2.02 GB
- Total amount of disk used: 2.39 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ျမ၀တီ - ရန္ကုန္တိုင္းေဒသႀကီး ေျမာက္ဥကၠလာပႏွင္႕ ဗဟန္းၿမိဳ႔နယ္ မေကြးတိုင္း ေဒသႀကီး ပခုကၠဴၿမိဳ႔နယ္တို႔၌ ျမန္မာ႕တပ္မေတာ္အား ေထာက္ခံ..."
}
unshuffled_original_myv
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"2018 иень умарьковонь 6-це чистэ сась паро куля! Россиянь культурань Министерствась макссь невтемань конёв (прокатной удостовер..."
}
unshuffled_original_mzn
- Size of downloaded dataset files: 0.18 MB
- Size of the generated dataset: 0.72 MB
- Total amount of disk used: 0.90 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"قرآن یا قوران اسلام ِآسمونی کتاب هسته. مسلمونون گانّّه قرآن ره خدا، وحی جه برسنییه، «محمد معجزه» هسته و ثقلین حدیث دله ونه خَو..."
}
unshuffled_original_nah
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "In mācuīlpōhualxihuitl VI (inic chicuacē) in mācuīlpōhualli xiuhitl cāhuitl īhuīcpa 501 xihuitl oc 600 xihuitl."
}
unshuffled_original_nap
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.02 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ò AUDIT í Ç è î ÿ å å 30 ò ÿ ÿ é, õ ñ ì ÿ, ê ã- ò à ì. å â å í ç â à à é ñ è å é ó ó ë. å å å û è å î é è à. à è à AUDIT 1-7 â ..."
}
unshuffled_original_nds
- Size of downloaded dataset files: 6.74 MB
- Size of the generated dataset: 18.23 MB
- Total amount of disk used: 24.99 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Dor kann sik vun nu af an de hele plattdüütsche Welt – vun Niebüll bit New York, vun Helgoland bit Honolulu – drapen. Allens, w..."
}
unshuffled_original_ne
- Size of downloaded dataset files: 355.29 MB
- Size of the generated dataset: 1.87 GB
- Total amount of disk used: 2.22 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"बर्दिबास नगरपालिकाको तेस्रो नगर परिषदबाट पारित आ.व.२०७३।७४ को संशोधित र २०७४।७५ को प्रस्तावित नीति, कार्यक्रम तथा बजेट\\nअार्थिक..."
}
unshuffled_original_new
- Size of downloaded dataset files: 1.03 MB
- Size of the generated dataset: 5.77 MB
- Total amount of disk used: 6.79 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"थ्व शहरयागु अक्षांश ३४.७००१६४ उत्तर व देशान्तर ८६.३७६४६९ पश्चिम खः (34.700164° N 86.376469° W)। थ्व थासे ७२२६७३२ वर्ग मिटर (२.७..."
}
unshuffled_original_nl
- Size of downloaded dataset files: 29.35 GB
- Size of the generated dataset: 83.23 GB
- Total amount of disk used: 112.58 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Op vrijdag 31 augustus wordt het nieuwe studiejaar van de masteropleiding architectuur geopend met een dagexcursie naar Venlo.\\..."
}
unshuffled_original_nn
- Size of downloaded dataset files: 32.86 MB
- Size of the generated dataset: 90.84 MB
- Total amount of disk used: 123.70 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "Planomtale krav til innhald Bakgrunn: Spørsmål frå fleire kommunar om kva ein planomtale/planbeskrivelse bør innehalde Fylkeskommunen og fylkesmannen har i ein del saker reist motsegn på formelt grunnlag"
}
unshuffled_original_no
- Size of downloaded dataset files: 3.11 GB
- Size of the generated dataset: 8.65 GB
- Total amount of disk used: 11.76 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Ytterligere aktører i primærhelsetjenesten og andre NHS-virksomheter ble infisert, inkludert legekontor.Læreren vår er så attra..."
}
unshuffled_original_oc
- Size of downloaded dataset files: 1.57 MB
- Size of the generated dataset: 6.12 MB
- Total amount of disk used: 7.71 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": ".рф (rf, còdi punycode: .xn--p1ai)[1] es lo nom de domeni en rus per Russia. Foguèt activat lo 12 de mai de 2010. Lo còdi latin es .ru."
}
unshuffled_original_or
- Size of downloaded dataset files: 49.84 MB
- Size of the generated dataset: 260.15 MB
- Total amount of disk used: 309.99 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ଭୁବନେଶ୍ୱର, ୨୭/୧– (ଓଡ଼ିଆ ପୁଅ) ସିପିଆଇ ଜାତୀୟ ପରିଷଦର ଆହ୍ୱାନକ୍ରମେ ଗତକାଲି ଜାନୁୟାରୀ ୨୬ ସାଧାରଣତନ୍ତ୍ର ଦିବସକୁ ଦେଶ ବ୍ୟାପୀ ସମ୍ବିଧାନ ସୁରକ୍ଷା ..."
}
unshuffled_original_os
- Size of downloaded dataset files: 3.09 MB
- Size of the generated dataset: 12.90 MB
- Total amount of disk used: 15.99 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"1. Лæппу æмæ чызг казрæдзийы зæрдæмæ куы фæцæуынц æмæ, куы сфæнд кæнынц сæ цард баиу кæнын, уæд лæппу бар ракуры чызгæй, цæмæй ..."
}
unshuffled_original_pa
- Size of downloaded dataset files: 164.21 MB
- Size of the generated dataset: 801.16 MB
- Total amount of disk used: 965.37 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ਰਜਿ: ਨੰ: PB/JL-138/2018-20 ਜਿਲਦ 63, ਬਾਨੀ ਸੰਪਾਦਕ (ਸਵ:) ਡਾ: ਸਾਧੂ ਸਿੰਘ ਹਮਦਰਦ ਫ਼ੋਨ : 0181-2455961-62-63, 5032400, ਫੈਕਸ : 2455960, 2..."
}
unshuffled_original_pam
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Áku pu i Anak ning Aláya at ngeni ipákit kó kékayu ngan nûng makanánu lang susúlat détinang kulit a mágkas. Lauan ya ing tarátu..."
}
unshuffled_original_pl
- Size of downloaded dataset files: 42.88 GB
- Size of the generated dataset: 117.12 GB
- Total amount of disk used: 160.01 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"System informatyczny - Załącznik nr 1 do zarządzenia Wójta Gminy Podegrodzie Nr 530/2013 z dnia 27 maja 2013 r\\nSystem informat..."
}
unshuffled_original_pms
- Size of downloaded dataset files: 0.75 MB
- Size of the generated dataset: 2.15 MB
- Total amount of disk used: 2.92 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Louvigné-du-Désert a l'é na comun-a fransèisa ant la region aministrativa dla Brëtagna, ant ël dipartiment d'Ille-et-Vilaine. A..."
}
unshuffled_original_pnb
- Size of downloaded dataset files: 3.22 MB
- Size of the generated dataset: 12.04 MB
- Total amount of disk used: 15.26 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"ایہ فائل Wikimedia Commons توں اے تے دوجیاں ویونتاں تے وی ورتی جاےکدی اے۔ گل بات اس دے فائل گل بات صفہ تے تھلے دتی گئی۔\"..."
}
unshuffled_original_ps
- Size of downloaded dataset files: 103.66 MB
- Size of the generated dataset: 379.51 MB
- Total amount of disk used: 483.17 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Many people usually use the time period ‘business to business (B2B) advertising,’ however most of them do not know precisely wh..."
}
unshuffled_original_pt
- Size of downloaded dataset files: 47.26 GB
- Size of the generated dataset: 132.64 GB
- Total amount of disk used: 179.89 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Você pode estar lendo este texto no sofá, levantar pra pegar uma breja na geladeira, dar uma cagada e sentar novamente, sem int..."
}
unshuffled_original_qu
- Size of downloaded dataset files: 0.02 MB
- Size of the generated dataset: 0.08 MB
- Total amount of disk used: 0.10 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Warayu wichay (kastilla simipi: Ascensión de Guarayos) nisqaqa Buliwya mama llaqtapi, Santa Krus suyupi, huk llaqtam, Warayu pruwinsyap uma llaqtanmi."
}
unshuffled_original_rm
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"practicists agrars / practicistas agraras AFP pon far ina furmaziun da basa scursanida per cuntanscher in attestat federal da q..."
}
unshuffled_original_ro
- Size of downloaded dataset files: 9.53 GB
- Size of the generated dataset: 26.87 GB
- Total amount of disk used: 36.40 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"“În viață, oportunitatea nu este totul. Cine atrage Lumina, cineva bun în umbră. Timpul ne creează.” maestru\\nLyn.Evans: Ce mar..."
}
unshuffled_original_ru
- Size of downloaded dataset files: 319.76 GB
- Size of the generated dataset: 1241.63 GB
- Total amount of disk used: 1561.38 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Доступ к данному профилю для публичного просмотра закрыт администрацией сайта - профиль находится на модерации.\\nРазработчикам ..."
}
unshuffled_original_sa
- Size of downloaded dataset files: 17.52 MB
- Size of the generated dataset: 97.06 MB
- Total amount of disk used: 114.58 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"अनिरुद्धनगरे क्रीडिता रामलीला सम्प्रति समाप्ता अस्ति । तस्य कानिचन् चित्राणि पूर्वमेव प्रकाशितानि सन्ति । द्वौ चलचित्रौ अपि ..."
}
unshuffled_original_sah
- Size of downloaded dataset files: 9.08 MB
- Size of the generated dataset: 43.82 MB
- Total amount of disk used: 52.90 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████..."
}
unshuffled_original_scn
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
{
"id": 0,
"text": "La gilusìa è nu sintimentu dulurusu ca nasci d'un disideriu di pussessu sclusivu ntê cunfrunti dâ pirsuna amata e dû timuri, dû suspettu o dâ cirtizza dâ sò nfidiltati."
}
unshuffled_original_sd
- Size of downloaded dataset files: 90.62 MB
- Size of the generated dataset: 364.25 MB
- Total amount of disk used: 454.88 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"هر ڪو ڄاڻي ٿو ته جڏهن توهان هڪ وڏي خريد ڪرڻ چاهيون ٿا, توهان پڄي ضروري حڪم ۾ ان جي ڪم ڪرڻ جي هٿ ۾ لاڳاپو ڪيو آهي. جي شيء آهي ته..."
}
unshuffled_original_sh
- Size of downloaded dataset files: 3.46 MB
- Size of the generated dataset: 25.84 MB
- Total amount of disk used: 29.30 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Opština Gornja Radgona se nalazi u sjeveroistočnoj Sloveniji i graniči s susjednom Austriji duž rijeke Mure. Sa tridesetim nase..."
}
unshuffled_original_si
- Size of downloaded dataset files: 310.93 MB
- Size of the generated dataset: 1.47 GB
- Total amount of disk used: 1.78 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"ලාංකීය සිතිවිලි සිංහල බ්ලොග් කියවනය කොත්තු සින්ඩිය ලංකා Blogger හත්මාළුව ලංකා බ්ලොග් කියවනය මාතලන්ගේ සින්ඩිය මොබයිල්lk\\nඅවකාශය ..."
}
unshuffled_original_sk
- Size of downloaded dataset files: 3.71 GB
- Size of the generated dataset: 9.81 GB
- Total amount of disk used: 13.52 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Aktivity | Agentúra podporovaného zamestnávania | vzdelávanie pre klientov, vzdelávanie pre odborníkov, kurzy\\nŠpecializované k..."
}
unshuffled_original_sl
- Size of downloaded dataset files: 956.20 MB
- Size of the generated dataset: 2.68 GB
- Total amount of disk used: 3.63 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Če Creatures, ki je želel, da pridejo na čas, predvsem je povedlo – razlikuje od ljubosumja začel grizenja kolen (ali zadnjica)..."
}
unshuffled_original_so
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.06 MB
- Total amount of disk used: 0.06 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"тттттттттттттттттттттттттттттттт тттттттттттттттттттттттттттттттт тттттттттттттттттттттттттттттттт ттттттттттттттттуууууууууууу..."
}
unshuffled_original_sq
- Size of downloaded dataset files: 861.84 MB
- Size of the generated dataset: 2.44 GB
- Total amount of disk used: 3.30 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Çfarë do të më pëlqente tek një femër ose çfarë do të më shndërronte në një shpërthim drite? – Albert Vataj\\nTë gjithëve një zo..."
}
unshuffled_original_sr
- Size of downloaded dataset files: 1.08 GB
- Size of the generated dataset: 4.13 GB
- Total amount of disk used: 5.21 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Корисни савети за сваки дан. На сајту су разне категорије, као што су љепота, мода, кување и поправка властитим рукама.\\nШколск..."
}
unshuffled_original_su
- Size of downloaded dataset files: 0.06 MB
- Size of the generated dataset: 0.23 MB
- Total amount of disk used: 0.28 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Kartu krédit nyaéta \"duit plastik\" anu dikaluarkeun ku bank pikeun alat pambayaran di tempat-tempat nu tangtu samisal jiga di hotél, réstoran, tempat rékréasi jeung sajabana.[1]"
}
unshuffled_original_sv
- Size of downloaded dataset files: 17.18 GB
- Size of the generated dataset: 47.00 GB
- Total amount of disk used: 64.18 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"1783 är ett viktigt årtal i den nya tidens historia. Det året slöts en fred i Paris och därmed blev de 13 brittiska kolonierna ..."
}
unshuffled_original_sw
- Size of downloaded dataset files: 3.71 MB
- Size of the generated dataset: 14.07 MB
- Total amount of disk used: 17.78 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Miripuko hiyo inakuja mwanzoni mwa Wiki Takatifu kuelekea Pasaka na ikiwa ni wiki chache tu kabla ya Papa Francis kuanza ziara yake katika nchi hiyo yenye idadi kubwa kabisa ya watu katika ulimwengu wa nchi za Kiarabu."
}
unshuffled_original_ta
- Size of downloaded dataset files: 1.74 GB
- Size of the generated dataset: 9.93 GB
- Total amount of disk used: 11.67 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"பொழுது சாய்ந்து வெகு நேரமாகிவிட்டது. கூலி வேலைக்குப் போயிருந்த 'சித்தாள் ' பெண்கள் எல்லோரும் வீடு திரும்பி விட்டார்கள். இன்னும்..."
}
unshuffled_original_te
- Size of downloaded dataset files: 522.47 MB
- Size of the generated dataset: 2.61 GB
- Total amount of disk used: 3.13 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"హర్యానాలో టోల్ దగ్గర సిబ్బంది.. స్థానిక ప్రజలు కొట్టుకున్నారు. కర్నాల్ అనే గ్రామానికి సమీపంలో టోల్ గేట్ ఉంది. అయితే సాధారణంగా స..."
}
unshuffled_original_tg
- Size of downloaded dataset files: 90.97 MB
- Size of the generated dataset: 397.43 MB
- Total amount of disk used: 488.41 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Ҳумайро гуфтааст, мухолифи низом аст, низоме, ки дар Тоҷикистон вуҷуд дорад. Ба ин маънӣ, худро мухолифи давлату ҳукумати Тоҷик..."
}
unshuffled_original_th
- Size of downloaded dataset files: 7.38 GB
- Size of the generated dataset: 38.29 GB
- Total amount of disk used: 45.67 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ฟันที่แลดูขาวสะอาดไม่มีเศษอาหารติดอยู่ เหงือกสีชมพู ไม่เจ็บ หรือมีเลือดออกเวลาแปรงฟันหรือขัดฟัน ไม่มีปัญหาเรื่องกลิ่นปาก ทำให้ก..."
}
unshuffled_original_tk
- Size of downloaded dataset files: 2.96 MB
- Size of the generated dataset: 10.66 MB
- Total amount of disk used: 13.62 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"Türkmenistanyň Prezidenti agyr atletika boýunça dünýä çempionatyna taýýarlyk işleriniň barşy bilen tanyşdy\\nHalallykdan kemal t..."
}
unshuffled_original_tl
- Size of downloaded dataset files: 204.89 MB
- Size of the generated dataset: 606.30 MB
- Total amount of disk used: 811.19 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"“Gusto ko manawagan sa mga Unit Head ng Chanel 2 Salve. Kasi napapansin ko iyon mga alaga ko ang taping halos once a week lang,..."
}
unshuffled_original_tr
- Size of downloaded dataset files: 21.96 GB
- Size of the generated dataset: 63.58 GB
- Total amount of disk used: 85.54 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Son yıllarda görülen ay tutulmalarına göre daha etkili olacağı söylenen Kanlı veya Kırmızı Ay Tutulmasına saatler kaldı. Bu akş..."
}
unshuffled_original_tt
- Size of downloaded dataset files: 151.06 MB
- Size of the generated dataset: 703.42 MB
- Total amount of disk used: 854.47 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"\\\"Иремнең вафатына 40 көн узгач, Алмаз да безнең өйгә кереп үлде\\\". Арчада 35 яшьлек ир өстенә кондызлар ега башлаган агач төшк..."
}
unshuffled_original_tyv
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.01 MB
- Total amount of disk used: 0.01 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Экии, хүндүлуг аалчылар болгаш тыва дылдың деткикчилери! Тыва дылдың болгаш чогаалдың ховар бир башкызынга, Менги Ооржакка, ажы..."
}
unshuffled_original_ug
- Size of downloaded dataset files: 27.92 MB
- Size of the generated dataset: 127.42 MB
- Total amount of disk used: 155.35 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"زاڭ-ءتۇزىم | عىلىم-تەحنيكا | ءتىل-ادەبيەت | تۇرمىس | دەنە تاربيە | ساياحات-ورتا | سۋرەتتى حابار | سىر سۇحبات | ارناۋلى تاقىرىپ ..."
}
unshuffled_original_uk
- Size of downloaded dataset files: 14.42 GB
- Size of the generated dataset: 56.44 GB
- Total amount of disk used: 70.86 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Про надання роз'яснення (щодо форми письмового зобов'язання громадян про зворотне ввезення/вивезення товарів), Державна митна с..."
}
unshuffled_original_ur
- Size of downloaded dataset files: 712.61 MB
- Size of the generated dataset: 2.80 GB
- Total amount of disk used: 3.51 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"آئیے اہم اسلامی کتب کو یونیکوڈ میں انٹرنیٹ پر پیش کرنے کے لئے مل جل کر آن لائن ٹائپنگ کریں۔ محدث ٹائپنگ پراجیکٹ کے ذریعے آپ روز..."
}
unshuffled_original_uz
- Size of downloaded dataset files: 5.78 MB
- Size of the generated dataset: 21.46 MB
- Total amount of disk used: 27.24 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Qurama tog'lari tizmasining Toshkentdan 154 km uzoqlikdagi Toshkent-Ush yo'li yeqasidaxushmanzara tabiat qo'ynida joylashgan maydoni 30 ga.\nBolalarni sog'lomlashtirish oromgohi Bo'stonliq tumani Oqtosh muntaqasining soy-salqin gushasida joylashgan."
}
unshuffled_original_vec
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.02 MB
- Total amount of disk used: 0.03 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Par ogni pónto, ła derivada ła xe ła pendensa de ła reta tangente a ła curva de ła funsion f. Ła reta de cołor róso l'è senpre ..."
}
unshuffled_original_vi
- Size of downloaded dataset files: 21.50 GB
- Size of the generated dataset: 72.23 GB
- Total amount of disk used: 93.73 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Canh chua cá bông lau không chỉ là món ăn giải nhiệt, thanh mát ngày hè mà còn là món siêu bổ dưỡng, rất tốt cho người gầy ốm. ..."
}
unshuffled_original_vo
- Size of downloaded dataset files: 0.30 MB
- Size of the generated dataset: 2.12 MB
- Total amount of disk used: 2.42 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Sarniguet binon zif in ziläk: Hautes-Pyrénées, in topäd: Midi-Pyrénées, in Fransän. Sarniguet topon videtü 43°19’ 7’’ N e lunetü 0°5’ 19’’ L."
}
unshuffled_original_wa
- Size of downloaded dataset files: 0.09 MB
- Size of the generated dataset: 0.29 MB
- Total amount of disk used: 0.38 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "Cisse pådje ci n' est co k' on djermon, dj' ô bén k' el pådje est djusse sibåtcheye, eyet co trop tene; et s' divreut ele ecråxhî ene miete."
}
unshuffled_original_war
- Size of downloaded dataset files: 0.64 MB
- Size of the generated dataset: 2.68 MB
- Total amount of disk used: 3.32 MB
An example of 'train' looks as follows.
{
"id": 1,
"text": "An Honce amo in usa ka baryo ngan munisipalidad ha distrito han Rožňava ha rehiyon han Košice ha nasod han Slovakia.\nAn Rumegies amo in usa ka komyun ha departamento han Nord ngan ha rehiyon han Nord-Pas-de-Calais ha nasod han Fransya."
}
unshuffled_original_wuu
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.12 MB
- Total amount of disk used: 0.13 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"伊春元旦天气 伊春腊八天气 伊春春节天气 伊春情人节天气 伊春元宵节天气 伊春愚人节天气 伊春清明节天气 伊春劳动节天气 伊春母亲节天气 伊春端午节天气 伊春七夕节天气 伊春教师节天气 伊春中秋节天气 伊春国庆节天气 伊春重阳节天气 伊春万圣节天气 伊春..."
}
unshuffled_original_xal
- Size of downloaded dataset files: 0.03 MB
- Size of the generated dataset: 0.12 MB
- Total amount of disk used: 0.15 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Арнгудин Орн гисн Европд бәәдг һазр. 2007 җилин тooһaр эн орн нутгт 3,600,523 әмтн бәәдг билә. Арнгудин Орнин хотл балһсна нерн..."
}
unshuffled_original_xmf
- Size of downloaded dataset files: 1.05 MB
- Size of the generated dataset: 6.12 MB
- Total amount of disk used: 7.17 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"მოჩამილი ტექსტი წჷმორინელი რე Creative Commons Attribution-ShareAlike ლიცენზიათ; შილებე გეძინელი პირობეფიშ არსებუა. კილიშკილიშა..."
}
unshuffled_original_yi
- Size of downloaded dataset files: 33.33 MB
- Size of the generated dataset: 147.60 MB
- Total amount of disk used: 180.94 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"ממשותדיק - חבֿרה, איך אַרבעט איצט אױף אַ זשורנאַל. טאָמער איר האָט עפּעס צוצוגעבן זאָלט איר שיקן מיר אַן אָנזאָג. ס'װעט הײסן \\\"..."
}
unshuffled_original_yo
- Size of downloaded dataset files: 0.01 MB
- Size of the generated dataset: 0.06 MB
- Total amount of disk used: 0.06 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 0,
"text": "\"Copyright © 2018 BBC. BBC kò mọ̀ nípa àwọn ohun tí ó wà ní àwọn ojú òpó tí ó wà ní ìta. Ọwọ́ tí a fi mú ìbáṣepọ̀ ti ìta.\"..."
}
unshuffled_original_yue
- Size of downloaded dataset files: 0.00 MB
- Size of the generated dataset: 0.00 MB
- Total amount of disk used: 0.00 MB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 我 灌 我 灌 我 灌 灌 灌 你還不爆 我累了 投降輸一半可以嗎\"..."
}
unshuffled_original_zh
- Size of downloaded dataset files: 206.00 GB
- Size of the generated dataset: 545.61 GB
- Total amount of disk used: 751.61 GB
An example of 'train' looks as follows.
This example was too long and was cropped:
{
"id": 1,
"text": "\"中国铝灰网 中国有色金属矿产网 中国黄莲网 中国水轮发电机网 中国抽油泵网 中国数控雕刻机网 中国不锈钢抛光网 中国磨具加工网 中国压铸铝网 中国耐水腻子网 中国手机摄像头网 中国粗粮网 中国车门锁网 中国钛粉网 中国轮圈网\\n天天中奖彩票图 天天中彩票..."
}
Data Fields
The data fields are the same among all configs.
id
: aint64
feature.text
: astring
feature.
Data Splits
Click to expand the number of samples per configuration
Language | Language code | Name original | Train original | Words original | Size original | Name deduplicated | Train deduplicated | Words deduplicated | Size deduplicated |
---|---|---|---|---|---|---|---|---|---|
Afrikaans | af | unshuffled_original_af | 201117 | 43,482,801 | 241M | unshuffled_deduplicated_af | 130640 | 29,533,437 | 163M |
Albanian | sq | unshuffled_original_sq | 672077 | 374,196,110 | 2.3G | unshuffled_deduplicated_sq | 461598 | 186,856,699 | 1.2G |
Alemannic | als | unshuffled_original_als | 7324 | 841,750 | 5.0M | unshuffled_deduplicated_als | 4518 | 459,001 | 2.8M |
Amharic | am | unshuffled_original_am | 83663 | 28,301,601 | 360M | unshuffled_deduplicated_am | 43102 | 16,086,628 | 206M |
Arabic | ar | unshuffled_original_ar | 16365602 | 8,117,162,828 | 82G | unshuffled_deduplicated_ar | 9006977 | 3,171,221,354 | 32G |
Aragonese | an | unshuffled_original_an | 2449 | 52,896 | 1.3M | unshuffled_deduplicated_an | 2025 | 45,669 | 801K |
Armenian | hy | unshuffled_original_hy | 659430 | 273,919,388 | 3.7G | unshuffled_deduplicated_hy | 396093 | 110,196,043 | 1.5G |
Assamese | as | unshuffled_original_as | 14985 | 6,956,663 | 113M | unshuffled_deduplicated_as | 9212 | 4,366,570 | 71M |
Asturian | ast | unshuffled_original_ast | 6999 | 381,005 | 2.4M | unshuffled_deduplicated_ast | 5343 | 325,237 | 2.0M |
Avaric | av | unshuffled_original_av | 456 | 24,720 | 409K | unshuffled_deduplicated_av | 360 | 19,478 | 324K |
Azerbaijani | az | unshuffled_original_az | 912330 | 322,641,710 | 2.8G | unshuffled_deduplicated_az | 626796 | 167,742,296 | 1.5G |
Bashkir | ba | unshuffled_original_ba | 42551 | 9,796,764 | 128M | unshuffled_deduplicated_ba | 27050 | 6,922,589 | 90M |
Basque | eu | unshuffled_original_eu | 506883 | 120,456,652 | 848M | unshuffled_deduplicated_eu | 256513 | 45,359,710 | 342M |
Bavarian | bar | unshuffled_original_bar | 4 | 399 | 503 | unshuffled_deduplicated_bar | 4 | 399 | 503 |
Belarusian | be | unshuffled_original_be | 586031 | 144,579,630 | 1.8G | unshuffled_deduplicated_be | 307405 | 83,499,037 | 1.1G |
Bengali | bn | unshuffled_original_bn | 1675515 | 623,575,733 | 11G | unshuffled_deduplicated_bn | 1114481 | 363,766,143 | 5.8G |
Bihari | bh | unshuffled_original_bh | 336 | 8,848 | 110K | unshuffled_deduplicated_bh | 82 | 2,875 | 34K |
Bishnupriya | bpy | unshuffled_original_bpy | 6046 | 198,286 | 4.1M | unshuffled_deduplicated_bpy | 1770 | 96,940 | 1.7M |
Bosnian | bs | unshuffled_original_bs | 2143 | 106,448 | 447K | unshuffled_deduplicated_bs | 702 | 20,485 | 116K |
Breton | br | unshuffled_original_br | 37085 | 5,013,241 | 29M | unshuffled_deduplicated_br | 14724 | 2,890,384 | 16M |
Bulgarian | bg | unshuffled_original_bg | 5869686 | 2,947,648,106 | 32G | unshuffled_deduplicated_bg | 3398679 | 1,268,114,977 | 14G |
Burmese | my | unshuffled_original_my | 232329 | 56,111,184 | 1.9G | unshuffled_deduplicated_my | 136639 | 30,102,173 | 1.1G |
Catalan | ca | unshuffled_original_ca | 4390754 | 1,360,212,450 | 8.0G | unshuffled_deduplicated_ca | 2458067 | 729,333,440 | 4.3G |
Cebuano | ceb | unshuffled_original_ceb | 56248 | 6,603,567 | 39M | unshuffled_deduplicated_ceb | 26145 | 3,675,024 | 24M |
Central Bikol | bcl | unshuffled_original_bcl | 1 | 312 | 885 | unshuffled_deduplicated_bcl | 1 | 312 | 885 |
Central Khmer | km | unshuffled_original_km | 159363 | 20,690,610 | 1.1G | unshuffled_deduplicated_km | 108346 | 10,082,245 | 581M |
Central Kurdish | ckb | unshuffled_original_ckb | 103639 | 48,478,334 | 487M | unshuffled_deduplicated_ckb | 68210 | 18,726,721 | 226M |
Chavacano | cbk | unshuffled_original_cbk | 1 | 130 | 520 | unshuffled_deduplicated_cbk | 1 | 130 | 520 |
Chechen | ce | unshuffled_original_ce | 4042 | 711,051 | 8.3M | unshuffled_deduplicated_ce | 2984 | 568,146 | 6.7M |
Chinese | zh | unshuffled_original_zh | 60137667 | 14,986,424,850 | 508G | unshuffled_deduplicated_zh | 41708901 | 6,350,215,113 | 249G |
Chuvash | cv | unshuffled_original_cv | 20281 | 3,041,614 | 39M | unshuffled_deduplicated_cv | 10130 | 2,054,810 | 26M |
Cornish | kw | unshuffled_original_kw | 203 | 8,329 | 44K | unshuffled_deduplicated_kw | 68 | 2,704 | 14K |
Croatian | hr | unshuffled_original_hr | 582219 | 34,232,765 | 226M | unshuffled_deduplicated_hr | 321484 | 16,727,640 | 110M |
Czech | cs | unshuffled_original_cs | 21001388 | 7,715,977,441 | 53G | unshuffled_deduplicated_cs | 12308039 | 3,540,997,509 | 24G |
Danish | da | unshuffled_original_da | 7664010 | 2,637,463,889 | 16G | unshuffled_deduplicated_da | 4771098 | 1,620,091,317 | 9.5G |
Dhivehi | dv | unshuffled_original_dv | 21018 | 7,559,472 | 126M | unshuffled_deduplicated_dv | 17024 | 4,726,660 | 79M |
Dimli | diq | unshuffled_original_diq | 1 | 19 | 146 | unshuffled_deduplicated_diq | 1 | 19 | 146 |
Dutch | nl | unshuffled_original_nl | 34682142 | 13,020,136,373 | 78G | unshuffled_deduplicated_nl | 20812149 | 6,598,786,137 | 39G |
Eastern Mari | mhr | unshuffled_original_mhr | 3212 | 565,992 | 7.2M | unshuffled_deduplicated_mhr | 2515 | 469,297 | 6.0M |
Egyptian Arabic | arz | unshuffled_original_arz | 158113 | 7,305,151 | 66M | unshuffled_deduplicated_arz | 79928 | 3,659,419 | 33M |
Emilian-Romagnol | eml | unshuffled_original_eml | 84 | 6,376 | 25K | unshuffled_deduplicated_eml | 80 | 6,121 | 24K |
English | en | unshuffled_original_en | 455994980 | 418,187,793,408 | 2.3T | unshuffled_deduplicated_en | 304230423 | 215,841,256,971 | 1.2T |
Erzya | myv | unshuffled_original_myv | 6 | 90 | 1.4K | unshuffled_deduplicated_myv | 5 | 78 | 1.2K |
Esperanto | eo | unshuffled_original_eo | 121171 | 48,486,161 | 299M | unshuffled_deduplicated_eo | 84752 | 37,324,446 | 228M |
Estonian | et | unshuffled_original_et | 2093621 | 643,163,730 | 4.8G | unshuffled_deduplicated_et | 1172041 | 309,931,463 | 2.3G |
Finnish | fi | unshuffled_original_fi | 8557453 | 3,196,666,419 | 27G | unshuffled_deduplicated_fi | 5326443 | 1,597,855,468 | 13G |
French | fr | unshuffled_original_fr | 96742378 | 46,896,036,417 | 282G | unshuffled_deduplicated_fr | 59448891 | 23,206,776,649 | 138G |
Galician | gl | unshuffled_original_gl | 544388 | 102,011,291 | 620M | unshuffled_deduplicated_gl | 284320 | 63,600,602 | 384M |
Georgian | ka | unshuffled_original_ka | 563916 | 171,950,621 | 3.6G | unshuffled_deduplicated_ka | 372158 | 91,569,739 | 1.9G |
German | de | unshuffled_original_de | 104913504 | 44,878,908,446 | 308G | unshuffled_deduplicated_de | 62398034 | 21,529,164,172 | 145G |
Goan Konkani | gom | unshuffled_original_gom | 640 | 124,277 | 2.2M | unshuffled_deduplicated_gom | 484 | 102,306 | 1.8M |
Guarani | gn | unshuffled_original_gn | 106 | 7,382 | 36K | unshuffled_deduplicated_gn | 68 | 4,680 | 24K |
Gujarati | gu | unshuffled_original_gu | 240691 | 72,045,701 | 1.1G | unshuffled_deduplicated_gu | 169834 | 50,023,432 | 722M |
Haitian | ht | unshuffled_original_ht | 13 | 1,014 | 3.9K | unshuffled_deduplicated_ht | 9 | 832 | 3.3K |
Hebrew | he | unshuffled_original_he | 3808397 | 2,067,753,528 | 20G | unshuffled_deduplicated_he | 2375030 | 1,032,018,056 | 9.8G |
Hindi | hi | unshuffled_original_hi | 3264660 | 1,372,234,782 | 17G | unshuffled_deduplicated_hi | 1909387 | 745,774,934 | 8.9G |
Hungarian | hu | unshuffled_original_hu | 11197780 | 5,163,936,345 | 40G | unshuffled_deduplicated_hu | 6582908 | 2,339,127,555 | 18G |
Icelandic | is | unshuffled_original_is | 625673 | 219,900,094 | 1.5G | unshuffled_deduplicated_is | 389515 | 129,818,331 | 846M |
Ido | io | unshuffled_original_io | 694 | 25,702 | 147K | unshuffled_deduplicated_io | 617 | 22,773 | 130K |
Iloko | ilo | unshuffled_original_ilo | 2638 | 142,942 | 874K | unshuffled_deduplicated_ilo | 1578 | 105,564 | 636K |
Indonesian | id | unshuffled_original_id | 16236463 | 4,574,692,265 | 30G | unshuffled_deduplicated_id | 9948521 | 2,394,957,629 | 16G |
Interlingua | ia | unshuffled_original_ia | 1040 | 180,231 | 662K | unshuffled_deduplicated_ia | 529 | 100,019 | 360K |
Interlingue | ie | unshuffled_original_ie | 101 | 5,352 | 24K | unshuffled_deduplicated_ie | 11 | 602 | 1.6K |
Irish | ga | unshuffled_original_ga | 83223 | 14,483,593 | 88M | unshuffled_deduplicated_ga | 46493 | 10,017,303 | 60M |
Italian | it | unshuffled_original_it | 46981781 | 22,248,707,341 | 137G | unshuffled_deduplicated_it | 28522082 | 11,250,012,896 | 69G |
Japanese | ja | unshuffled_original_ja | 62721527 | 4,962,979,182 | 216G | unshuffled_deduplicated_ja | 39496439 | 1,123,067,063 | 106G |
Javanese | jv | unshuffled_original_jv | 1445 | 104,896 | 659K | unshuffled_deduplicated_jv | 1163 | 86,654 | 583K |
Kalmyk | xal | unshuffled_original_xal | 39 | 10,277 | 113K | unshuffled_deduplicated_xal | 36 | 10,155 | 112K |
Kannada | kn | unshuffled_original_kn | 350363 | 81,186,863 | 1.7G | unshuffled_deduplicated_kn | 251064 | 49,343,462 | 1.1G |
Karachay-Balkar | krc | unshuffled_original_krc | 1581 | 185,436 | 2.6M | unshuffled_deduplicated_krc | 1377 | 166,496 | 2.3M |
Kazakh | kk | unshuffled_original_kk | 524591 | 191,126,469 | 2.7G | unshuffled_deduplicated_kk | 338073 | 108,388,743 | 1.5G |
Kirghiz | ky | unshuffled_original_ky | 146993 | 44,194,823 | 600M | unshuffled_deduplicated_ky | 86561 | 28,982,620 | 388M |
Komi | kv | unshuffled_original_kv | 1549 | 201,404 | 2.3M | unshuffled_deduplicated_kv | 924 | 95,243 | 1.2M |
Korean | ko | unshuffled_original_ko | 7345075 | 2,368,765,142 | 24G | unshuffled_deduplicated_ko | 3675420 | 1,120,375,149 | 12G |
Kurdish | ku | unshuffled_original_ku | 46535 | 15,561,003 | 94M | unshuffled_deduplicated_ku | 29054 | 9,946,440 | 60M |
Lao | lo | unshuffled_original_lo | 52910 | 4,133,311 | 174M | unshuffled_deduplicated_lo | 32652 | 2,583,342 | 114M |
Latin | la | unshuffled_original_la | 94588 | 4,122,201 | 26M | unshuffled_deduplicated_la | 18808 | 1,328,038 | 8.3M |
Latvian | lv | unshuffled_original_lv | 1593820 | 520,761,977 | 4.0G | unshuffled_deduplicated_lv | 843195 | 236,428,905 | 1.8G |
Lezghian | lez | unshuffled_original_lez | 1485 | 247,646 | 3.3M | unshuffled_deduplicated_lez | 1381 | 224,871 | 3.0M |
Limburgan | li | unshuffled_original_li | 137 | 4,730 | 29K | unshuffled_deduplicated_li | 118 | 4,283 | 27K |
Lithuanian | lt | unshuffled_original_lt | 2977757 | 1,159,661,742 | 8.8G | unshuffled_deduplicated_lt | 1737411 | 516,183,525 | 3.9G |
Lojban | jbo | unshuffled_original_jbo | 832 | 154,330 | 736K | unshuffled_deduplicated_jbo | 617 | 141,973 | 678K |
Lombard | lmo | unshuffled_original_lmo | 1401 | 75,229 | 443K | unshuffled_deduplicated_lmo | 1374 | 73,665 | 433K |
Low German | nds | unshuffled_original_nds | 18174 | 2,906,347 | 18M | unshuffled_deduplicated_nds | 8714 | 2,146,417 | 13M |
Lower Sorbian | dsb | unshuffled_original_dsb | 65 | 1,787 | 13K | unshuffled_deduplicated_dsb | 37 | 966 | 7.1K |
Luxembourgish | lb | unshuffled_original_lb | 34807 | 4,403,577 | 29M | unshuffled_deduplicated_lb | 21735 | 3,087,650 | 21M |
Macedonian | mk | unshuffled_original_mk | 437871 | 189,289,873 | 2.1G | unshuffled_deduplicated_mk | 299457 | 102,849,595 | 1.2G |
Maithili | mai | unshuffled_original_mai | 123 | 69,161 | 317K | unshuffled_deduplicated_mai | 25 | 874 | 11K |
Malagasy | mg | unshuffled_original_mg | 17957 | 3,068,360 | 21M | unshuffled_deduplicated_mg | 13343 | 1,872,044 | 13M |
Malay | ms | unshuffled_original_ms | 534016 | 16,696,882 | 111M | unshuffled_deduplicated_ms | 183443 | 6,045,753 | 42M |
Malayalam | ml | unshuffled_original_ml | 603937 | 189,534,472 | 4.9G | unshuffled_deduplicated_ml | 453904 | 95,892,551 | 2.5G |
Maltese | mt | unshuffled_original_mt | 26598 | 2,995,654 | 24M | unshuffled_deduplicated_mt | 16383 | 2,163,358 | 17M |
Marathi | mr | unshuffled_original_mr | 326804 | 162,609,404 | 2.7G | unshuffled_deduplicated_mr | 212556 | 82,130,803 | 1.4G |
Mazanderani | mzn | unshuffled_original_mzn | 1055 | 73,870 | 691K | unshuffled_deduplicated_mzn | 917 | 64,481 | 602K |
Minangkabau | min | unshuffled_original_min | 220 | 5,682 | 608K | unshuffled_deduplicated_min | 166 | 4,825 | 310K |
Mingrelian | xmf | unshuffled_original_xmf | 3783 | 299,098 | 5.8M | unshuffled_deduplicated_xmf | 2418 | 228,629 | 4.4M |
Mirandese | mwl | unshuffled_original_mwl | 8 | 171 | 1.2K | unshuffled_deduplicated_mwl | 7 | 152 | 1.1K |
Modern Greek | el | unshuffled_original_el | 10425596 | 5,479,180,137 | 62G | unshuffled_deduplicated_el | 6521169 | 2,412,419,435 | 27G |
Mongolian | mn | unshuffled_original_mn | 395605 | 181,307,167 | 2.2G | unshuffled_deduplicated_mn | 197878 | 68,362,013 | 838M |
Nahuatl languages | nah | unshuffled_original_nah | 61 | 1,234 | 12K | unshuffled_deduplicated_nah | 58 | 1,193 | 11K |
Neapolitan | nap | unshuffled_original_nap | 73 | 5,282 | 17K | unshuffled_deduplicated_nap | 55 | 4,147 | 13K |
Nepali | ne | unshuffled_original_ne | 299938 | 107,448,208 | 1.8G | unshuffled_deduplicated_ne | 219334 | 71,628,317 | 1.2G |
Newari | new | unshuffled_original_new | 4696 | 564,697 | 5.5M | unshuffled_deduplicated_new | 2126 | 288,995 | 4.1M |
Northern Frisian | frr | unshuffled_original_frr | 7 | 1,516 | 4.4K | unshuffled_deduplicated_frr | 7 | 1,516 | 4.4K |
Northern Luri | lrc | unshuffled_original_lrc | 88 | 8,022 | 76K | unshuffled_deduplicated_lrc | 72 | 6,740 | 63K |
Norwegian | no | unshuffled_original_no | 5546211 | 1,344,326,388 | 8.0G | unshuffled_deduplicated_no | 3229940 | 804,894,377 | 4.7G |
Norwegian Nynorsk | nn | unshuffled_original_nn | 185884 | 14,764,980 | 85M | unshuffled_deduplicated_nn | 109118 | 9,435,139 | 54M |
Occitan | oc | unshuffled_original_oc | 10709 | 750,301 | 5.8M | unshuffled_deduplicated_oc | 6485 | 512,678 | 3.7M |
Oriya | or | unshuffled_original_or | 59463 | 14,938,567 | 248M | unshuffled_deduplicated_or | 44230 | 11,321,740 | 188M |
Ossetian | os | unshuffled_original_os | 5213 | 1,031,268 | 13M | unshuffled_deduplicated_os | 2559 | 878,765 | 11M |
Pampanga | pam | unshuffled_original_pam | 3 | 130 | 760 | unshuffled_deduplicated_pam | 1 | 52 | 304 |
Panjabi | pa | unshuffled_original_pa | 127467 | 61,847,806 | 763M | unshuffled_deduplicated_pa | 87235 | 37,555,835 | 460M |
Persian | fa | unshuffled_original_fa | 13704702 | 9,096,554,121 | 79G | unshuffled_deduplicated_fa | 8203495 | 4,363,505,319 | 38G |
Piemontese | pms | unshuffled_original_pms | 3225 | 362,013 | 2.1M | unshuffled_deduplicated_pms | 2859 | 337,246 | 1.9M |
Polish | pl | unshuffled_original_pl | 35440972 | 15,277,255,137 | 109G | unshuffled_deduplicated_pl | 20682611 | 6,708,709,674 | 47G |
Portuguese | pt | unshuffled_original_pt | 42114520 | 20,641,903,898 | 124G | unshuffled_deduplicated_pt | 26920397 | 10,751,156,918 | 64G |
Pushto | ps | unshuffled_original_ps | 98216 | 46,559,441 | 361M | unshuffled_deduplicated_ps | 67921 | 31,347,348 | 242M |
Quechua | qu | unshuffled_original_qu | 452 | 10,186 | 78K | unshuffled_deduplicated_qu | 411 | 8,691 | 67K |
Romanian | ro | unshuffled_original_ro | 9387265 | 3,984,317,058 | 25G | unshuffled_deduplicated_ro | 5044757 | 1,741,794,069 | 11G |
Romansh | rm | unshuffled_original_rm | 41 | 1,093 | 7.4K | unshuffled_deduplicated_rm | 34 | 960 | 6.5K |
Russia Buriat | bxr | unshuffled_original_bxr | 42 | 963 | 13K | unshuffled_deduplicated_bxr | 36 | 809 | 11K |
Russian | ru | unshuffled_original_ru | 161836003 | 92,522,407,837 | 1.2T | unshuffled_deduplicated_ru | 115954598 | 46,692,691,520 | 568G |
Sanskrit | sa | unshuffled_original_sa | 14291 | 4,331,569 | 93M | unshuffled_deduplicated_sa | 7121 | 1,713,930 | 37M |
Scottish Gaelic | gd | unshuffled_original_gd | 5799 | 310,689 | 1.9M | unshuffled_deduplicated_gd | 3883 | 207,110 | 1.3M |
Serbian | sr | unshuffled_original_sr | 1013619 | 364,395,411 | 3.9G | unshuffled_deduplicated_sr | 645747 | 207,561,168 | 2.2G |
Serbo-Croatian | sh | unshuffled_original_sh | 36700 | 5,292,184 | 25M | unshuffled_deduplicated_sh | 17610 | 1,040,573 | 5.8M |
Sicilian | scn | unshuffled_original_scn | 21 | 554 | 3.3K | unshuffled_deduplicated_scn | 17 | 468 | 2.8K |
Sindhi | sd | unshuffled_original_sd | 44280 | 43,530,158 | 347M | unshuffled_deduplicated_sd | 33925 | 33,028,015 | 263M |
Sinhala | si | unshuffled_original_si | 203082 | 93,053,465 | 1.4G | unshuffled_deduplicated_si | 120684 | 50,864,857 | 802M |
Slovak | sk | unshuffled_original_sk | 5492194 | 1,322,247,763 | 9.1G | unshuffled_deduplicated_sk | 2820821 | 656,346,179 | 4.5G |
Slovenian | sl | unshuffled_original_sl | 1746604 | 387,399,700 | 2.5G | unshuffled_deduplicated_sl | 886223 | 193,926,684 | 1.3G |
Somali | so | unshuffled_original_so | 156 | 1,202 | 61K | unshuffled_deduplicated_so | 42 | 472 | 16K |
South Azerbaijani | azb | unshuffled_original_azb | 15446 | 2,175,054 | 27M | unshuffled_deduplicated_azb | 9985 | 1,528,709 | 19M |
Spanish | es | unshuffled_original_es | 88199221 | 47,545,122,279 | 278G | unshuffled_deduplicated_es | 56326016 | 25,928,290,729 | 149G |
Sundanese | su | unshuffled_original_su | 805 | 30,321 | 211K | unshuffled_deduplicated_su | 511 | 20,278 | 141K |
Swahili | sw | unshuffled_original_sw | 41986 | 2,211,927 | 13M | unshuffled_deduplicated_sw | 24803 | 1,376,963 | 8.1M |
Swedish | sv | unshuffled_original_sv | 17395625 | 7,155,994,312 | 44G | unshuffled_deduplicated_sv | 11014487 | 4,106,120,608 | 25G |
Tagalog | tl | unshuffled_original_tl | 458206 | 98,949,299 | 573M | unshuffled_deduplicated_tl | 294132 | 70,121,601 | 407M |
Tajik | tg | unshuffled_original_tg | 89002 | 31,758,142 | 379M | unshuffled_deduplicated_tg | 56259 | 21,029,893 | 249M |
Tamil | ta | unshuffled_original_ta | 1263280 | 420,537,132 | 9.3G | unshuffled_deduplicated_ta | 833101 | 226,013,330 | 5.1G |
Tatar | tt | unshuffled_original_tt | 135923 | 51,034,893 | 670M | unshuffled_deduplicated_tt | 82738 | 23,825,695 | 305M |
Telugu | te | unshuffled_original_te | 475703 | 123,711,517 | 2.5G | unshuffled_deduplicated_te | 312644 | 79,094,167 | 1.6G |
Thai | th | unshuffled_original_th | 6064129 | 951,743,087 | 36G | unshuffled_deduplicated_th | 3749826 | 368,965,202 | 16G |
Tibetan | bo | unshuffled_original_bo | 26795 | 1,483,589 | 187M | unshuffled_deduplicated_bo | 15762 | 936,556 | 138M |
Turkish | tr | unshuffled_original_tr | 18535253 | 7,577,388,700 | 60G | unshuffled_deduplicated_tr | 11596446 | 3,365,734,289 | 27G |
Turkmen | tk | unshuffled_original_tk | 6456 | 1,113,869 | 11M | unshuffled_deduplicated_tk | 4694 | 752,326 | 6.8M |
Tuvinian | tyv | unshuffled_original_tyv | 34 | 759 | 12K | unshuffled_deduplicated_tyv | 24 | 540 | 7.9K |
Uighur | ug | unshuffled_original_ug | 22255 | 8,657,141 | 122M | unshuffled_deduplicated_ug | 15503 | 5,852,225 | 83M |
Ukrainian | uk | unshuffled_original_uk | 12973467 | 4,204,381,276 | 53G | unshuffled_deduplicated_uk | 7782375 | 2,252,380,351 | 28G |
Upper Sorbian | hsb | unshuffled_original_hsb | 7959 | 545,351 | 4.2M | unshuffled_deduplicated_hsb | 3084 | 236,867 | 1.8M |
Urdu | ur | unshuffled_original_ur | 638596 | 331,817,982 | 2.7G | unshuffled_deduplicated_ur | 428674 | 218,030,228 | 1.7G |
Uzbek | uz | unshuffled_original_uz | 27537 | 2,450,256 | 21M | unshuffled_deduplicated_uz | 15074 | 1,381,644 | 12M |
Venetian | vec | unshuffled_original_vec | 73 | 3,492 | 18K | unshuffled_deduplicated_vec | 64 | 3,199 | 17K |
Vietnamese | vi | unshuffled_original_vi | 14898250 | 12,036,845,359 | 68G | unshuffled_deduplicated_vi | 9897709 | 5,577,159,843 | 32G |
Volapük | vo | unshuffled_original_vo | 3366 | 321,121 | 2.0M | unshuffled_deduplicated_vo | 3317 | 318,568 | 2.0M |
Walloon | wa | unshuffled_original_wa | 1001 | 50,720 | 273K | unshuffled_deduplicated_wa | 677 | 37,543 | 203K |
Waray | war | unshuffled_original_war | 9760 | 397,315 | 2.5M | unshuffled_deduplicated_war | 9161 | 336,311 | 2.2M |
Welsh | cy | unshuffled_original_cy | 157698 | 37,422,441 | 213M | unshuffled_deduplicated_cy | 98225 | 23,574,673 | 133M |
Western Frisian | fy | unshuffled_original_fy | 33053 | 5,691,077 | 35M | unshuffled_deduplicated_fy | 20661 | 4,223,816 | 26M |
Western Mari | mrj | unshuffled_original_mrj | 757 | 93,338 | 1.2M | unshuffled_deduplicated_mrj | 669 | 87,780 | 1.1M |
Western Panjabi | pnb | unshuffled_original_pnb | 4599 | 1,426,986 | 12M | unshuffled_deduplicated_pnb | 3463 | 1,111,112 | 9.0M |
Wu Chinese | wuu | unshuffled_original_wuu | 214 | 11,189 | 109K | unshuffled_deduplicated_wuu | 64 | 4,333 | 32K |
Yakut | sah | unshuffled_original_sah | 22301 | 2,547,623 | 42M | unshuffled_deduplicated_sah | 8555 | 1,789,174 | 26M |
Yiddish | yi | unshuffled_original_yi | 59364 | 13,834,320 | 141M | unshuffled_deduplicated_yi | 32919 | 8,212,970 | 84M |
Yoruba | yo | unshuffled_original_yo | 214 | 8,906 | 55K | unshuffled_deduplicated_yo | 49 | 3,518 | 27K |
Yue Chinese | yue | unshuffled_original_yue | 11 | 186 | 3.7K | unshuffled_deduplicated_yue | 7 | 128 | 2.2K |
Dataset Creation
Curation Rationale
OSCAR was constructed new pipeline derived from the fastText's one, called goclassy. Goclassy reuses the fastText linear classifier and the pre-trained fastText model for language recognition, but it completely rewrites and parallelises their pipeline in an asynchronous manner.
The order of operations is more or less the same as in the fastText pre-processing pipeline but instead of clustering multiple operations into a single blocking process, a worker is launched for each operation but bounding the number of possible parallel operations at a given time by the number of available threads instead of the number of CPUs. Goclassy is implemented in the Go programming language so it lets the Go runtime handle the scheduling of the processes. Thus the goclassy's pipeline one does not have to wait for a whole WET file to download, decompress and classify in order to start downloading and processing the next one, a new file will start downloading and processing as soon as the scheduler is able to allocate a new process.
Filtering and cleaning processes at line level are done before feeding each line to the classifier. Lines shorter than 100 UTF-8 characters and lines containing invalid UTF-8 characters are discarted and are not classified. After all files are proccesed the deduplicated versions are constructed and everything is then splitted in shards and compressed.
Source Data
Initial Data Collection and Normalization
Common Crawl is a non-profit foundation which produces and maintains an open repository of web crawled data that is both accessible and analysable. Common Crawl's complete web archive consists of petabytes of data collected over 8 years of web crawling. The repository contains raw web page HTML data (WARC files), metdata extracts (WAT files) and plain text extracts (WET files). The organisation's crawlers has always respected nofollow and robots.txt policies.
Each monthly Common Crawl snapshot is in itself a massive multilingual corpus, where every single file contains data coming from multiple web pages written in a large variety of languages and covering all possible types of topics.
To construct OSCAR the WET files of Common Crawl were used. These contain the extracted plain texts from the websites mostly converted to UTF-8, as well as headers containing the metatada of each crawled document. Each WET file comes compressed in gzip format and is stored on Amazon Web Services. In the case of OSCAR, the November 2018 snapshot was used. It surpasses 20TB of uncompressed data and contains more than 50 thousand plain text files where each file consists of the plain text from multiple websites along its metadata header.
Who are the source language producers?
The data comes from multiple web pages in a large variety of languages.
Annotations
The dataset does not contain any additional annotations.
Annotation process
N/A
Who are the annotators?
N/A
Personal and Sensitive Information
Being constructed from Common Crawl, Personal and sensitive information might be present. This must be considered before training deep learning models with OSCAR, specially in the case of text-generation models.
Considerations for Using the Data
Social Impact of Dataset
OSCAR is intended to bring more data to a wide variety of lanuages, the aim of the corpus is to make large amounts of data available to lower resource languages in order to facilitate the pre-training of state-of-the-art language modeling architectures.
Discussion of Biases
OSCAR is not properly filtered yet and this can be reflected on the models trained with it. Care is advised specially concerning biases of the resulting models.
Other Known Limitations
The fastText linear classifier is limed both in performance and the variety of languages it can recognize, so the quality of some OSCAR sub-corpora might be lower than expected, specially for the lowest-resource langiuages. Some audits have already been done by third parties.
Additional Information
Dataset Curators
The corpus was put together by Pedro J. Ortiz, Benoît Sagot, and Laurent Romary, during work done at Inria, particularly at the ALMAnaCH team.
Licensing Information
These data are released under this licensing scheme
We do not own any of the text from which these data has been extracted.
We license the actual packaging of these data under the Creative Commons CC0 license ("no rights reserved") http://creativecommons.org/publicdomain/zero/1.0/
To the extent possible under law, Inria has waived all copyright and related or neighboring rights to OSCAR
This work is published from: France.
Should you consider that our data contains material that is owned by you and should therefore not be reproduced here, please:
* Clearly identify yourself, with detailed contact data such as an address, telephone number or email address at which you can be contacted.
* Clearly identify the copyrighted work claimed to be infringed.
* Clearly identify the material that is claimed to be infringing and information reasonably sufficient to allow us to locate the material.
We will comply to legitimate requests by removing the affected sources from the next release of the corpus.
Citation Information
@inproceedings{ortiz-suarez-etal-2020-monolingual,
title = "A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages",
author = "Ortiz Su{'a}rez, Pedro Javier and
Romary, Laurent and
Sagot, Benoit",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.156",
pages = "1703--1714",
abstract = "We use the multilingual OSCAR corpus, extracted from Common Crawl via language classification, filtering and cleaning, to train monolingual contextualized word embeddings (ELMo) for five mid-resource languages. We then compare the performance of OSCAR-based and Wikipedia-based ELMo embeddings for these languages on the part-of-speech tagging and parsing tasks. We show that, despite the noise in the Common-Crawl-based OSCAR data, embeddings trained on OSCAR perform much better than monolingual embeddings trained on Wikipedia. They actually equal or improve the current state of the art in tagging and parsing for all five languages. In particular, they also improve over multilingual Wikipedia-based contextual embeddings (multilingual BERT), which almost always constitutes the previous state of the art, thereby showing that the benefit of a larger, more diverse corpus surpasses the cross-lingual benefit of multilingual embedding architectures.",
}
@inproceedings{OrtizSuarezSagotRomary2019,
author = {Pedro Javier {Ortiz Su{'a}rez} and Benoit Sagot and Laurent Romary},
title = {Asynchronous pipelines for processing huge corpora on medium to low resource infrastructures},
series = {Proceedings of the Workshop on Challenges in the Management of Large Corpora (CMLC-7) 2019. Cardiff, 22nd July 2019},
editor = {Piotr Bański and Adrien Barbaresi and Hanno Biber and Evelyn Breiteneder and Simon Clematide and Marc Kupietz and Harald L{"u}ngen and Caroline Iliadi},
publisher = {Leibniz-Institut f{"u}r Deutsche Sprache},
address = {Mannheim},
doi = {10.14618/ids-pub-9021},
url = {http://nbn-resolving.de/urn:nbn:de:bsz:mh39-90215},
pages = {9 -- 16},
year = {2019},
abstract = {Common Crawl is a considerably large, heterogeneous multilingual corpus comprised of crawled documents from the internet, surpassing 20TB of data and distributed as a set of more than 50 thousand plain text files where each contains many documents written in a wide variety of languages. Even though each document has a metadata block associated to it, this data lacks any information about the language in which each document is written, making it extremely difficult to use Common Crawl for monolingual applications. We propose a general, highly parallel, multithreaded pipeline to clean and classify Common Crawl by language; we specifically design it so that it runs efficiently on medium to low resource infrastructures where I/O speeds are the main constraint. We develop the pipeline so that it can be easily reapplied to any kind of heterogeneous corpus and so that it can be parameterised to a wide range of infrastructures. We also distribute a 6.3TB version of Common Crawl, filtered, classified by language, shuffled at line level in order to avoid copyright issues, and ready to be used for NLP applications.},
language = {en}
}
Contributions
- Downloads last month
- 68,960