cointegrated/rubert-base-cased-dp-paraphrase-detection
Text Classification
•
Updated
•
102
•
2
id
string
| id_1
string
| id_2
string
| text_1
string
| text_2
string
| class
string
|
---|---|---|---|---|---|
"1" | "201" | "8159" | "Полицейским разрешат стрелять на поражение по гражданам с травматикой." | "Полиции могут разрешить стрелять по хулиганам с травматикой." | "0" |
"2" | "202" | "8158" | "Право полицейских на проникновение в жилище решили ограничить." | "Правила внесудебного проникновения полицейских в жилище уточнят." | "0" |
"3" | "273" | "8167" | "Президент Египта ввел чрезвычайное положение в мятежных городах." | "Власти Египта угрожают ввести в стране чрезвычайное положение." | "0" |
"4" | "220" | "8160" | "Вернувшихся из Сирии россиян волнует вопрос трудоустройства на родине." | "Самолеты МЧС вывезут россиян из разрушенной Сирии." | "-1" |
"5" | "223" | "8160" | "В Москву из Сирии вернулись 2 самолета МЧС с россиянами на борту." | "Самолеты МЧС вывезут россиян из разрушенной Сирии." | "0" |
"6" | "154" | "8153" | "Приставы соберут отпечатки пальцев российских должников." | "Приставы снимут отпечатки пальцев у злостных неплательщиков." | "1" |
"7" | "288" | "8170" | "На саратовского дебошира с борта самолета Москва - Хургада заведено дело." | "Саратовский дебошир отказывается возвращаться домой из Египта." | "-1" |
"8" | "237" | "8163" | "ЦИК хочет отказаться от электронной системы подсчета голосов." | "ЦИК может отказаться от электронных средств подсчета голосов." | "0" |
"9" | "192" | "8156" | "Суд Петербурга оставил на потом дело о гибели подростка в полиции." | "Лондонский Гайд-парк - это не место для митингов, а прежде всего парк." | "-1" |
"10" | "127" | "8149" | "Страны ОПЕК сократили добычу нефти на 1 млн баррелей в день." | "Обама продлил полномочия НАСА по сотрудничеству с Россией." | "-1" |
"11" | "246" | "8165" | "Москвичи смогут забронировать в Интернете место на кладбище." | "В Москве можно будет забронировать место на кладбище через интернет." | "1" |
"12" | "312" | "8173" | "Въезд в центр Москвы автомобилям с двигателями Евро-2 не запрещали." | "Сборная России пробилась в плей-офф чемпионата мира по хоккею с мячом." | "-1" |
"13" | "7" | "4111" | "В Подмосковье произошел пожар на железной дороге." | "В Подмосковье загорелись цистерны с бензином." | "0" |
"14" | "4" | "4112" | "Северокорейский лидер впервые за 19 лет поздравил граждан с Новым годом." | "Лидер КНДР впервые за 19 лет поздравил сограждан с Новым годом." | "1" |
"15" | "6" | "4113" | "Мужчина из Подмосковья случайно убил жену в Новый год." | "Житель Подмосковья случайно убил жену на новогоднем застолье." | "1" |
"16" | "1" | "4114" | "Избежать "фискального обрыва": Сенат США поддержал повышение налогов." | "Сенат США не допустит "фискального обрыва"." | "0" |
"17" | "2" | "4114" | ""Фискальный обрыв" в США временно предотвращен." | "Сенат США не допустит "фискального обрыва"." | "0" |
"18" | "122" | "4222" | "Житель Украины расстрелял посетителей кафе." | "На Украине мужчина через окно расстрелял посетителей кафе." | "1" |
"19" | "5" | "4115" | "В Кот-Д`Ивуаре десятки человек погибли в давке на новогоднем салюте." | "В давке у стадиона в Кот-д’Ивуаре погибли 60 человек." | "0" |
"20" | "188" | "4296" | "В Абхазии отомстили за Деда Хасана." | "В Абхазии убили врага Деда Хасана." | "0" |
"21" | "3" | "4116" | "Чечня попросила националистов составить кодекс поведения кавказцев." | "Националисты помогут Чечне составить кодекс поведения кавказцев." | "0" |
"22" | "11" | "4117" | "В новогоднюю ночь во Франции сожгли больше тысячи машин." | "В новогоднюю ночь во Франции сожгли 1193 автомобиля." | "1" |
"23" | "12" | "4118" | "В Анголе в давке во время церковной службы погибли 10 человек." | "В ходе давки на церковной службе в Анголе погибли 10 человек." | "1" |
"24" | "183" | "4297" | "Morgan Stanley взял на работу бывшего зампреда Банка России." | "Бывший глава ФСФР нашел работу в Morgan Stanley." | "1" |
"25" | "9" | "4119" | "Конгресс США утвердил план по предотвращению "фискального обрыва"." | "Палата представителей утвердила план предотвращения "фискального обрыва"." | "1" |
"26" | "116" | "4223" | "Счетная палата проверит Газпром на непрофильные активы." | "Счетная палата проверит "Газпром" впервые за пять лет." | "0" |
"27" | "10" | "4120" | "Новые комиксы о пророке Мухаммеде появились во Франции." | "Во Франции издали комикс по мотивам жизни пророка Мухаммада." | "1" |
"28" | "8" | "4121" | "Число убитых в ходе конфликта в Сирии превысило 60 тысяч." | "В ходе сирийского конфликта погибли 60 тысяч человек." | "0" |
"29" | "15" | "4122" | "В США скончалась звезда эстрады 1950-х Патти Пейдж." | "Скончалась американская певица Патти Пейдж." | "1" |
"30" | "13" | "4123" | "Сенат США единогласно осудил "закон Димы Яковлева"." | "Сенат США единогласно осудил запрет на усыновление." | "1" |
"31" | "241" | "4360" | "Госдума еще на шаг приблизила антитабачный закон." | "Госдума приняла антитабачный законопроект во втором чтении." | "0" |
"32" | "242" | "4360" | "ЛДПР: 80% жителей России поддерживают антитабачный закон." | "Госдума приняла антитабачный законопроект во втором чтении." | "-1" |
"34" | "186" | "4299" | "СК выяснит, был ли подкуп свидетеля по делу Ю.Буданова." | "СК проверит информацию о подкупе свидетеля по делу об убийстве Буданова." | "1" |
"35" | "182" | "4300" | "ЕБРР повысил прогноз роста экономики РФ в 2013г." | "ЕБРР повысил прогноз по росту экономики России." | "0" |
"36" | "14" | "4124" | "В Ватикане перестали принимать платежи банковскими картами." | "ЦБ Италии запретил платежи банковскими картами в Ватикане." | "1" |
"37" | "117" | "4224" | "В Германии начался процесс по делу российских шпионов - супругов Аншлаг." | "В Германии начался процесс над российскими шпионами." | "1" |
"38" | "190" | "4302" | "Глава управы района Северное Медведково задержан за взятку." | "Главу управы Северное Медведково поймали на взятке." | "1" |
"39" | "118" | "4225" | ""Болотное дело": в СКР на допрос ждут блогера Митю Алешковского." | "Митю Алешковского вызвали на допрос по "болотному делу"." | "1" |
"40" | "19" | "4125" | "США получат $1,4 млрд за аварию на нефтяной платформе в Мексиканском заливе." | "Владелец платформы Deepwater Horizon оштрафован на 1,4 миллиарда долларов." | "1" |
"41" | "21" | "4126" | "Корреспондента российского телеканала ранили в пригороде Дамаска." | "В Сирии ранили корреспондента российского телеканала." | "1" |
"42" | "20" | "4127" | "Взрыв на заправочной станции в Дамаске унес жизни 11 человек." | "При взрыве на автозаправке в Дамаске погибли 11 человек." | "1" |
"43" | "180" | "4303" | "В Эритрее произошла попытка государственного переворота." | "В Эритрее произошла попытка военного переворота." | "1" |
"44" | "17" | "4128" | "Старейший банк Швейцарии закрывается из-за американских клиентов." | "Старейший банк Швейцарии закрылся из-за иска властей США." | "0" |
"45" | "115" | "4226" | "Экономический ущерб от "арабской весны" составит $225 млрд." | "Оценку убытков от "арабской весны" повысили до 225 миллиардов долларов." | "1" |
"46" | "18" | "4129" | "Марокканские бедуины нашли в Сахаре уникальный марсианский метеорит." | "В Сахаре обнаружен рекордно влажный марсианский метеорит." | "0" |
"47" | "16" | "4130" | "Пошел на посадку: "АэроСвит" начал процедуру банкротства." | "Украинский суд начал процедуру банкротства компании "Аэросвит"." | "1" |
"48" | "258" | "4361" | "В египетский Суэц из-за беспорядков введены правительственные войска." | "В египетский Суэц ввели войска." | "0" |
"49" | "119" | "4227" | "РЖД подало иск о взыскании 2 млн рублей с Apple." | "РЖД через суд потребовали с Apple 2 миллиона рублей." | "1" |
"50" | "261" | "4362" | "Умер ветеран правозащитного движения В.Абрамкин." | "Умер ветеран правозащитного движения Валерий Абрамкин." | "1" |
"51" | "260" | "4363" | "В Египте приговорили к смерти участников погрома на стадионе в Порт-Саиде." | "В Египте вынесен смертный приговор за погром на стадионе." | "1" |
"52" | "257" | "4364" | "В египетский Порт-Саид вводят войска из-за разбушевавшихся фанатов." | "Египетская армия блокировала Порт-Саид." | "0" |
"53" | "259" | "4365" | "В Подмосковье накрыли сходку криминальных авторитетов." | "На сходке криминальных авторитетов в Подмосковье задержаны 23 человека." | "1" |
"54" | "262" | "4366" | "Пожар в новостройке на юго-западе Москвы: 10 погибших." | "В пожаре на юго-западе Москвы погибли 9 человек." | "0" |
"55" | "256" | "4367" | "Первый Patriot в Турции приведен в боевую готовность." | "Первая батарея Patriot заступила на боевое дежурство в Турции." | "1" |
"56" | "109" | "4228" | "Работа Генконсульства РФ в сирийском Алеппо временно приостановлена." | "РФ приостановила деятельность консульства в Алеппо." | "1" |
"57" | "265" | "4368" | "СМИ: Власти просят жителей Крымска вернуть часть компенсаций." | "От жителей Крымска потребовали вернуть часть материальной помощи." | "1" |
"58" | "268" | "4369" | "В главном здании МГУ загорелась столовая." | "Из главного здания МГУ эвакуированы около 300 человек." | "-1" |
"59" | "121" | "4229" | "Пропавший на Эльбрусе альпинист найден мертвым на высоте 5 км." | "На Эльбрусе нашли мертвым пропавшего московского альпиниста." | "1" |
"60" | "266" | "4370" | "В правительстве вновь высказались за муниципальный фильтр на выборах." | "Правительство выступило против отмены муниципального фильтра для парламентских партий." | "-1" |
"61" | "185" | "4304" | "РФ отправила за российскими гражданами в Сирию два самолета." | "МЧС отправляет два самолета для вывоза россиян из Сирии." | "1" |
"62" | "267" | "4371" | "При пожаре в ночном клубе в Бразилии погибли 245 человек." | "При пожаре в бразильском ночном клубе погибли 90 человек." | "0" |
"63" | "269" | "4371" | "При пожаре в ночном клубе в Бразилии погибли более 200 человек." | "При пожаре в бразильском ночном клубе погибли 90 человек." | "0" |
"64" | "264" | "4372" | "Главный "барометр" США отдает "Оскар" фильму "Операция "Арго"." | "Гильдия продюсеров США назвала «Операцию „Арго“» фильмом года." | "0" |
"65" | "190" | "4305" | "Глава управы района Северное Медведково задержан за взятку." | "Пойманного на взятке главу управы Северное Медведково уволили." | "-1" |
"66" | "263" | "4373" | "Премьер Эфиопии возглавил Африканский союз." | "Премьер-министр Эфиопии возглавил Африканский союз." | "1" |
"67" | "26" | "4131" | "Во Флориде самолет упал на дом: 3 погибших." | "Самолет упал на жилой дом во Флориде." | "0" |
"68" | "27" | "4132" | "Пожар в Покровской больнице: двое погибли, 50 — эвакуированы." | "Два человека погибли при пожаре в больнице в Санкт-Петербурге." | "0" |
"69" | "28" | "4133" | "В Альпах разбился снегоход с российскими туристами." | "Группа туристов разбилась на снегоходе в Альпах." | "1" |
"70" | "120" | "4230" | "Число погибших при взрыве в университете Алеппо превысило 80." | "В Университете Алеппо произошел взрыв." | "0" |
"71" | "24" | "4134" | "Генконсул РФ назвал имена россиян, погибших в Альпах." | "Стали известны имена погибших в Альпах россиян." | "1" |
"72" | "272" | "4374" | "Французские и малийские военнослужащие выбили исламистов из Тимбукту." | "Французские и малийские войска вошли в Тимбукту." | "1" |
"73" | "23" | "4135" | "У берегов Аляски произошло землетрясение магнитудой 7.5." | "У берегов Аляски произошло землетрясение магнитудой 7,7." | "0" |
"74" | "204" | "4306" | "Принц Гарри закончил военную службу в Афганистане." | "Британский принц Гарри завершил службу в Афганистане." | "1" |
"75" | "271" | "4375" | "Единоросс получил более 90% голосов на выборах мэра Кемерово." | "Единорос набрал 90 процентов голосов на выборах мэра Кемерово." | "1" |
"76" | "195" | "4307" | "В Мали режим чрезвычайного положения продлили на 3 месяца." | "Власти Мали продлили на три месяца режим чрезвычайного положения." | "1" |
"77" | "22" | "4136" | "Жерар Депардье прибыл в Сочи за российским паспортом." | "Депардье прилетел в Сочи за российским паспортом." | "1" |
"78" | "114" | "4231" | "Россия даст Бангладеш $500 млн на строительство первой в стране АЭС." | ""Росатом" назвал дату строительства АЭС в Бангладеш." | "-1" |
"79" | "276" | "4376" | "Бразилия скорбит по 233 жертвам пожара в клубе Kiss." | "В Бразилии объявили трехдневный траур по жертвам пожара в клубе." | "1" |
"80" | "32" | "4137" | "Режим ЧС введен в Якутии из-за нашествия волков." | "В Якутии ввели режим ЧС из-за волков." | "1" |
"81" | "31" | "4138" | "На трассе в Пермском крае в результате ДТП погибло 5 человек." | "В Колумбии в ДТП погибли 11 человек." | "-1" |
"82" | "29" | "4139" | "У гражданина Таджикистана в Москве изъяли 13 кг. героина." | "В Москве у таджика изъяли 13 килограммов героина." | "1" |
"83" | "200" | "4308" | "Pussy Riot сразятся за британскую премию с Rolling Stones и Д.Боуи." | "Pussy Riot выдвинуты на соискание премии NME." | "0" |
"84" | "281" | "4377" | "Шесть моряков с перевернувшегося в Японском море судна погибли." | "В Японском море найдены тела шести погибших моряков с «Шанса-101»." | "0" |
"85" | "203" | "4308" | "Группу Pussy Riot выдвинули на престижную британскую премию." | "Pussy Riot выдвинуты на соискание премии NME." | "0" |
"86" | "279" | "4378" | "Возбуждено уголовное дело о строительстве дороги к даче зятя А.Сердюкова." | "По факту строительства дороги к даче зятя Сердюкова возбудили дело." | "1" |
"87" | "30" | "4140" | "Скончалась старейшая жительница США." | "Скончался старейший гражданин США." | "0" |
"88" | "199" | "4309" | "McDonald’s заплатит штраф в $700 тыс. за продажу нехаляльного бургера." | "McDonald's согласился заплатить мусульманам 700 тысяч долларов." | "0" |
"89" | "277" | "4379" | "Минобрнауки предлагает выплачивать усыновителям инвалидов 100 тыс. руб." | "Минобрнауки предложило увеличить выплаты усыновителям инвалидов." | "1" |
"90" | "210" | "4310" | "КамАЗ оставил без газа более 20 тыс. человек в Грозном." | "В Грозном «КамАЗ» оставил без газа более 20 тысяч человек." | "1" |
"91" | "37" | "4141" | "Боевики на Северном Кавказе готовили теракты на Рождество." | "Убитые в Кабардино-Балкарии боевики готовили серию терактов на Рождество." | "0" |
"92" | "34" | "4142" | "Хиллари Клинтон возвращается к работе после болезни." | "Хиллари Клинтон вернулась на работу." | "1" |
"93" | "209" | "4311" | "В Подмосковье маршрутка попала в ДТП: 5 пострадавших." | "В ДТП с маршруткой в Подмосковье пострадали 10 человек." | "0" |
"95" | "108" | "4233" | "Президент присвоил главе ФМС ранг министра." | "Глава ФМС стал федеральным министром." | "1" |
"96" | "275" | "4380" | "В Киргизии ужесточили наказание за кражу невест." | "В Киргизии увеличили срок заключения за кражу невест." | "1" |
"97" | "198" | "4312" | "В московском метро появятся киоски-сталинки." | "В московском метро появятся киоски в стиле сталинского ампира." | "1" |
"98" | "35" | "4144" | "Дворник лопатой сломал московскому школьнику челюсть." | "Московский дворник сломал школьнику челюсть за брошенный снежок." | "1" |
"99" | "33" | "4145" | "Барак Обама определился с кандидатурой на пост главы ЦРУ." | "Обама нашел кандидата на пост главы ЦРУ." | "1" |
"100" | "36" | "4146" | "Пожар в колонии в Вологодской области унес жизни 3 заключенных." | "При пожаре в вологодской колонии погибли трое заключенных." | "1" |
"101" | "39" | "4146" | "Пожар в колонии в Вологодской обл.: есть погибшие." | "При пожаре в вологодской колонии погибли трое заключенных." | "1" |
"102" | "45" | "4147" | "Авиакатастрофа в Перу унесла жизни семи человек." | "При крушении вертолета в Перу погибли семь человек." | "1" |
ParaPhraser is a news headlines corpus annotated according to the following schema:
1: precise paraphrases
0: near paraphrases
-1: non-paraphrases
The Plus part is also available.
It contains clusters of news headline paraphrases labeled automatically by a fine-tuned paraphrase detection BERT model.
In order to load it:
from datasets import load_dataset
corpus = load_dataset('merionum/ru_paraphraser', data_files='plus.jsonl')
train: 7,227 pairs
test: 1,924 pairs
plus: 1,725,393 clusters (total: ~7m texts)
@inproceedings{pivovarova2017paraphraser,
title={ParaPhraser: Russian paraphrase corpus and shared task},
author={Pivovarova, Lidia and Pronoza, Ekaterina and Yagunova, Elena and Pronoza, Anton},
booktitle={Conference on artificial intelligence and natural language},
pages={211--225},
year={2017},
organization={Springer}
}
@inproceedings{gudkov-etal-2020-automatically,
title = "Automatically Ranked {R}ussian Paraphrase Corpus for Text Generation",
author = "Gudkov, Vadim and
Mitrofanova, Olga and
Filippskikh, Elizaveta",
booktitle = "Proceedings of the Fourth Workshop on Neural Generation and Translation",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.ngt-1.6",
doi = "10.18653/v1/2020.ngt-1.6",
pages = "54--59",
abstract = "The article is focused on automatic development and ranking of a large corpus for Russian paraphrase generation which proves to be the first corpus of such type in Russian computational linguistics. Existing manually annotated paraphrase datasets for Russian are limited to small-sized ParaPhraser corpus and ParaPlag which are suitable for a set of NLP tasks, such as paraphrase and plagiarism detection, sentence similarity and relatedness estimation, etc. Due to size restrictions, these datasets can hardly be applied in end-to-end text generation solutions. Meanwhile, paraphrase generation requires a large amount of training data. In our study we propose a solution to the problem: we collect, rank and evaluate a new publicly available headline paraphrase corpus (ParaPhraser Plus), and then perform text generation experiments with manual evaluation on automatically ranked corpora using the Universal Transformer architecture.",
}
Dataset maintainer: Vadim Gudkov: @merionum