XZise has uploaded a new change for review.
https://gerrit.wikimedia.org/r/186962
Change subject: [IMPROV] Use unicode_literals in fixes
......................................................................
[IMPROV] Use unicode_literals in fixes
This uses unicode_literals in fixes.py and thus removes the need to u'…'
strings which is especially problematic when this is required in
raw-strings. Also use the unicode characters directly (instead of their
codepoints). It also removes the escape character before periods inside
of character classes.
Change-Id: I9012bc63ff0a8b82b28d05fbeb439fa28c46fce0
---
M pywikibot/fixes.py
1 file changed, 270 insertions(+), 278 deletions(-)
git pull ssh://gerrit.wikimedia.org:29418/pywikibot/core
refs/changes/62/186962/1
diff --git a/pywikibot/fixes.py b/pywikibot/fixes.py
index 3261004..b258eb8 100644
--- a/pywikibot/fixes.py
+++ b/pywikibot/fixes.py
@@ -5,6 +5,8 @@
#
# Distributed under the terms of the MIT license.
#
+from __future__ import unicode_literals
+
__version__ = '$Id$'
parameter_help = u"""
@@ -41,27 +43,27 @@
'HTML': {
'regex': True,
'msg': {
- 'ar': u'روبوت: تحويل/تصليح HTML',
- 'be': u'Бот: карэкцыя HTML',
- 'cs': u'převod/oprava HTML',
- 'en': u'Robot: Converting/fixing HTML',
- 'eo': u'Bot: koredtado de HTMLa teksto',
- 'fa': u'ربات:تبدیل/تصحیح کدهای اچتیامال',
- 'de': u'Bot: konvertiere/korrigiere HTML',
- 'fr': u'Robot: convertit/fixe HTML',
- 'he': u'בוט: ממיר/מתקן HTML',
- 'ja': u'ロボットによる: HTML転換',
- 'ksh': u'Bot: vun HTML en Wikikood wandelle',
- 'ia': u'Robot: conversion/reparation de HTML',
- 'lt': u'robotas: konvertuojamas/taisomas HTML',
- 'nl': u'Bot: conversie/reparatie HTML',
- 'pl': u'Robot konwertuje/naprawia HTML',
- 'pt': u'Bot: Corrigindo HTML',
- 'ru': u'Бот: коррекция HTML',
- 'sr': u'Бот: Поправка HTML-а',
- 'sv': u'Bot: Konverterar/korrigerar HTML',
- 'uk': u'Бот: корекцiя HTML',
- 'zh': u'機器人: 轉換HTML',
+ 'ar': 'روبوت: تحويل/تصليح HTML',
+ 'be': 'Бот: карэкцыя HTML',
+ 'cs': 'převod/oprava HTML',
+ 'en': 'Robot: Converting/fixing HTML',
+ 'eo': 'Bot: koredtado de HTMLa teksto',
+ 'fa': 'ربات:تبدیل/تصحیح کدهای اچتیامال',
+ 'de': 'Bot: konvertiere/korrigiere HTML',
+ 'fr': 'Robot: convertit/fixe HTML',
+ 'he': 'בוט: ממיר/מתקן HTML',
+ 'ja': 'ロボットによる: HTML転換',
+ 'ksh': 'Bot: vun HTML en Wikikood wandelle',
+ 'ia': 'Robot: conversion/reparation de HTML',
+ 'lt': 'robotas: konvertuojamas/taisomas HTML',
+ 'nl': 'Bot: conversie/reparatie HTML',
+ 'pl': 'Robot konwertuje/naprawia HTML',
+ 'pt': 'Bot: Corrigindo HTML',
+ 'ru': 'Бот: коррекция HTML',
+ 'sr': 'Бот: Поправка HTML-а',
+ 'sv': 'Bot: Konverterar/korrigerar HTML',
+ 'uk': 'Бот: корекцiя HTML',
+ 'zh': '機器人: 轉換HTML',
},
'replacements': [
# Everything case-insensitive (?i)
@@ -106,37 +108,37 @@
'grammar-de': {
'regex': True,
'msg': {
- 'de': u'Bot: korrigiere Grammatik',
+ 'de': 'Bot: korrigiere Grammatik',
},
'replacements': [
- # (u'([Ss]owohl) ([^,\.]+?), als auch', r'\1 \2 als auch'),
- # (u'([Ww]eder) ([^,\.]+?), noch', r'\1 \2 noch'),
+ # ('([Ss]owohl) ([^,.]+?), als auch', r'\1 \2 als auch'),
+ # ('([Ww]eder) ([^,.]+?), noch', r'\1 \2 noch'),
#
# Vorsicht bei Substantiven, z. B. 3-Jähriger!
- (u'(\d+)(minütig|stündig|tägig|wöchig|jährig|minütlich|stündlich'
- u'|täglich|wöchentlich|jährlich|fach|mal|malig|köpfig|teilig'
- u'|gliedrig|geteilt|elementig|dimensional|bändig|eckig|farbig'
- u'|stimmig)', r'\1-\2'),
+ (r'(\d+)(minütig|stündig|tägig|wöchig|jährig|minütlich|stündlich'
+ r'|täglich|wöchentlich|jährlich|fach|mal|malig|köpfig|teilig'
+ r'|gliedrig|geteilt|elementig|dimensional|bändig|eckig|farbig'
+ r'|stimmig)', r'\1-\2'),
# zusammengesetztes Wort, Bindestrich wird durchgeschleift
- (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min'
- u'|µm|mm|cm|dm|m|km|ha|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|kcal'
- u'|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])',
r'\1-\2\3'),
+ (r'(?<!\w)(\d+|\d+[.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min'
+ r'|µm|mm|cm|dm|m|km|ha|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|kcal'
+ r'|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)([²³]?-[\w\[])',
r'\1-\2\3'),
# Größenangabe ohne Leerzeichen vor Einheit
# weggelassen wegen vieler falsch Positiver: s, A, V, C, S, J, %
- (u'(?<!\w)(\d+|\d+[\.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min'
- u'|µm|mm|cm|dm|m|km|ha|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|kcal'
- u'|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1
\2'),
+ (r'(?<!\w)(\d+|\d+[.,]\d+)(\$|€|DM|£|¥|mg|g|kg|ml|cl|l|t|ms|min'
+ r'|µm|mm|cm|dm|m|km|ha|°C|kB|MB|GB|TB|W|kW|MW|GW|PS|Nm|eV|kcal'
+ r'|mA|mV|kV|Ω|Hz|kHz|MHz|GHz|mol|Pa|Bq|Sv|mSv)(?=\W|²|³|$)', r'\1
\2'),
# Temperaturangabe mit falsch gesetztem Leerzeichen
- (u'(?<!\w)(\d+|\d+[\.,]\d+)° C(?=\W|²|³|$)', r'\1' + u' °C'),
+ (r'(?<!\w)(\d+|\d+[.,]\d+)° C(?=\W|²|³|$)', r'\1 °C'),
# Kein Leerzeichen nach Komma
- (u'([a-zäöüß](\]\])?,)((\[\[)?[a-zäöüA-ZÄÖÜ])', r'\1 \3'),
+ (r'([a-zäöüß](\]\])?,)((\[\[)?[a-zäöüA-ZÄÖÜ])', r'\1 \3'),
# Leerzeichen und Komma vertauscht
- (u'([a-zäöüß](\]\])?) ,((\[\[)?[a-zäöüA-ZÄÖÜ])', r'\1, \3'),
+ (r'([a-zäöüß](\]\])?) ,((\[\[)?[a-zäöüA-ZÄÖÜ])', r'\1, \3'),
# Plenks (d. h. Leerzeichen auch vor dem
Komma/Punkt/Ausrufezeichen/Fragezeichen)
# Achtung bei Französisch:
https://de.wikipedia.org/wiki/Plenk#Sonderfall_Franz.C3.B6sisch
# Leerzeichen vor Doppelpunkt/Semikolon kann korrekt sein, nach
irgendeiner Norm für Zitationen.
- (u'([a-zäöüß](\]\])?) ([,\.!\?]) ((\[\[)?[a-zäöüA-ZÄÖÜ])', r'\1\3
\4'),
- # (u'([a-z]\.)([A-Z])', r'\1 \2'),
+ (r'([a-zäöüß](\]\])?) ([,.!?]) ((\[\[)?[a-zäöüA-ZÄÖÜ])', r'\1\3
\4'),
+ # ('([a-z]\.)([A-Z])', r'\1 \2'),
],
'exceptions': {
'inside-tags': [
@@ -157,8 +159,8 @@
'inside': [
r'<code>.*</code>', # because of code examples
r'{{[Zz]itat\|.*?}}',
- r'{{' + u'§' + r'\|.*?}}', # Gesetzesparagraph
- u'§' + r'?\d+[a-z]', # Gesetzesparagraph
+ r'{{§\|.*?}}', # Gesetzesparagraph
+ r'§?\d+[a-z]', # Gesetzesparagraph
r'Ju 52/1m', # Flugzeugbezeichnung
r'Ju 52/3m', # Flugzeugbezeichnung
r'AH-1W', # Hubschrauberbezeichnung
@@ -193,25 +195,25 @@
'syntax': {
'regex': True,
'msg': {
- 'ar': u'بوت: تصليح تهيئة الويكي',
- 'be': u'Бот: Карэкцыя вiкi-сiнтаксiсу',
- 'cs': u'Oprava wikisyntaxe',
- 'de': u'Bot: Korrigiere Wiki-Syntax',
- 'en': u'Robot: Fixing wiki syntax',
- 'eo': u'Bot: Korektado de vikia sintakso',
- 'fa': u'ربات:تصحیح قالب ویکینویسی',
- 'fr': u'Bot: Corrige wiki-syntaxe',
- 'he': u'בוט: מתקן תחביר ויקי',
- 'ia': u'Robot: Reparation de syntaxe wiki',
- 'ja': u'ロボットによる: wiki構文修正',
- 'lt': u'robotas: Taisoma wiki sintaksė',
- 'nl': u'Bot: reparatie wikisyntaxis',
- 'pl': u'Robot poprawia wiki-składnię',
- 'pt': u'Bot: Corrigindo sintaxe wiki',
- 'ru': u'Бот: Коррекция вики синтаксиса',
- 'sr': u'Бот: Поправка вики синтаксе',
- 'uk': u'Бот: Корекцiя вiкi-синтаксису',
- 'zh': u'機器人: 修正wiki語法',
+ 'ar': 'بوت: تصليح تهيئة الويكي',
+ 'be': 'Бот: Карэкцыя вiкi-сiнтаксiсу',
+ 'cs': 'Oprava wikisyntaxe',
+ 'de': 'Bot: Korrigiere Wiki-Syntax',
+ 'en': 'Robot: Fixing wiki syntax',
+ 'eo': 'Bot: Korektado de vikia sintakso',
+ 'fa': 'ربات:تصحیح قالب ویکینویسی',
+ 'fr': 'Bot: Corrige wiki-syntaxe',
+ 'he': 'בוט: מתקן תחביר ויקי',
+ 'ia': 'Robot: Reparation de syntaxe wiki',
+ 'ja': 'ロボットによる: wiki構文修正',
+ 'lt': 'robotas: Taisoma wiki sintaksė',
+ 'nl': 'Bot: reparatie wikisyntaxis',
+ 'pl': 'Robot poprawia wiki-składnię',
+ 'pt': 'Bot: Corrigindo sintaxe wiki',
+ 'ru': 'Бот: Коррекция вики синтаксиса',
+ 'sr': 'Бот: Поправка вики синтаксе',
+ 'uk': 'Бот: Корекцiя вiкi-синтаксису',
+ 'zh': '機器人: 修正wiki語法',
},
'replacements': [
# external link in double brackets
@@ -269,25 +271,25 @@
'syntax-safe': {
'regex': True,
'msg': {
- 'ar': u'بوت: تصليح تهيئة الويكي',
- 'be': u'Бот: Карэкцыя вiкi-сiнтаксiсу',
- 'cs': u'Oprava wikisyntaxe',
- 'de': u'Bot: Korrigiere Wiki-Syntax',
- 'en': u'Robot: Fixing wiki syntax',
- 'eo': u'Bot: Korektado de vikia sintakso',
- 'fa': u'ربات:تصحیح قالب ویکینویسی',
- 'fr': u'Bot: Corrige wiki-syntaxe',
- 'he': u'בוט: מתקן תחביר ויקי',
- 'ia': u'Robot: Reparation de syntaxe wiki',
- 'ja': u'ロボットによる: wiki構文修正',
- 'lt': u'robotas: Taisoma wiki sintaksė',
- 'nl': u'Bot: reparatie wikisyntaxis',
- 'pl': u'Robot poprawia wiki-składnię',
- 'pt': u'Bot: Corrigindo sintaxe wiki',
- 'ru': u'Бот: Коррекция вики синтаксиса',
- 'sr': u'Бот: Поправка вики синтаксе',
- 'uk': u'Бот: Корекцiя вiкi-синтаксису',
- 'zh': u'機器人: 修正wiki語法',
+ 'ar': 'بوت: تصليح تهيئة الويكي',
+ 'be': 'Бот: Карэкцыя вiкi-сiнтаксiсу',
+ 'cs': 'Oprava wikisyntaxe',
+ 'de': 'Bot: Korrigiere Wiki-Syntax',
+ 'en': 'Robot: Fixing wiki syntax',
+ 'eo': 'Bot: Korektado de vikia sintakso',
+ 'fa': 'ربات:تصحیح قالب ویکینویسی',
+ 'fr': 'Bot: Corrige wiki-syntaxe',
+ 'he': 'בוט: מתקן תחביר ויקי',
+ 'ia': 'Robot: Reparation de syntaxe wiki',
+ 'ja': 'ロボットによる: wiki構文修正',
+ 'lt': 'robotas: Taisoma wiki sintaksė',
+ 'nl': 'Bot: reparatie wikisyntaxis',
+ 'pl': 'Robot poprawia wiki-składnię',
+ 'pt': 'Bot: Corrigindo sintaxe wiki',
+ 'ru': 'Бот: Коррекция вики синтаксиса',
+ 'sr': 'Бот: Поправка вики синтаксе',
+ 'uk': 'Бот: Корекцiя вiкi-синтаксису',
+ 'zh': '機器人: 修正wiki語法',
},
'replacements': [
# external link in double brackets
@@ -321,7 +323,7 @@
'case-de': { # German upper / lower case issues
'regex': True,
'msg': {
- 'de': u'Bot: Korrigiere Groß-/Kleinschreibung',
+ 'de': 'Bot: Korrigiere Groß-/Kleinschreibung',
},
'replacements': [
(r'\batlantische(r|n|) Ozean', r'Atlantische\1 Ozean'),
@@ -357,11 +359,11 @@
'vonbis': {
'regex': True,
'msg': {
- 'de': u'Bot: Ersetze Binde-/Gedankenstrich durch "bis"',
+ 'de': 'Bot: Ersetze Binde-/Gedankenstrich durch "bis"',
},
'replacements': [
# Bindestrich, Gedankenstrich, Geviertstrich
- (u'(von \d{3,4}) *(-|–|–|—|—) *(\d{3,4})', r'\1 bis
\3'),
+ (r'(von \d{3,4}) *(-|–|–|—|—) *(\d{3,4})', r'\1 bis
\3'),
],
},
@@ -370,14 +372,14 @@
'music': {
'regex': False,
'msg': {
- 'de': u'Bot: korrigiere Links auf Begriffsklärungen',
+ 'de': 'Bot: korrigiere Links auf Begriffsklärungen',
},
'replacements': [
- (u'[[CD]]', u'[[Audio-CD|CD]]'),
- (u'[[LP]]', u'[[Langspielplatte|LP]]'),
- (u'[[EP]]', u'[[Extended Play|EP]]'),
- (u'[[MC]]', u'[[Musikkassette|MC]]'),
- (u'[[Single]]', u'[[Single (Musik)|Single]]'),
+ ('[[CD]]', '[[Audio-CD|CD]]'),
+ ('[[LP]]', '[[Langspielplatte|LP]]'),
+ ('[[EP]]', '[[Extended Play|EP]]'),
+ ('[[MC]]', '[[Musikkassette|MC]]'),
+ ('[[Single]]', '[[Single (Musik)|Single]]'),
],
'exceptions': {
'inside-tags': [
@@ -391,30 +393,30 @@
'datum': {
'regex': True,
'msg': {
- 'de': u'Bot: Korrigiere Datumsformat',
+ 'de': 'Bot: Korrigiere Datumsformat',
},
'replacements': [
# space after birth sign w/ year
- # (u'\(\*(\d{3,4})', u'(* \\1'),
+ # (r'\(\*(\d{3,4})', r'(* \\1'),
# space after death sign w/ year
- # (u'†(\d{3,4})', u'† \\1'),
- # (u'†(\d{3,4})', u'† \\1'),
+ # (r'†(\d{3,4})', r'† \\1'),
+ # (r'†(\d{3,4})', r'† \\1'),
# space after birth sign w/ linked date
- # (u'\(\*\[\[(\d)', u'(* [[\\1'),
+ # (r'\(\*\[\[(\d)', r'(* [[\\1'),
# space after death sign w/ linked date
- # (u'†\[\[(\d)', u'† [[\\1'),
- # (u'†\[\[(\d)', u'† [[\\1'),
- (u'\[\[(\d+\. (?:Januar|Februar|März|April|Mai|Juni|Juli|August|'
- u'September|Oktober|November|Dezember)) (\d{1,4})\]\]', u'[[\\1]]
[[\\2]]'),
+ # (r'†\[\[(\d)', r'† [[\\1'),
+ # (r'†\[\[(\d)', r'† [[\\1'),
+ (r'\[\[(\d+\. (?:Januar|Februar|März|April|Mai|Juni|Juli|August|'
+ r'September|Oktober|November|Dezember)) (\d{1,4})\]\]', r'[[\1]]
[[\2]]'),
# Keine führende Null beim Datum (ersteinmal nur bei denen, bei
denen auch ein Leerzeichen fehlt)
- (u'0(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|'
- u'September|Oktober|November|Dezember)', r'\1. \2'),
+ (r'0(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|'
+ r'September|Oktober|November|Dezember)', r'\1. \2'),
# Kein Leerzeichen zwischen Tag und Monat
- (u'(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|'
- u'September|Oktober|November|Dezember)', r'\1. \2'),
+ (r'(\d+)\.(Januar|Februar|März|April|Mai|Juni|Juli|August|'
+ r'September|Oktober|November|Dezember)', r'\1. \2'),
# Kein Punkt vorm Jahr
- (u'(\d+)\. (Januar|Februar|März|April|Mai|Juni|Juli|August|'
- u'September|Oktober|November|Dezember)\.(\d{1,4})', r'\1. \2 \3'),
+ (r'(\d+)\. (Januar|Februar|März|April|Mai|Juni|Juli|August|'
+ r'September|Oktober|November|Dezember)\.(\d{1,4})', r'\1. \2 \3'),
],
'exceptions': {
'inside': [
@@ -439,22 +441,12 @@
# hyphen-minus as separator, or spaces between digits and
separators.
# Note that these regular expressions also match valid ISBNs, but
# these won't be changed.
-
- # NOTE
- # The following regexps are in u'...' format because Python 3.3
does not support
- # ur'...' strings. They have been converted by copy-pasting them
to Python 2.7
- # and copying back the results.
-
- # ur'ISBN (978|979) *[\- −\.‐-―] *(\d+) *[\- −\.‐-―] *(\d+) *[\-
−\.‐-―] *(\d+) *[\- −\.‐-―] *(\d)(?!\d)'
- (u'ISBN (978|979) *[\\- \u2212\\.\u2010-\u2015] *(\\d+) *[\\- '
- u'\u2212\\.\u2010-\u2015] *(\\d+) *[\\- \u2212\\.\u2010-\u2015] '
- u'*(\\d+) *[\\- \u2212\\.\u2010-\u2015] *(\\d)(?!\\d)',
+ (r'ISBN (978|979) *[\- −.‐-―] *(\d+) *[\- −.‐-―] *(\d+) '
+ r'*[\- −.‐-―] *(\d+) *[\- −.‐-―] *(\d)(?!\d)',
r'ISBN \1-\2-\3-\4-\5'), # ISBN-13
- # ur'ISBN (\d+) *[\- −\.‐-―] *(\d+) *[\- −\.‐-―] *(\d+) *[\-
−\.‐-―] *(\d|X|x)(?!\d)'
- (u'ISBN (\\d+) *[\\- \u2212\\.\u2010-\u2015] *(\\d+) *[\\- '
- u'\u2212\\.\u2010-\u2015] *(\\d+) *[\\- \u2212\\.\u2010-\u2015] '
- '*(\\d|X|x)(?!\\d)', r'ISBN \1-\2-\3-\4'), # ISBN-10
+ (r'ISBN (\d+) *[\- −.‐-―] *(\d+) *[\- −.‐-―] *(\d+) *[\- −.‐-―]
*(\d|X|x)(?!\d)',
+ r'ISBN \1-\2-\3-\4'), # ISBN-10
# missing space before ISBN-10 or before ISBN-13,
# or non-breaking space.
(r'ISBN(| | )((\d(-?)){12}\d|(\d(-?)){9}[\dXx])', r'ISBN \2'),
@@ -477,102 +469,102 @@
'correct-ar': {
'regex': True,
'msg': {
- 'ar': u'تدقيق إملائي',
+ 'ar': 'تدقيق إملائي',
},
'replacements': [
# FIXME: Do not replace comma in non-Arabic text,
# interwiki, image links or <math> syntax.
- # (u' ,', u' ،'),
- (r'\b' + u'إمرأة' + r'\b', u'امرأة'),
- (r'\b' + u'الى' + r'\b', u'إلى'),
- (r'\b' + u'إسم' + r'\b', u'اسم'),
- (r'\b' + u'الأن' + r'\b', u'الآن'),
- (r'\b' + u'الة' + r'\b', u'آلة'),
- (r'\b' + u'فى' + r'\b', u'في'),
- (r'\b' + u'إبن' + r'\b', u'ابن'),
- (r'\b' + u'إبنة' + r'\b', u'ابنة'),
- (r'\b' + u'إقتصاد' + r'\b', u'اقتصاد'),
- (r'\b' + u'إجتماع' + r'\b', u'اجتماع'),
- (r'\b' + u'انجيل' + r'\b', u'إنجيل'),
- (r'\b' + u'اجماع' + r'\b', u'إجماع'),
- (r'\b' + u'اكتوبر' + r'\b', u'أكتوبر'),
- (r'\b' + u'إستخراج' + r'\b', u'استخراج'),
- (r'\b' + u'إستعمال' + r'\b', u'استعمال'),
- (r'\b' + u'إستبدال' + r'\b', u'استبدال'),
- (r'\b' + u'إشتراك' + r'\b', u'اشتراك'),
- (r'\b' + u'إستعادة' + r'\b', u'استعادة'),
- (r'\b' + u'إستقلال' + r'\b', u'استقلال'),
- (r'\b' + u'إنتقال' + r'\b', u'انتقال'),
- (r'\b' + u'إتحاد' + r'\b', u'اتحاد'),
- (r'\b' + u'املاء' + r'\b', u'إملاء'),
- (r'\b' + u'إستخدام' + r'\b', u'استخدام'),
- (r'\b' + u'أحدى' + r'\b', u'إحدى'),
- (r'\b' + u'لاكن' + r'\b', u'لكن'),
- (r'\b' + u'إثنان' + r'\b', u'اثنان'),
- (r'\b' + u'إحتياط' + r'\b', u'احتياط'),
- (r'\b' + u'إقتباس' + r'\b', u'اقتباس'),
- (r'\b' + u'ادارة' + r'\b', u'إدارة'),
- (r'\b' + u'ابناء' + r'\b', u'أبناء'),
- (r'\b' + u'الانصار' + r'\b', u'الأنصار'),
- (r'\b' + u'اشارة' + r'\b', u'إشارة'),
- (r'\b' + u'إقرأ' + r'\b', u'اقرأ'),
- (r'\b' + u'إمتياز' + r'\b', u'امتياز'),
- (r'\b' + u'ارق' + r'\b', u'أرق'),
- (r'\b' + u'اللة' + r'\b', u'الله'),
- (r'\b' + u'إختبار' + r'\b', u'اختبار'),
- (u'==[ ]?روابط خارجية[ ]?==', u'== وصلات خارجية =='),
- (r'\b' + u'ارسال' + r'\b', u'إرسال'),
- (r'\b' + u'إتصالات' + r'\b', u'اتصالات'),
- (r'\b' + u'ابو' + r'\b', u'أبو'),
- (r'\b' + u'ابا' + r'\b', u'أبا'),
- (r'\b' + u'اخو' + r'\b', u'أخو'),
- (r'\b' + u'اخا' + r'\b', u'أخا'),
- (r'\b' + u'اخي' + r'\b', u'أخي'),
- (r'\b' + u'احد' + r'\b', u'أحد'),
- (r'\b' + u'اربعاء' + r'\b', u'أربعاء'),
- (r'\b' + u'اول' + r'\b', u'أول'),
- (r'\b' + u'(ال|)اهم' + r'\b', u'\\1أهم'),
- (r'\b' + u'(ال|)اثقل' + r'\b', u'\\1أثقل'),
- (r'\b' + u'(ال|)امجد' + r'\b', u'\\1أمجد'),
- (r'\b' + u'(ال|)اوسط' + r'\b', u'\\1أوسط'),
- (r'\b' + u'(ال|)اشقر' + r'\b', u'\\1أشقر'),
- (r'\b' + u'(ال|)انور' + r'\b', u'\\1أنور'),
- (r'\b' + u'(ال|)اصعب' + r'\b', u'\\1أصعب'),
- (r'\b' + u'(ال|)اسهل' + r'\b', u'\\1أسهل'),
- (r'\b' + u'(ال|)اجمل' + r'\b', u'\\1أجمل'),
- (r'\b' + u'(ال|)اقبح' + r'\b', u'\\1أقبح'),
- (r'\b' + u'(ال|)اطول' + r'\b', u'\\1أطول'),
- (r'\b' + u'(ال|)اقصر' + r'\b', u'\\1أقصر'),
- (r'\b' + u'(ال|)اسمن' + r'\b', u'\\1أسمن'),
- (r'\b' + u'(ال|)اذكى' + r'\b', u'\\1أذكى'),
- (r'\b' + u'(ال|)اكثر' + r'\b', u'\\1أكثر'),
- (r'\b' + u'(ال|)افضل' + r'\b', u'\\1أفضل'),
- (r'\b' + u'(ال|)اكبر' + r'\b', u'\\1أكبر'),
- (r'\b' + u'(ال|)اشهر' + r'\b', u'\\1أشهر'),
- (r'\b' + u'(ال|)ابطأ' + r'\b', u'\\1أبطأ'),
- (r'\b' + u'(ال|)اماني' + r'\b', u'\\1أماني'),
- (r'\b' + u'(ال|)احلام' + r'\b', u'\\1أحلام'),
- (r'\b' + u'(ال|)اسماء' + r'\b', u'\\1أسماء'),
- (r'\b' + u'(ال|)اسامة' + r'\b', u'\\1أسامة'),
- (r'\b' + u'ابراهيم' + r'\b', u'إبراهيم'),
- (r'\b' + u'اسماعيل' + r'\b', u'إسماعيل'),
- (r'\b' + u'ايوب' + r'\b', u'أيوب'),
- (r'\b' + u'ايمن' + r'\b', u'أيمن'),
- (r'\b' + u'اوزبكستان' + r'\b', u'أوزبكستان'),
- (r'\b' + u'اذربيجان' + r'\b', u'أذربيجان'),
- (r'\b' + u'افغانستان' + r'\b', u'أفغانستان'),
- (r'\b' + u'انجلترا' + r'\b', u'إنجلترا'),
- (r'\b' + u'ايطاليا' + r'\b', u'إيطاليا'),
- (r'\b' + u'اوربا' + r'\b', u'أوروبا'),
- (r'\b' + u'أوربا' + r'\b', u'أوروبا'),
- (r'\b' + u'اوغندة' + r'\b', u'أوغندة'),
- (r'\b' + u'(ال|)ا(لماني|فريقي|سترالي)(ا|ة|تان|ان|ين|ي|ون|و|ات|)' +
r'\b', u'\\1أ\\2\\3'),
- (r'\b' + u'(ال|)ا(وروب|مريك)(ا|ي|ية|يتان|يان|يين|يي|يون|يو|يات|)'
+ r'\b', u'\\1أ\\2\\3'),
- (r'\b' +
u'(ال|)ا(ردن|رجنتين|وغند|سبان|وكران|فغان)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)' +
r'\b', u'\\1أ\\2\\3'),
- (r'\b' +
u'(ال|)ا(سرائيل|يران|مارات|نكليز|نجليز)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)' +
r'\b', u'\\1إ\\2\\3'),
- (r'\b' +
u'(ال|)(ا|أ)(رثوذكس|رثوذوكس)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)' + r'\b',
u'\\1أرثوذكس\\4'),
- (r'\b' +
u'إست(عمل|خدم|مر|مد|مال|عاض|قام|حال|جاب|قال|زاد|عان|طال)(ت|ا|وا|)' + r'\b',
u'است\\1\\2'),
- (r'\b' + u'إست(حال|قال|طال|زاد|عان|قام|راح|جاب|عاض|مال)ة' + r'\b',
u'است\\1ة'),
+ # (' ,', ' ،'),
+ (r'\bإمرأة\b', 'امرأة'),
+ (r'\bالى\b', 'إلى'),
+ (r'\bإسم\b', 'اسم'),
+ (r'\bالأن\b', 'الآن'),
+ (r'\bالة\b', 'آلة'),
+ (r'\bفى\b', 'في'),
+ (r'\bإبن\b', 'ابن'),
+ (r'\bإبنة\b', 'ابنة'),
+ (r'\bإقتصاد\b', 'اقتصاد'),
+ (r'\bإجتماع\b', 'اجتماع'),
+ (r'\bانجيل\b', 'إنجيل'),
+ (r'\bاجماع\b', 'إجماع'),
+ (r'\bاكتوبر\b', 'أكتوبر'),
+ (r'\bإستخراج\b', 'استخراج'),
+ (r'\bإستعمال\b', 'استعمال'),
+ (r'\bإستبدال\b', 'استبدال'),
+ (r'\bإشتراك\b', 'اشتراك'),
+ (r'\bإستعادة\b', 'استعادة'),
+ (r'\bإستقلال\b', 'استقلال'),
+ (r'\bإنتقال\b', 'انتقال'),
+ (r'\bإتحاد\b', 'اتحاد'),
+ (r'\bاملاء\b', 'إملاء'),
+ (r'\bإستخدام\b', 'استخدام'),
+ (r'\bأحدى\b', 'إحدى'),
+ (r'\bلاكن\b', 'لكن'),
+ (r'\bإثنان\b', 'اثنان'),
+ (r'\bإحتياط\b', 'احتياط'),
+ (r'\bإقتباس\b', 'اقتباس'),
+ (r'\bادارة\b', 'إدارة'),
+ (r'\bابناء\b', 'أبناء'),
+ (r'\bالانصار\b', 'الأنصار'),
+ (r'\bاشارة\b', 'إشارة'),
+ (r'\bإقرأ\b', 'اقرأ'),
+ (r'\bإمتياز\b', 'امتياز'),
+ (r'\bارق\b', 'أرق'),
+ (r'\bاللة\b', 'الله'),
+ (r'\bإختبار\b', 'اختبار'),
+ ('== ?روابط خارجية ?==', '== وصلات خارجية =='),
+ (r'\bارسال\b', 'إرسال'),
+ (r'\bإتصالات\b', 'اتصالات'),
+ (r'\bابو\b', 'أبو'),
+ (r'\bابا\b', 'أبا'),
+ (r'\bاخو\b', 'أخو'),
+ (r'\bاخا\b', 'أخا'),
+ (r'\bاخي\b', 'أخي'),
+ (r'\bاحد\b', 'أحد'),
+ (r'\bاربعاء\b', 'أربعاء'),
+ (r'\bاول\b', 'أول'),
+ (r'\b(ال|)اهم\b', r'\1أهم'),
+ (r'\b(ال|)اثقل\b', r'\1أثقل'),
+ (r'\b(ال|)امجد\b', r'\1أمجد'),
+ (r'\b(ال|)اوسط\b', r'\1أوسط'),
+ (r'\b(ال|)اشقر\b', r'\1أشقر'),
+ (r'\b(ال|)انور\b', r'\1أنور'),
+ (r'\b(ال|)اصعب\b', r'\1أصعب'),
+ (r'\b(ال|)اسهل\b', r'\1أسهل'),
+ (r'\b(ال|)اجمل\b', r'\1أجمل'),
+ (r'\b(ال|)اقبح\b', r'\1أقبح'),
+ (r'\b(ال|)اطول\b', r'\1أطول'),
+ (r'\b(ال|)اقصر\b', r'\1أقصر'),
+ (r'\b(ال|)اسمن\b', r'\1أسمن'),
+ (r'\b(ال|)اذكى\b', r'\1أذكى'),
+ (r'\b(ال|)اكثر\b', r'\1أكثر'),
+ (r'\b(ال|)افضل\b', r'\1أفضل'),
+ (r'\b(ال|)اكبر\b', r'\1أكبر'),
+ (r'\b(ال|)اشهر\b', r'\1أشهر'),
+ (r'\b(ال|)ابطأ\b', r'\1أبطأ'),
+ (r'\b(ال|)اماني\b', r'\1أماني'),
+ (r'\b(ال|)احلام\b', r'\1أحلام'),
+ (r'\b(ال|)اسماء\b', r'\1أسماء'),
+ (r'\b(ال|)اسامة\b', r'\1أسامة'),
+ (r'\bابراهيم\b', 'إبراهيم'),
+ (r'\bاسماعيل\b', 'إسماعيل'),
+ (r'\bايوب\b', 'أيوب'),
+ (r'\bايمن\b', 'أيمن'),
+ (r'\bاوزبكستان\b', 'أوزبكستان'),
+ (r'\bاذربيجان\b', 'أذربيجان'),
+ (r'\bافغانستان\b', 'أفغانستان'),
+ (r'\bانجلترا\b', 'إنجلترا'),
+ (r'\bايطاليا\b', 'إيطاليا'),
+ (r'\bاوربا\b', 'أوروبا'),
+ (r'\bأوربا\b', 'أوروبا'),
+ (r'\bاوغندة\b', 'أوغندة'),
+ (r'\b(ال|)ا(لماني|فريقي|سترالي)(ا|ة|تان|ان|ين|ي|ون|و|ات|)\b',
r'\1أ\2\3'),
+ (r'\b(ال|)ا(وروب|مريك)(ا|ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b',
r'\1أ\2\3'),
+
(r'\b(ال|)ا(ردن|رجنتين|وغند|سبان|وكران|فغان)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b',
r'\1أ\2\3'),
+
(r'\b(ال|)ا(سرائيل|يران|مارات|نكليز|نجليز)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b',
r'\1إ\2\3'),
+
(r'\b(ال|)(ا|أ)(رثوذكس|رثوذوكس)(ي|ية|يتان|يان|يين|يي|يون|يو|يات|)\b',
r'\1أرثوذكس\4'),
+
(r'\bإست(عمل|خدم|مر|مد|مال|عاض|قام|حال|جاب|قال|زاد|عان|طال)(ت|ا|وا|)\b',
r'است\1\2'),
+ (r'\bإست(حال|قال|طال|زاد|عان|قام|راح|جاب|عاض|مال)ة\b', r'است\1ة'),
],
'exceptions': {
'inside-tags': [
@@ -585,28 +577,28 @@
'specialpages': {
'regex': False,
'msg': {
- 'en': u'Robot: Fixing special page capitalisation',
- 'fa': u'ربات: تصحیح بزرگی و کوچکی حروف صفحههای ویژه',
+ 'en': 'Robot: Fixing special page capitalisation',
+ 'fa': 'ربات: تصحیح بزرگی و کوچکی حروف صفحههای ویژه',
},
'replacements': [
- (u'Special:Allpages', u'Special:AllPages'),
- (u'Special:Blockip', u'Special:BlockIP'),
- (u'Special:Blankpage', u'Special:BlankPage'),
- (u'Special:Filepath', u'Special:FilePath'),
- (u'Special:Globalusers', u'Special:GlobalUsers'),
- (u'Special:Imagelist', u'Special:ImageList'),
- (u'Special:Ipblocklist', u'Special:IPBlockList'),
- (u'Special:Listgrouprights', u'Special:ListGroupRights'),
- (u'Special:Listusers', u'Special:ListUsers'),
- (u'Special:Newimages', u'Special:NewImages'),
- (u'Special:Prefixindex', u'Special:PrefixIndex'),
- (u'Special:Protectedpages', u'Special:ProtectedPages'),
- (u'Special:Recentchanges', u'Special:RecentChanges'),
- (u'Special:Specialpages', u'Special:SpecialPages'),
- (u'Special:Unlockdb', u'Special:UnlockDB'),
- (u'Special:Userlogin', u'Special:UserLogin'),
- (u'Special:Userlogout', u'Special:UserLogout'),
- (u'Special:Whatlinkshere', u'Special:WhatLinksHere'),
+ ('Special:Allpages', 'Special:AllPages'),
+ ('Special:Blockip', 'Special:BlockIP'),
+ ('Special:Blankpage', 'Special:BlankPage'),
+ ('Special:Filepath', 'Special:FilePath'),
+ ('Special:Globalusers', 'Special:GlobalUsers'),
+ ('Special:Imagelist', 'Special:ImageList'),
+ ('Special:Ipblocklist', 'Special:IPBlockList'),
+ ('Special:Listgrouprights', 'Special:ListGroupRights'),
+ ('Special:Listusers', 'Special:ListUsers'),
+ ('Special:Newimages', 'Special:NewImages'),
+ ('Special:Prefixindex', 'Special:PrefixIndex'),
+ ('Special:Protectedpages', 'Special:ProtectedPages'),
+ ('Special:Recentchanges', 'Special:RecentChanges'),
+ ('Special:Specialpages', 'Special:SpecialPages'),
+ ('Special:Unlockdb', 'Special:UnlockDB'),
+ ('Special:Userlogin', 'Special:UserLogin'),
+ ('Special:Userlogout', 'Special:UserLogout'),
+ ('Special:Whatlinkshere', 'Special:WhatLinksHere'),
],
},
# yu top-level domain will soon be disabled,
@@ -616,55 +608,55 @@
'regex': False,
'nocase': True,
'msg': {
- 'de': u'Bot: Ersetze Links auf .yu-Domains',
- 'en': u'Robot: Replacing links to .yu domains',
- 'fa': u'ربات: جایگزینی پیوندها به دامنهها با پسوند yu',
- 'fr': u'Robot: Correction des liens pointant vers le domaine .yu,
qui expire en 2009',
- 'ksh': u'Bot: de ahle .yu-Domains loufe us, dröm ußjetuusch',
+ 'de': 'Bot: Ersetze Links auf .yu-Domains',
+ 'en': 'Robot: Replacing links to .yu domains',
+ 'fa': 'ربات: جایگزینی پیوندها به دامنهها با پسوند yu',
+ 'fr': 'Robot: Correction des liens pointant vers le domaine .yu,
qui expire en 2009',
+ 'ksh': 'Bot: de ahle .yu-Domains loufe us, dröm ußjetuusch',
},
'replacements': [
- (u'www.budva.cg.yu', u'www.budva.rs'),
- (u'spc.org.yu', u'spc.rs'),
- (u'www.oks.org.yu', u'www.oks.org.rs'),
- (u'www.kikinda.org.yu', u'www.kikinda.rs'),
- (u'www.ds.org.yu', u'www.ds.org.rs'),
- (u'www.nbs.yu', u'www.nbs.rs'),
- (u'www.serbia.sr.gov.yu', u'www.srbija.gov.rs'),
- (u'eunet.yu', u'eunet.rs'),
- (u'www.zastava-arms.co.yu', u'www.zastava-arms.co.rs'),
- (u'www.airportnis.co.yu', u'www.airportnis.rs'),
- # (u'www.danas.co.yu', u'www.danas.rs'), # Archive
links don't seem to work
- (u'www.belex.co.yu', u'www.belex.rs'),
- (u'beograd.org.yu', u'beograd.rs'),
- (u'www.vlada.cg.yu', u'www.vlada.me'),
- (u'webrzs.statserb.sr.gov.yu', u'webrzs.stat.gov.rs'),
- (u'www.statserb.sr.gov.yu', u'webrzs.stat.gov.rs'),
- (u'www.rastko.org.yu', u'www.rastko.org.rs'),
- (u'www.reprezentacija.co.yu', u'www.reprezentacija.rs'),
- (u'www.blic.co.yu', u'www.blic.co.rs'),
- (u'www.beograd.org.yu', u'www.beograd.org.rs'),
- (u'arhiva.glas-javnosti.co.yu', u'arhiva.glas-javnosti.rs'),
- (u'www.srpsko-nasledje.co.yu', u'www.srpsko-nasledje.co.rs'),
- (u'www.dnevnik.co.yu', u'www.dnevnik.rs'),
- (u'www.srbija.sr.gov.yu', u'www.srbija.gov.rs'),
- (u'www.kurir-info.co.yu/Arhiva', u'arhiva.kurir-info.rs/Arhiva'),
- (u'www.kurir-info.co.yu/arhiva', u'arhiva.kurir-info.rs/arhiva'),
- (u'www.kurir-info.co.yu', u'www.kurir-info.rs'),
- (u'arhiva.kurir-info.co.yu', u'arhiva.kurir-info.rs'),
- (u'www.prvaliga.co.yu', u'www.prvaliga.rs'),
- (u'www.mitropolija.cg.yu', u'www.mitropolija.me'),
- (u'www.spc.yu/sr', u'www.spc.rs/sr'),
- (u'www.sk.co.yu', u'www.sk.co.rs'),
- (u'www.ekoforum.org.yu', u'www.ekoforum.org'),
- (u'www.svevlad.org.yu', u'www.svevlad.org.rs'),
- (u'www.posta.co.yu', u'www.posta.rs'),
- (u'www.glas-javnosti.co.yu', u'www.glas-javnosti.rs'),
- (u'www.fscg.cg.yu', u'www.fscg.co.me'),
- (u'ww1.rts.co.yu/euro', u'ww1.rts.co.rs/euro'),
- (u'www.rtv.co.yu', u'www.rtv.rs'),
- (u'www.politika.co.yu', u'www.politika.rs'),
- (u'www.mfa.gov.yu', u'www.mfa.gov.rs'),
- (u'www.drzavnauprava.sr.gov.yu', u'www.drzavnauprava.gov.rs'),
+ ('www.budva.cg.yu', 'www.budva.rs'),
+ ('spc.org.yu', 'spc.rs'),
+ ('www.oks.org.yu', 'www.oks.org.rs'),
+ ('www.kikinda.org.yu', 'www.kikinda.rs'),
+ ('www.ds.org.yu', 'www.ds.org.rs'),
+ ('www.nbs.yu', 'www.nbs.rs'),
+ ('www.serbia.sr.gov.yu', 'www.srbija.gov.rs'),
+ ('eunet.yu', 'eunet.rs'),
+ ('www.zastava-arms.co.yu', 'www.zastava-arms.co.rs'),
+ ('www.airportnis.co.yu', 'www.airportnis.rs'),
+ # ('www.danas.co.yu', 'www.danas.rs'), # Archive links
don't seem to work
+ ('www.belex.co.yu', 'www.belex.rs'),
+ ('beograd.org.yu', 'beograd.rs'),
+ ('www.vlada.cg.yu', 'www.vlada.me'),
+ ('webrzs.statserb.sr.gov.yu', 'webrzs.stat.gov.rs'),
+ ('www.statserb.sr.gov.yu', 'webrzs.stat.gov.rs'),
+ ('www.rastko.org.yu', 'www.rastko.org.rs'),
+ ('www.reprezentacija.co.yu', 'www.reprezentacija.rs'),
+ ('www.blic.co.yu', 'www.blic.co.rs'),
+ ('www.beograd.org.yu', 'www.beograd.org.rs'),
+ ('arhiva.glas-javnosti.co.yu', 'arhiva.glas-javnosti.rs'),
+ ('www.srpsko-nasledje.co.yu', 'www.srpsko-nasledje.co.rs'),
+ ('www.dnevnik.co.yu', 'www.dnevnik.rs'),
+ ('www.srbija.sr.gov.yu', 'www.srbija.gov.rs'),
+ ('www.kurir-info.co.yu/Arhiva', 'arhiva.kurir-info.rs/Arhiva'),
+ ('www.kurir-info.co.yu/arhiva', 'arhiva.kurir-info.rs/arhiva'),
+ ('www.kurir-info.co.yu', 'www.kurir-info.rs'),
+ ('arhiva.kurir-info.co.yu', 'arhiva.kurir-info.rs'),
+ ('www.prvaliga.co.yu', 'www.prvaliga.rs'),
+ ('www.mitropolija.cg.yu', 'www.mitropolija.me'),
+ ('www.spc.yu/sr', 'www.spc.rs/sr'),
+ ('www.sk.co.yu', 'www.sk.co.rs'),
+ ('www.ekoforum.org.yu', 'www.ekoforum.org'),
+ ('www.svevlad.org.yu', 'www.svevlad.org.rs'),
+ ('www.posta.co.yu', 'www.posta.rs'),
+ ('www.glas-javnosti.co.yu', 'www.glas-javnosti.rs'),
+ ('www.fscg.cg.yu', 'www.fscg.co.me'),
+ ('ww1.rts.co.yu/euro', 'ww1.rts.co.rs/euro'),
+ ('www.rtv.co.yu', 'www.rtv.rs'),
+ ('www.politika.co.yu', 'www.politika.rs'),
+ ('www.mfa.gov.yu', 'www.mfa.gov.rs'),
+ ('www.drzavnauprava.sr.gov.yu', 'www.drzavnauprava.gov.rs'),
],
},
# These replacements will convert HTML tag from FCK-editor to wiki syntax.
@@ -672,8 +664,8 @@
'fckeditor': {
'regex': True,
'msg': {
- 'en': u'Robot: Fixing rich-editor html',
- 'fa': u'ربات: تصحیح اچتیامال ویرایشگر پیشرفته',
+ 'en': 'Robot: Fixing rich-editor html',
+ 'fa': 'ربات: تصحیح اچتیامال ویرایشگر پیشرفته',
},
'replacements': [
# replace <br> with a new line
--
To view, visit https://gerrit.wikimedia.org/r/186962
To unsubscribe, visit https://gerrit.wikimedia.org/r/settings
Gerrit-MessageType: newchange
Gerrit-Change-Id: I9012bc63ff0a8b82b28d05fbeb439fa28c46fce0
Gerrit-PatchSet: 1
Gerrit-Project: pywikibot/core
Gerrit-Branch: master
Gerrit-Owner: XZise <[email protected]>
_______________________________________________
MediaWiki-commits mailing list
[email protected]
https://lists.wikimedia.org/mailman/listinfo/mediawiki-commits