dima_i: URL-matching regex

URL-matching regex
In case anybody needs it: here is a URL-matching regex, which is a modification of this one (surprisingly, I could not find good solutions on the web, and that was the best one I found). It seemed to have a minor bug, which is hopefully fixed in my version.

in python notation:
urlmatch=re.compile(ur'''(?i)\b(https?:// [^\s()<>]+ (?: \( [^\s()<>]* (?: \( [^\s()<>]* \) [^\s()<>]* )* \) [^\s()<>]*)* ( ( \( [^\s()<>]* (?: \( [^\s()<>]* \) [^\s()<>]* )* \) ) | [^\s`!()\[\]{};:\'".,<>?\xab\xbb\u201c\u201d\u2018\u2019] ))''', re.X)

It only searches for URLs starting with "http://" or "https://" and with only two levels of nested brackets. If you need a more intelligent regex detecting strings like "www.example.com", you can use the beginning from the original code. Let me know if you find any examples where this regex fails.

(Читать комментарии) - (Добавить комментарий)

chaource.livejournal.com
2013-05-13 16:01 (ссылка)

Со скобками, что ты два уровня предусмотрѣлъ - это остроумно. Но я только сейчасъ понялъ, изъ твоихъ послѣднихъ комментарiевъ, въ чёмъ собственно заключалась задача.

Вотъ meshko тоже говоритъ, что пожалѣлъ, когда использовалъ большой regex. Это оно самое. Есть нерѣшённая проблема, - regex трудно поддерживать и развивать. Сейчасъ твой скриптъ рѣшилъ задачу, и если его никогда не придётся передѣлывать, то всё замѣчательно и прекрасно. Но если черезъ годъ окажется, что какой-то странный URL не распознаётся, ты проведёшь полдня въ отладкѣ.

Въ чёмъ трудности работы съ регексами:

- у тебя въ головѣ есть идея о томъ, какъ и когда надо распознавать текстъ, но regex не отражаетъ эту идею - онъ является нагроможденiемъ скобокъ и звѣздочекъ. Когда твоя идея улетучится изъ головы, будетъ трудно что-то сдѣлать. Рѣшенiе - писать длинные комментарiи къ каждому кусочку регекса.

- когда регексъ долженъ что-то распознавать такое, что всё время повторяется то тутъ, то тамъ, ты вынужден повторять вѣсь кусочекъ кода регекса. Эти повторенiя нельзя "факторизовать", т.е. нельзя положить кусокъ регекса въ "регексную подпрограмму" и "вызывать" её много разъ изъ разныхъ мѣстъ. Поэтому регексы всегда длинные и нечитаемые. Это, я думаю, рѣшается лишь переходомъ къ context-free grammar, гдѣ и регексы, и болѣе мощные конструкцiи распознаются символически, и можно дѣлать "подпрограммы изъ регексовъ". Объ этомъ я и писалъ въ началѣ.

- Малѣйшая ошибка, пропущенная или лишняя звѣздочка - и ничего не работаетъ, и непонятно почему - отлаживать "по шагамъ" регексы нельзя. Рѣшенiе - написать очень много тестовъ, по два-три на каждый граничный случай, предусмотрѣнный твоимъ регексомъ, и прогонять всѣ тесты каждый разъ, когда ты что-то измѣняешь въ нёмъ.

(Ответить) (Ветвь дискуссии)

	dima_i 2013-05-13 20:12 (ссылка)
	Это не я предусмотрел -- это товарищ, на которого я ссылку поставил. У него, собственно, все по полочкам разложено и откомментировано. Я просто исправил некоторый забавный баг в его коде. (Ответить) (Уровень выше)

(Читать комментарии) -