Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет dima_i ([info]dima_i)
@ 2013-05-12 13:35:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
URL-matching regex
In case anybody needs it: here is a URL-matching regex, which is a modification of this one (surprisingly, I could not find good solutions on the web, and that was the best one I found). It seemed to have a minor bug, which is hopefully fixed in my version.

in python notation:

urlmatch=re.compile(ur'''(?i)\b(https?:// [^\s()<>]+
(?: \( [^\s()<>]* (?: \( [^\s()<>]* \) [^\s()<>]* )* \) [^\s()<>]*)*
( ( \( [^\s()<>]* (?: \( [^\s()<>]* \) [^\s()<>]* )* \) ) |
[^\s`!()\[\]{};:\'".,<>?\xab\xbb\u201c\u201d\u2018\u2019] ))''', re.X)


It only searches for URLs starting with "http://" or "https://" and with only two levels of nested brackets. If you need a more intelligent regex detecting strings like "www.example.com", you can use the beginning from the original code. Let me know if you find any examples where this regex fails.


(Читать комментарии) - (Добавить комментарий)


[info]chaource.livejournal.com
2013-05-13 16:01 (ссылка)
Со скобками, что ты два уровня предусмотрѣлъ - это остроумно. Но я только сейчасъ понялъ, изъ твоихъ послѣднихъ комментарiевъ, въ чёмъ собственно заключалась задача.

Вотъ meshko тоже говоритъ, что пожалѣлъ, когда использовалъ большой regex. Это оно самое. Есть нерѣшённая проблема, - regex трудно поддерживать и развивать. Сейчасъ твой скриптъ рѣшилъ задачу, и если его никогда не придётся передѣлывать, то всё замѣчательно и прекрасно. Но если черезъ годъ окажется, что какой-то странный URL не распознаётся, ты проведёшь полдня въ отладкѣ.

Въ чёмъ трудности работы съ регексами:

- у тебя въ головѣ есть идея о томъ, какъ и когда надо распознавать текстъ, но regex не отражаетъ эту идею - онъ является нагроможденiемъ скобокъ и звѣздочекъ. Когда твоя идея улетучится изъ головы, будетъ трудно что-то сдѣлать. Рѣшенiе - писать длинные комментарiи къ каждому кусочку регекса.

- когда регексъ долженъ что-то распознавать такое, что всё время повторяется то тутъ, то тамъ, ты вынужден повторять вѣсь кусочекъ кода регекса. Эти повторенiя нельзя "факторизовать", т.е. нельзя положить кусокъ регекса въ "регексную подпрограмму" и "вызывать" её много разъ изъ разныхъ мѣстъ. Поэтому регексы всегда длинные и нечитаемые. Это, я думаю, рѣшается лишь переходомъ къ context-free grammar, гдѣ и регексы, и болѣе мощные конструкцiи распознаются символически, и можно дѣлать "подпрограммы изъ регексовъ". Объ этомъ я и писалъ въ началѣ.

- Малѣйшая ошибка, пропущенная или лишняя звѣздочка - и ничего не работаетъ, и непонятно почему - отлаживать "по шагамъ" регексы нельзя. Рѣшенiе - написать очень много тестовъ, по два-три на каждый граничный случай, предусмотрѣнный твоимъ регексомъ, и прогонять всѣ тесты каждый разъ, когда ты что-то измѣняешь въ нёмъ.

(Ответить) (Ветвь дискуссии)


[info]dima_i
2013-05-13 20:12 (ссылка)
Это не я предусмотрел -- это товарищ, на которого я ссылку поставил. У него, собственно, все по полочкам разложено и откомментировано. Я просто исправил некоторый забавный баг в его коде.

(Ответить) (Уровень выше)


(Читать комментарии) -