superhuman: http://nlpwp.org/ Daniël de Kok, Harm B

http://nlpwp.org/ Daniël de Kok, Harm Brouwer - Natural Language Processing for the Working Programmer - (in Haskell)

Сыро, очень сыро. Книга не закончена. Но пролистать можно (я из-за Хаскелла читал). Написано более-менее о:

2.7. Word frequency lists

3. N-grams
3.2. Bigrams
4. Collocations - в т.ч. Pointwise Mutual Information (PMI)
3.7. Suffix arrays
3.8. Markov models

5.2. Naive Bayes classification
5.3. Maximum entropy classification

7. Part of speech tagging
2. Frequency-based tagging
7.4. Transformation-based tagging

Для частотных списков надо использовать мультимножества, а не словари. Суффиксные массивы плохо объяснены. Монады очень плохо. С таггингом, вообще, впечатление запутанности, и что можно было проще.

Было в проекте, но не написано о:

4. Distance and similarity
6. Information retrieval
8. Regular languages
9. Context-free grammars
10. Performance and efficiency

Чуваки решили срубить денег, написав книгу :). Купили софта лицензионного на 200 евро, хостинг покруче, пропиарились на хакер ньюс, донейшен кнопки поставили (10, 25, 50 евро!). 25-евровый донейшен получили только один.

Ну, и забросили. Слабаки.

Вот с ними интервью: http://haskellphilosophy.blogspot.nl/2011/04/natural-language-processing-for-working.html

А, они пхд-студенты. Ясненько. Ближе к защите там уже некогда книги пейсать.

Вот, кстати, синдром значительности привёл к иллюзиям типа "да это же так интересно, да это же так novel (инновационно), да нам сейчас денег накидают лопатой!"

Когда синдром значительности сталкивается с реальностью (гм, ну та, которая реальность рыночной виртуальности), неизбежная фрустрация часто приводит к прекращению деятельности.