http://nlpwp.org/ Daniël de Kok, Harm Brouwer - Natural Language Processing for the Working Programmer - (in Haskell)
Сыро, очень сыро. Книга не закончена. Но пролистать можно (я из-за Хаскелла читал). Написано более-менее о:
2.7. Word frequency lists
3. N-grams
3.2. Bigrams
4. Collocations - в т.ч. Pointwise Mutual Information (PMI)
3.7. Suffix arrays
3.8. Markov models
5.2. Naive Bayes classification
5.3. Maximum entropy classification
7. Part of speech tagging
2. Frequency-based tagging
7.4. Transformation-based tagging
Для частотных списков надо использовать мультимножества, а не словари. Суффиксные массивы плохо объяснены. Монады очень плохо. С таггингом, вообще, впечатление запутанности, и что можно было проще.
Было в проекте, но не написано о:
4. Distance and similarity
6. Information retrieval
8. Regular languages
9. Context-free grammars
10. Performance and efficiency
Чуваки решили срубить денег, написав книгу :). Купили софта лицензионного на 200 евро, хостинг покруче, пропиарились на хакер ньюс, донейшен кнопки поставили (10, 25, 50 евро!). 25-евровый донейшен получили только один.
Ну, и забросили. Слабаки.
Вот с ними интервью:
http://haskellphilosophy.blogspot.nl/2011/04/natural-language-processing-for-working.htmlА, они пхд-студенты. Ясненько. Ближе к защите там уже некогда книги пейсать.
Вот, кстати, синдром значительности привёл к иллюзиям типа "да это же так интересно, да это же так novel (инновационно), да нам сейчас денег накидают лопатой!"
Когда синдром значительности сталкивается с реальностью (гм, ну та, которая реальность рыночной виртуальности), неизбежная фрустрация часто приводит к прекращению деятельности.