|
| |||
|
|
http://nlpwp.org/ Daniël de Kok, Harm Brouwer - Natural Language Processing for the Working Programmer - (in Haskell) Сыро, очень сыро. Книга не закончена. Но пролистать можно (я из-за Хаскелла читал). Написано более-менее о: 2.7. Word frequency lists 3. N-grams 3.2. Bigrams 4. Collocations - в т.ч. Pointwise Mutual Information (PMI) 3.7. Suffix arrays 3.8. Markov models 5.2. Naive Bayes classification 5.3. Maximum entropy classification 7. Part of speech tagging 2. Frequency-based tagging 7.4. Transformation-based tagging Для частотных списков надо использовать мультимножества, а не словари. Суффиксные массивы плохо объяснены. Монады очень плохо. С таггингом, вообще, впечатление запутанности, и что можно было проще. Было в проекте, но не написано о: 4. Distance and similarity 6. Information retrieval 8. Regular languages 9. Context-free grammars 10. Performance and efficiency Чуваки решили срубить денег, написав книгу :). Купили софта лицензионного на 200 евро, хостинг покруче, пропиарились на хакер ньюс, донейшен кнопки поставили (10, 25, 50 евро!). 25-евровый донейшен получили только один. Ну, и забросили. Слабаки. Вот с ними интервью: http://haskellphilosophy.blogspot.nl/20 А, они пхд-студенты. Ясненько. Ближе к защите там уже некогда книги пейсать. Вот, кстати, синдром значительности привёл к иллюзиям типа "да это же так интересно, да это же так novel (инновационно), да нам сейчас денег накидают лопатой!" Когда синдром значительности сталкивается с реальностью (гм, ну та, которая реальность рыночной виртуальности), неизбежная фрустрация часто приводит к прекращению деятельности. |
|||||||||||||