Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет ivanov_petrov ([info]ivanov_petrov)
@ 2009-09-23 13:04:00


Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Самая лучшая система
я так посмотрел-посмотрел на все эти аргументы... насчет того, что хорошая наука всегда сумеет себя продать, что если ваши уроки никто не покупает - то они и не нужны и что рынок глупостей не делает, а коли делает - то сам исправляет, и научные работы надо оценивать просто и понятно: кто выжил и продался (или купился?), тот и был, как оказывается, молодцом.

И тут-то я и догадался. Итак, цель систематики: система создается для предсказания поведения объектов-элементов. Мы хотим до экспериментов знать, как - примерно - поведет себя некий объект - и мы можем делать предсказания, исходя из места в системе. К сожалению, пока систематика мало проверяема и потому не поддается проверке экономическими методами. А вот же...

Создается база данных всех научных результатов - точно таким же образом, как считают импакт-фактор журнала или индексы ссылаемости на некого автора. А тут делается по латинским названиям. И устанавливаются простые индексы между названием и - по запросу - ключевым словом. То есть можно запросить, что в top10 делает Musca domestica или там еще какая тварь. Например - мешает, нудит, является возбудителем... переносчиком... спаривается... жрёт объедки... Или относится с другим каким существом. И делаются предсказания по запомненному профилю - относительно других членов рода Musca. Другая муха тоже спаривается... возбудителем... тьфу, переносчиком... жрёт объедки... Ага! Работает! По тому, что знаем об одном виде мух, можем предсказать о другом.

Это понятно. А дальше работает просто алгоритм гугля по базе - и производится автоматическая классификация объектов по сходству сочетаемых с ними слов. Приписывание имен - дело очень тривиальное и лучше мы заменим это на численные индексы. С расшифровкой - отсылкой к картинкам-фотографиям - перечню статей об этой твари и базе соотношений. То есть любой пользователь имеет всё время готовую систематику всех существ, всё время пересматриваемую в соответствии с изменениями массива текстов. Жуки поют, скажем, и тем близки к птицам. И фото тех жуков... Короче, после введения нескольких простых ограничений - выборе текстов только из базы научной литературы и т.д. - получаем работающую систему. В том прямом смысле, что сам алгоритм ее выстраивания будет все время приводить к объединению в группы видов, которые сходным образом "работают" в выборке текстов. У них общие паразиты, общая пища, общее использование человеком и пр. Мы гарантированно будем получать сходство поведения видов исходя из их места в системе - то есть такая система по самому способу свойего устройства будет лучшей из возможных.

Это могут перенять и другие науки, кому надо. И что приятно - приходит окончание споров о том, как лучше делать такую систему, какая является естественной, прогностичной и т.п. Мы всегда будем иметь самую лучшую систему, какую только можно по состоянию наших знаний. Надо лучше? Всего и дел, что наисследовать еще чего-нибудь и добавить в исходный массив текстов новые данные.


(Добавить комментарий)


[info]fregimus@lj
2009-09-23 06:15 (ссылка)
Угу. Боюсь, этим все и кончится.

А если дальше продолжить — алгоритм, которым этот гугль работает, утеряется. Он работать-то продолжит, только как он это делает, никто уже знать не будет. Чтоб уж совсем неотличимо от магии©.

(Ответить) (Ветвь дискуссии)


[info]a_p@lj
2009-09-23 10:58 (ссылка)
в этом направлении уже сделаны заметные усилия: подход под названием "генетическое программирование" как раз и отличается тем, что алгоритм поиска непонятен человеку и выводится не им, а автоматичкски, в результате процесса симуляции "эволюции".

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2009-09-23 14:46 (ссылка)
Строго говоря, да, но я о другом немного. Поиск ГА, кажется, понятно как работает, непонятно почему. Но это, во-первых, здесь сбоку, во-вторых, и самое важное, все-таки это алгоритм поиска в проблемной области. А я о гипотетической ситуации, когда уже никто не знает, откуда результат берется.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]a_p@lj
2009-09-23 19:19 (ссылка)
почему же гипотетической? Уже и в простейших применениях проступает ужас-ужас, когда (нарочно, для краткости изложения, привожу пример не из науки) клиент у банковского работника спрашивает "а почему мне вот так проценты начислили, а не вот эдак?", а тот в ответ разворачивает экран своего компьютера к посетителю и тычет в цифирку: "вот же тут же, компьютер же". Причём клерк совершенно не придуривается, для него цифирка на экране и есть объяснение, почему.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2009-09-24 09:44 (ссылка)
Да. Это и принимают за объяснение. И хорошо, ежели это только старушки-процентщицы.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]a_p@lj
2009-09-24 09:47 (ссылка)
куда там старушки! молодые (и на вид отменно здоровые) парни и девки!

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2009-09-24 09:48 (ссылка)
Нет-нет, «старушка-процентщица» — это указание не на возраст, а на устройство ума.

(Ответить) (Уровень выше)


[info]nikaan@lj
2009-09-25 17:09 (ссылка)
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
D.B. Fogel (1998) Evolutionary Computation: The Fossil Record, IEEE Press,
Piscataway, NJ.
K.A. De Jong (1975) An analysis of the behavior of a class of genetic adaptive
systems, Doctoral dissertation, University of Michigan, Ann Arbor, Michigan.
D.E. Goldberg (1989) Genetic Algorithms in Search, Optimization, and Machine
Learning, Addison-Wesley, Reading, Massachusetts.
K.A. De Jong (1993) Genetic algorithms are NOT function optimizers. In
D. Whitley (ed.), Foundations of Genetic Algorithms 2. Morgan Kaufmann, San
Mateo, CA, pp. 5–18.
S. Lin (1965) Computer solutions of the traveling salesman problem. Bell Systems
Tech. J., 44, 2245–2269.
S.M. Roberts and B. Flores (1966) An engineering approach to the travelling
salesman problem. Man. Sci., 13, 269–288.
C.E. Nugent, T.E. Vollman and J.E. Ruml (1968) An experimental comparison
of techniques for the assignment of facilities to locations. Operations Research,
16, 150–173.
C.R. Reeves (1997) Genetic algorithms for the Operations Researcher. INFORMS
Journal on Computing, 9, 231–250.
C.R. Reeves and J.E. Rowe (2001) Genetic Algorithms: Principles and Perspectives,
Kluwer, Norwell, MA.
C.R. Reeves and C.C. Wright (1999) Genetic algorithms and the design of
experiments. In L.D. Davis, K. DeJong, M.D. Vose and L.D. Whitley (eds.),
Evolutionary Algorithms: IMA Volumes in Mathematics and its Applications,
Vol. 111. Springer-Verlag, New York, pp. 207–226.
D.H. Wolpert and W.G. Macready (1997) No free lunch theorems for optimization.
IEEE Trans. Ev. Comp, 1, 67–82.
W.G. Macready and D.H. Wolpert (1996) On 2-armed Gaussian Bandits and
Optimization. Technical Report SFI-TR-96-03-009, Santa Fe Institute, Santa Fe,
New Mexico.
M. Mitchell, J.H. Holland and S. Forrest (1994) When will a genetic algorithm
outperform hill climbing? In J.D. Cowan, G. Tesauro and J. Alspector (eds.),
Advances in Neural Information Processing Systems 6. Morgan Kaufmann, San
Mateo, CA.
M.D. Vose (1993) Modeling simple genetic algorithms. In L.D. Whitley (ed.),
Foundations of Genetic Algorithms 2. Morgan Kaufmann, San Mateo, CA, 63–73.
D. Whitley (1993) An executable model of a simple genetic algorithm. In L.D.
Whitley (ed.), Foundations of Genetic Algorithms 2. Morgan Kaufmann, San
Mateo, CA, 45–62.
M.D. Vose (1994) A closer look at mutation in genetic algorithms. Annals of
Maths and AI, 10, 423–434.
M.D. Vose and A.H. Wright (1995) Stability of vertex fixed points and applications.
In D. Whitley and M. Vose (eds.), Foundations of Genetic Algorithms 3.
Morgan Kaufmann, San Mateo, CA, 103–113.
78 C. Reeves
[21]
[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
K.A. De Jong, W.M. Spears and D.F. Gordon (1995) Using Markov chains to
analyze GAFOs. In D. Whitley and M. Vose (eds.), Foundations of Genetic
Algorithms 3, Morgan Kaufmann, San Mateo, CA, 115–137.
J. Rees and G.J. Koehler (1999) An investigation of GA performance results for
different cardinality alphabets. In L.D. Davis, K. DeJong, M.D. Vose and L.D.
Whitley (eds.), Evolutionary Algorithms: IMA Volumes in Mathematics and its
Applications, Vol. 111. Springer-Verlag, New York, 191–206.
J.L. Shapiro, A. Prügel-Bennett and M. Rattray (1994) A statistical mechanics
formulation of the dynamics of genetic algorithms. Lecture Notes in Computer
Science

(Ответить) (Уровень выше)


[info]nikaan@lj
2009-09-25 17:07 (ссылка)
3.1 The ‘traditional’ view
Holland’s explanation of why it is advantageous to search the space A^l rather than \hi
hinges on three main ideas. Central to this understanding is the concept of a schema.
A schema is a subset of the space A^l in which all the strings share a particular set of
defined values. This can be represented by using the alphabet A\cup *; in the binary case,
1 * * 1, for example, represents the subset of the 4-dimensional hypercube {0,1}^4
in which both the first and last genes take the value 1, i.e., the strings {1 0 0 1, 1
0 1 1, 1 1 0 1, 1 1 1 1}.
The first of Holland’s ideas is that of intrinsic (or implicit) parallelism—the notion
that information on many schemata can be processed in parallel. Under certain conditions
that depend on population size and schema characteristics, Holland estimated
that a population of size M contains information on O(M^3) schemata. However, these
schemata cannot actually be processed in parallel, because independent estimates of
their fitness cannot be obtained in general [13].
The second concept is expressed by the so-called Schema Theorem, in which
Holland showed that if there are N(S, t) instances of a given schema S in the population
at time t, then at the next time step (following reproduction), the expected

number of instances in the new population can be bounded by

E[N(S,t+1)]>=F(S,t)/F_1(t) N(S,t)(1-\eps(S,t))
where is the F(S,t) fitness of schema S,F_1(t) is the average fitness of the population, and \eps(S,t)
is a term which reflects the potential for genetic operators to destroy instances
of schema S.
By failing to appreciate the stochastic and dynamic nature of this relationship,
somewhat extravagant conclusions have been drawn from this theorem, expressed in
the frequently made statement that good schemata will receive exponentially increasing
numbers of trials in subsequent generations. However, it is clear that the Schema
Theorem is a result in expectation only, and then only for one generation. Thus, any
attempt to extrapolate this result for more than one generation is doomed to failure
because the terms are then no longer independent of what is happening in the rest of
the population. Also, given a finite population, it is clear that any exponential increase
cannot last very long.
Holland also attempted to model schema processing (or hyperplane competitions)
by means of an analogy to stochastic two-armed bandit problems. This is a wellknown
statistical problem: we are given two ‘levers’ which if pulled give ‘payoff’
values according to different probability distributions. The problem is to use the results
of previous pulls in order to maximize the overall future expected payoff. In [1] it is
argued that a GA approximates an ‘optimal’ strategy which allocates an (exponentially)
increasing number of trials to the observed better lever; this is then used to contend
for the supposed efficiency of a GA in distinguishing between competing schemata or
hyperplanes.
Early accounts of GAs suggested quite strongly that in a GA we had thus discovered
an algorithm that used the best available search strategy to solve not merely one,
but many hyperplane competitions at once: the ‘only case where combinatorial explosion
works in our favour’. Unfortunately, Wolpert and Macready’s ‘No-Free-Lunch’
Theorem (NFLT) [14] has rather destroyed such dreams.1
In fact, intrinsic parallelism turns out to be of strictly limited application; it merely
describes the number of schemata that are likely to be present in some numbers given
certain assumptions about string length, population size and (most importantly) the
way in which the population has been generated—and the last assumption is unlikely
to be true except at a very early stage of the search. Even then, only in very unusual
circumstances—that of orthogonal populations [13]—could the hyperplane competitions
actually be processed in parallel; normally, the competitions are not independent.
The two-armed bandit analogy also fails in at least two ways: first, Macready and
Wolpert [15] have recently argued that there is no reason to believe that the strategy
described by Holland as approximated by a GA is a optimal one.

(Ответить) (Уровень выше)


[info]nikaan@lj
2009-09-25 17:08 (ссылка)
They also believe
there is in any case a flaw in Holland’s mathematics.
This is not to say that the Schema Theorem in particular, or the idea of a schema
in general, is useless, but that what it says is of limited and mainly short-term value—
principally, that certain schemata are likely to increase their presence in the next
1The NFLT, put simply, says that on the average, nothing—ant colonies, GAs, simulated annealing, tabu
search, etc.—is better than random search. Success comes from adapting the technique to the problem at
hand.

population, and that those schemata will be on the average fitter, and less resistant
to destruction by crossover and mutation, than those that do not.
This brings us to the third assumption implicit in the implementation of a GA—that
the re-combination of small pieces of the genotype (good schemata)into bigger pieces
is indeed a sensible method of finding optimal solutions. Goldberg [6] calls this the
building-block hypothesis (BBH).There is certainly some negative evidence, in that
problems constructed to contain misleading building-blocks may indeed be hard for a
GA to solve. The failure of the BBH is often invoked as a explanation when a GA fails
to solve particular COPs.
However, the properties of these problems are not usually such that they are uniquely
difficult for GAs. Holland himself, with two other co-workers, looked for positive
evidence in favour of the building-block hypothesis [16] and found the results rather
problematical: functions constructed precisely to provide a ‘royal road’ made up of
building blocks of increasing size and fitness turned out to be much more efficiently
solved by ‘non-genetic’ methods.
3.2 Other Approaches
By writing his theorem in the form of a lower bound, Holland was able to make a statement
about schema S that is independent of what happens to other schemata. However,
in practice what happens to schema S will influence the survival (or otherwise) of other
schemata, and what happens to other schemata will affect what happens to S as is made
plain by the exact models of Vose [17] and Whitley [18].
Markov chain theory [17,18] has been applied to GAs [ 19,20] to gain a better understanding
of the GA as a whole. However, while the results are fascinating in illuminating
some nuances of GA behaviour, the computational requirements are formidable for all
but the smallest of problems, as shown by Delong et al. [21], or Rees and Koehler [22],
for example.

(Ответить) (Уровень выше)


[info]nikaan@lj
2009-09-25 17:08 (ссылка)
Shapiro et al. [23] first examined GAs from a statistical mechanics perspective,
and there is a growing literature on this topic. Peck and Dhawan [24] have linked GAs
to global randomized search methods. But one of the difficulties in analysing GAs
is that there is not a single generic GA, the behaviour of which will characterize the
class of algorithms that it represents. In practice, there is a vast number of ways of
implementing a GA, as will be seen in the discussion in Part B, and what works in one
case may not work in another. Some workers have therefore tried to look for ways of
predicting algorithm performance for particular problem classes.
Reeves and Wright [13] summarize a perspective based on relating GAs to statistical
methods of experimental design, which draws upon the biological concept of epistasis.
This expresses the idea that the expression of a chromosome is not merely a sum of
the effects of its individual alleles, but that the alleles located in some genes influence
the expression of the alleles in others. From a mathematical viewpoint, epistasis is
equivalent to the existence of interactions in the fitness function. If we knew the extent
of these non-linearities, we might be able to choose an appropriate algorithm. Unfortunately,
as is explained in [25], it is unlikely that this approach will be successful,
although the literature surrounding the question of epistasis has produced some useful
insights into GAs.
Several authors [26–28] have pointed out connections between GAs and neighbourhood
search methods, and this has led to a considerable literature on the analysis of

problem landscapes. The concept of a landscape has been used informally for many
years, but recent work [29] has put the idea on a rigorous mathematical foundation
which is still being explored. Some of its uses in the context of GAs is described
in [30]. It appears that this way of thinking about algorithms has great potential for
unifying different metaheuristics and increasing our understanding of them.

BIBLIOGRAPHY
[1]
[2]
[3]
J.H. Holland (1975) Adaptation in Natural and Artificial Systems, University of
Michigan Press, Ann Arbor, Michigan; re-issued by MIT Press (1992).
I. Rechenberg (1973) Evolutions strategic: Optimierung technischer Systeme nach
Prinzipen der biologischen Evolution, Frommmann-Holzboog Verlag, Stuttgart
(2nd edition 1993).
H.-P. Schwefel (1977) Numerische Optimierung von Computer-modellen mittels
der Evolutionsstrategie, Birkhäuser Verlag, Basel. (English edition: Numerical
Optimization of Computer Models, John Wiley & Sons, Chichester, 1981.)
A steady-state (or incremental) approach is generally more effective and efficient
than a generational method.
Don’t use simple roulette wheel selection. Tournament selection or SUS is better.
Don’t use one-point crossover. UX or 2X should be preferred.
Make use of an adaptive mutation rate—one that is fixed throughout the search
(even at 1/l) is too inflexible.
Hybridize wherever possible; don’t use a GA as a black box, but make use of
any problem-specific information that you have.
Genetic Algorithms 77

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]fregimus@lj
2009-09-26 07:41 (ссылка)
Ну, типа, жуть, я об этом как раз. Алгоритм работает, а почему работает — непонятно.

Великолепная иллюстрация — как бы подсмотрели принцип в природе, сделали такую модель — работает! А почему работает — как было непонятно, так понятно и не стало. No Free Lunch, или Нет царских путей…

(Ответить) (Уровень выше)


[info]gouriev@lj
2009-09-23 17:46 (ссылка)
+ "искусственные нейронные сети".
+ ?..

но это не совсем про то.
это "алгоритмы", про которые заранее известно,
что объяснить будет нельзя и они сознательно
применяются, когда уже ничто другое не помогает.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]a_p@lj
2009-09-23 19:04 (ссылка)
вот, я как раз и имел в виду, что там решение не только непонятно, но эта непонятность вдобавок заявлена заранее.

Тут ещё такой момент: автор поста (как мне представляется) писал о подходах к познанию, а не о решении инженерных задач.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gouriev@lj
2009-09-24 11:58 (ссылка)
тогда да. я заценил юмор.

(Ответить) (Уровень выше)


[info]gouriev@lj
2009-09-23 17:44 (ссылка)
да, да.
авторские права на алгоритм принадлежат касте волшебников,
которые не желают их раскрывать простым смертным.

далее, подправляя этот алгоритм, волшебники меняют картину мира,
незаметно осуществляя идеологическое воздействие на ученых,
использующих алгоритм.

(Ответить) (Уровень выше)


[info]yahin_yur@lj
2009-09-23 06:28 (ссылка)
Что касается рынка, который расставит по местам, это же чистый бихевиоризм в психологии. Сначала на него как кинулись, а потом отступились: мол, кроме непосредственных стимулов и еще кое-что есть у нас в головах/душах. Это еще если не считать нейрофизиологии. Наверное, так и здесь должно быть. Только тут чуть сложнее, непосредственный участник экономического процесса здесь не сможет ничего сделать. Поэтому должно быть что-то "над". Академия наук это будет или министерство образования - другой вопрос.
З.Ы. Заметьте, это я все говорю, несмотря на "предпринимательскую жилку", выявленную Вами у меня в каком-то из Ваших относительно недавних постов.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 11:49 (ссылка)
да, пока еще кое-что есть у нас в головах/душах.

Кто знает, надолго ли, но пока еще есть

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]yahin_yur@lj
2009-09-23 13:46 (ссылка)
Надолго, надеюсь. Ученый живет в учениках, а школа - в последователях.

(Ответить) (Уровень выше)


[info]jeyushka@lj
2009-09-23 09:13 (ссылка)
мне кажется в систематике есть много пользы помимо простого упорядочивания знаний (тоже немалая польза).

Например, соционикой (разбиением людей на 16 психотипов) пользуются многие компании на Западе при приеме на работу. Ведь им важно, к примеру, взять на пост лидера человека, максимально склонного к лидерству, а не зависимости.

В растительной систематике, например, знание того, что пейот (Лофофора Уильямса)- разновидность кактуса, а не скажем молочая, послужила поводом для скрина других кактусов на наличие мескалина. И сеичас промышленной производство галлюциногенов этой группы идет из одного из видов цереусов, у которых значительно более быстрый рост и большая биомасса в отличие от крохотной лофофоры.

Вы, кстати привели прмер похожести, по предсказанию мух-возбудителей, можно привести пример различия, например, корнеплод полезный для медицины, но не растет на солончаках, а систематики выяснили, что есть родственные виды, и один из них вдруг раз и может расти на засоленных почвах. Поиск различий у близких видов тоже одно из преимуществ систематики. Конечно, не вся систематика одинаково полезна, но это можно сказать и любой другой области знания.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 11:47 (ссылка)
_мне кажется в систематике есть много пользы помимо простого упорядочивания знаний_
_разновидность кактуса, а не скажем молочая, послужила поводом для скрина других кактусов на наличие мескалина_

да:
_цель систематики: система создается для предсказания поведения объектов-элементов_

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]jeyushka@lj
2009-09-23 12:18 (ссылка)
но еще и для описания поведения системы в целом. например, в результаты систематизации биологических данных становятся видны определенные закономерности в макро и микроэволюционном плане.

(Ответить) (Уровень выше)


[info]zimales@lj
2009-09-23 10:27 (ссылка)
отличная тема- в комм. про пейот сказано важное - всегда при систематике такого рода можно найти замену оригинальному. То есть уровень абстракции науки возрос до подмены всего живого чем угодно, в обеспечение якобы общечеловеческого заказа. Как в КИН дза дзе - чего есть поесть? -каша,-какая?-пластиковая.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 11:48 (ссылка)
это разумно: система предлагает набор ингредиентов, которые взаимозаменимы. ну, почти

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]zimales@lj
2009-09-23 15:16 (ссылка)
Точно! Заменимость жизни никто не знает чем есть главная идея самых секретных, а не только попзвёзд Ньютонов, капитанов следующих тысяч лет. Только они сразу были на подхвате, береговые матросы, но про себя думали как про всё освобождённое от гнёта гордое просвещение - мы боги.

(Ответить) (Уровень выше)


[info]a_p@lj
2009-09-23 10:55 (ссылка)
такой подход называется, по-моему, "биоинформатика", к которой применили "дата майнинг".
Справедливости ради, надо заметить, что вменяемые представители хорошо понимают, что результаты такого подхода можно использовать только как подсказки для думанья и изучения.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 11:50 (ссылка)
да, полезная штука.

(Ответить) (Уровень выше)


[info]dskrvk@lj
2009-09-23 12:02 (ссылка)
Если систематика все время будет меняться, то статья, написанная лет 20 назад, будет содержать неверные ссылки. Или придется параллельно пользоваться "жесткой" систематикой, чтобы не запутаться.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 13:17 (ссылка)
эх, ватсон... Систему стабильных имен и отслеживания обновлений базы сделать можно, - ну можно же

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]dskrvk@lj
2009-09-23 13:30 (ссылка)
Т.е. скармливаешь системе название единицы и дату употребления, и она говорит, как эта единица классифицируется сейчас? Тогда надо вместе с классификацией хранить т.наз. time stamp, и при работе с человеко-читаемыми текстами это будет неудобно.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 13:32 (ссылка)
Всё в сети. Нехай там и хранится

(Ответить) (Уровень выше)


[info]gouriev@lj
2009-09-23 17:50 (ссылка)
version control

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]dskrvk@lj
2009-09-23 18:46 (ссылка)
Именно. Ну в принципе это лишний стимул перевести весь научный документооборот в электронную среду, т.е. чтобы работы писались не в обычном текстовом редакторе, а в некой среде разработки, которая подставляет а текст нужные сущности и метаданные к ним.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gouriev@lj
2009-09-23 18:50 (ссылка)
ага.
но кто-то все-таки должен решать, что именно подставленные сущности и метаданные - нужные.

одна из систем VCS была мною отвергнута именно из-за
недостаточной заметности автоматических изменений текста.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]dskrvk@lj
2009-09-23 18:59 (ссылка)
Можно и не автоматических. Ручной выбор из каталога сущностей, как в программистских IDE.

(Ответить) (Уровень выше)


[info]kercenter@lj
2009-09-23 12:17 (ссылка)
Угу, да здравствует википедизация. Если не сказать красивше.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 13:18 (ссылка)
все там будем

(Ответить) (Уровень выше)


[info]mbwolf@lj
2009-09-23 12:29 (ссылка)
Вы меня извините, но все приведенные Вами аргументы лежат в разных плоскостях. Возможно, каждый в своей плоскости и неопровержим (некоторые, на мой взгляд, таки да), но он заведомо ничего не стоит даже на параллельной.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 13:19 (ссылка)
наверное, но я не очень понимаю, о чем Вы. Тут рассыпаны доли шутки, и мне трудно понять. где Вы считаете, что я ошибся не шутя

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mbwolf@lj
2009-09-23 13:36 (ссылка)
Я всегда исхожу из того, что Вы пишете серьезно (если это была шутка - значит, увы, не срослось). Все мои попытки пошутить с Вами натыкались на полное непонимание, не говоря о случаях, когда я, недоуменная, апостериори понимала - это он шутил! :)
Я не считаю, что Вы ошиблись. Я считаю, что Вы высказали несколько утвержений, каждое из которых справедливо в своей плоскости. В плоскости каждого остальные - ложны (скажем, "если ваши уроки никто не покупает - то они и не нужны" и "рынок глупостей не делает" могут быть истинны каждое в своей плоскости, но не вместе).

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 15:06 (ссылка)
(баюкая своё чувство юмора) ну ничего, ничего, поболит и пройдёт...

да, про рынок - это так называемая вульгаризация

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mbwolf@lj
2009-09-23 16:53 (ссылка)
А про уроки - нет?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 16:56 (ссылка)
Я эту вульгаризацию, в том числе про уроки, слышу (в ЖЖ) регулярно. Причем обычно ее говорят те, кто полагает, что знает экономику.

Я, если честно, Вас не понимаю. Я высказал шуточное и огрубленное описание вполне живой точки зрения, которую очень-очень многие люди выговаривают всерьез. Вы мне самым серьезным образом говорите, что это в целом неверно и тут надо строже и щепетильней. Я же все эти рассуждения полагаю полной ерундой. Ну и что следует объяснять? Что это ерунда?

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]mbwolf@lj
2009-09-23 17:04 (ссылка)
Ну, извините за занудство. Я иначе не могу...

(Ответить) (Уровень выше)


[info]109@lj
2009-09-23 16:09 (ссылка)
м-да, учёным прошлого века, привыкшим к иерархической категоризации, такой подход как серпом по яйцам :)

а детям семантического уеба, наоборот, кажется совершенно естественным, что отношение "belongs to" может иметь кардинальность больше единицы.

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 16:15 (ссылка)
ну, ничего, ничего... Это - дети.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]109@lj
2009-09-23 17:06 (ссылка)
дихотомия здесь пролегает, в частности, и между теми, кто думает, что обладает монополией на абсолютную истину и теми, кто производит stuff that actually works, начиная с самого гугла, собственно.

(Ответить) (Уровень выше)


(Анонимно)
2009-09-23 16:38 (ссылка)
Прочитал с недоумением. Не могу понять -- то ли Вы в шутку это писали, то ли нет. Что такое, например, "алгоритм гугля по базе"? Как будет вычисляться сходство по разнородным признакам? А как делать "численные индексы" вместо названий? Скажем, "ласточка деревенская" и "деревенская ласточка" -- один индекс? А как атомизировать признаки? Тут же нужны онтологии, а их очень мало, и то только для позвоночных и наземных растений кое-что. А как фиксировать изменения таксономических концепций? Сейчас только основные подходы намечены к этому, рабочей системы ни у кого нет.
И все основано на текстах. А что изволите делать с изображениями, звуком и видео?
Вообще-то, идея может быть и недурна, но в мелочах кроется сами знаете что. Есть сервисы, позволяющие на лету строить деревья по 16S или даже по полным геномам прокариот, но даже тут закрадываются вопросы -- а почему именно 16S? а как конкретно сравниваются геномы? Поэтому даже микробиологи предпочитают офф-лайн классификации, рассматривая эти деревья как важный, но лишь источник, а не конечный продукт.
Мне была бы более симпатична задача научить машину воспроизводить экспертные решения систематиков.
===
С уважением,
А. Шипунов

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-23 16:53 (ссылка)
в основном в шутку, по крайней мере не предлагая технических решений для закрепления названий. Вы задаете вопросы, смысл которых в том, что это полная чушь получится. Я писал этот текст в том смысле, что если это сделать - получится полная чушь.Так что в целом понимание достигнуто, хоть и не без жертв.

Боюсь, главное Вы пропустили. Научная систематика началась с того. что перестали обращать внимание на признаки, связанные с "языком" - легенды о тварях. причины присвоения названия. охотничьи истории и пр. Сами знаете - 16 век, и так далее. А этот алгорит всё это будет цеплять в обязательном порядке, то есть система утонет в том. от чего ее так старательно отчищали всякие Чезальпино.

(Ответить) (Уровень выше) (Ветвь дискуссии)


(Анонимно)
2009-09-23 16:57 (ссылка)
OK. Да вроде не пропустил -- именно это имел в виду под атомизацией и онтологиями. Без этого действительно утонет. Если просто делать сходство текстов (хоть семантическое, хоть какое). К счастью, люди здесь (http://www.eol.org/) это понимают.

(Ответить) (Уровень выше)


(Анонимно)
2009-09-23 17:03 (ссылка)
Кстати, народ чем-то подобным вовсю занимается -- http://www.mapress.com/zootaxa/2009/f/zt02217p055.pdf

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-24 01:17 (ссылка)
ага. соблазняется, значит

(Ответить) (Уровень выше)


[info]gouriev@lj
2009-09-23 18:07 (ссылка)
> научные работы надо оценивать просто и понятно: кто выжил и продался (или купился?), тот и был, как оказывается, молодцом.

это можно сказать также об искусстве, образовании (учебниках, курсах)
если всерьез это поверить, то на экранах и прилавках останется одна только "попса".
и единственная наука, которая будет развиваться, это "теория и практика маркетинговых
операций" (наука о том, как "впарить" потребителю не особо нужный ему продукт)

в сущности, сейчас так и есть. но не совсем.
ищущий большего всегда может обрясть это большее.

> А дальше работает просто алгоритм гугля по базе - и производится автоматическая
> классификация объектов по сходству сочетаемых с ними слов

Вах! Пачиму именна Гугля ? Он что, один на свете?!

Идея была бы вполне конструктивной, если бы вместо "сочетаемости слов"
использовалась бы "сочетаемость смыслов" или "сочетаемость фактов".
Т.е. если бы сравнивались описания ммм... скажем так... атрибутов
в некоторой форме, представляющей (кодирующей) семантику. Типа того,
что выше написали про "онтологии". Автоматическое извлечение подобных
описаний из произвольных текстов - задача пока что неразрешимая.
Составление таких формализованных описаний вручную - задача концептуально
понятная, но очень объемная, дорогая. Но, возможно, как раз на этом пути
и удастся создать средства автоматизации для работы систематиков? :)))

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-24 01:20 (ссылка)
_Он что, один на свете?!_
На свете всегда был один сайт. Древние люди называли его Альтавистой, но потом в результате завоеваний победило племя, которое стало называть его Гуглём.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gouriev@lj
2009-09-24 13:11 (ссылка)
На свете всегда был один сайт.
Но древние люди почему-то думали, что сайтов много.
Некоторые из них даже рисковали самостоятельно возводить сайты и поклоняться им.
Потом Единственный Сайт открылся некоторым из древних людей,
некоторым - отдельными своими страницами, а особо достойным - даже целиком,
и эти люди познали, что есть всего один настоящий сайт, и имя ему - Альтависта.
Тогда же этим достойным людям стало известно, что есть единственный настоящий
антисайт, и имя ему - Асталависта. Люди, знающие о Единственных, начали показывать
их другим людям, за что получили название пророков.
Потом пришел Главный Пророк, и объяснил, что настояший Единственный настоящий
сайт - этот Гугль. Но некоторые продолжали поклоняться Альтависте, и это настроило
людей друг против друга. Так они и спорят до сих пор.

Существует предание, что наступят Последние Времена,
и Главный Пророк придет еще раз, и объяснит, какой
сайт настоящий, и строго накажет тех, кто пользуется неправильным сайтом.
А перед этим расплодится множество ложных настоящих сайтов, которые будут
иметь собственных поклонников. Нынче это предание начинает сбываться.
Люди поклоняются МайСпейсу, ВКонтакту и Одноклассникам, которые и есть ложные
настоящие сайты.

Ясно, что наступают последние времена.

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-24 13:14 (ссылка)
Есть предание, что когда-то люди стали возводить Единый сайт, но это оскорбило Небо, и с тех пор у людей разные языки, отчего и Единственные сайты у них различны. Ну можно ли быть столь неосторожными? Недавно видел, как почтенное Министерство, кажется, связи отрядило 400 тыс. долларов на продумывание направлений, коими могло бы следовать создание их сайта, если бы сайт они в самом деле решили делать. Вот это - правильный подход

(Ответить) (Уровень выше) (Ветвь дискуссии)


[info]gouriev@lj
2009-09-24 15:37 (ссылка)
Но люди все-таки продолжают возводить Единый сайт,
считая, что Единый сайт по самому своему божественному
происхождению поможет им общаться несмотря на разные
языки.

Что касается 400 тыс. долларов, то были бы доллары
и хорошие люди, этих долларов достойные, а предлог
всегда найдется, не направления этого сайта, так
проблемы безопасности того.

Это правильный подход, если это твои 400 тыс. долларов
и ты хороший человек, и неправильный - если все наоборот.

(Ответить) (Уровень выше)


(Анонимно)
2009-09-25 15:27 (ссылка)
А самое-то главное: что группировать? Откуда возьмутся "жуки" и "птицы"? Если взять за основу виды, то не будет никаких "жуков" и "птиц", ведь отношения между видами у нас будут континуальные. А если взять "жуков" и "птиц", то нельзя использовать ни виды, ни царства. И т.п. А если так, то и тексты нельзя анализировать. Скажем, написано: жужелицы -- хищники. А у нас "жуки" как элементарная группа, и кто такие "жужелицы", мы не знаем. Или написано, что у хордовых есть нервная трубка. Отсюда не следует ничего о птицах, ведь группировки a priori у нас нет, ее только надо получить.
===
С уважением,
А. Шипунов

(Ответить) (Ветвь дискуссии)


[info]ivanov_petrov@lj
2009-09-25 15:48 (ссылка)
Разумеется, там будут свои группы - нижние выстроятся по видовым названиям - тому, что употреблено в их качестве. Можно принять употребление и высших названий - тогда эта система будет вставлять какие-то употребительные названия между научными, может быть, даже научится их синонимизировать.

Ну, надо думать, эта классификационная машина дойдет до иерархических групп - в смысле, их возможность будет программирована. Значит. она будет выяснять "состав хордовых" - думаю, много где сказано. из чего они состоят, так что группа Птицы в системе будет. Другое дело, там будет множество групп - названия разных языков и пр.

(Ответить) (Уровень выше)