Войти в систему

Home
    - Создать дневник
    - Написать в дневник
       - Подробный режим

LJ.Rossia.org
    - Новости сайта
    - Общие настройки
    - Sitemap
    - Оплата
    - ljr-fif

Редактировать...
    - Настройки
    - Список друзей
    - Дневник
    - Картинки
    - Пароль
    - Вид дневника

Сообщества

Настроить S2

Помощь
    - Забыли пароль?
    - FAQ
    - Тех. поддержка



Пишет Леонид Каганов ([info]lleokaganov)
@ 2023-04-19 15:52:00

Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Всему на свете приходит конец, пришел конец и ключам
взято отсюда: https://lleo.me/dnevnik/2023/04/19

Новости весенней Грелки. Не, в этот раз я участвовать не буду — взялся за сложный рассказ, но многое пошло не так, в срок не успевал, к тому же в разгар работы внезапно обнаружил, что этот рассказ я уже написал лет пятнадцать назад, поэтому концовку точно надо менять. Но речь не обо мне. Написали мне в личку товарищи с Грелки: мол, избалованный средний читатель уже не может читать мусорные рассказы первого тура, желает их слушать в аудио, пока вяжет носки и варит бульон. А в аудио синтезаторы русского языка говно полное, кроме Яндекса. Но в Яндексе никто не знает, как сделать озвучку, кроме меня. Потому что я пару лет назад сбыдлокодил скриптик, который сам бегает по всем группам грелочных рассказов, берет там тексты, чистит их от говна и левой верстки, умным способом режет на мелкие кусочки примерно по 1000 знаков, озвучивает синтезатором Яндекса и собирает кусочки обратно в единый звуковой файл. То есть, ты запустил скриптик и лёг спать. Утром встал — все 300 рассказов в mp3 готовы (обычно 5-6 групп по 40-50 рассказов). Ладно, нашел я скриптик, исправил в нем старую ссылку конкурса на нынешнюю.

Кому интересно, скрипт вот: grelka2mp3.php

Но — нет. Просыпаюсь утром — только полторы группы успел скрипт за ночь озвучить, а потом кончился мой ключик Яндекса. Я даже не знаю, какой у него был лимит. Два года назад он без проблем дважды озвучил всю Грелку — мужским и женским голосом на выбор. Но у нас тут же еще Господь Бог недавно неделю трудился. Да и время сложное, могли бесплатные ключи порезать на Яндексе. В общем, кончился мой ключик на хорошие русские голоса. Первые полторы группы озвучки ловите, грелочники, а остального не ждите:

Озвучка первых групп временно тут (все рассказы первой группы и первые 24 второй): https://disk.yandex.ru/d/dysseSJhMAFh7g

Сразу скажу, что всем прочим — посторонним и неподготовленным — я читать и слушать первый тур Грелки категорически не советую, там преимущественно испанский стыд.

Но сказка не о том. Я подумал: а что если кому-то даже аудио слушать лень, а хочется быстро прочесть или даже быстро прослушать самое краткое содержание? Я чуть поменял скриптик, чтобы он бегал по кускам спрашивать содержание у искусственного интеллекта, а потом собирал в один краткий пересказ. Задачка оказалась интересной, правда требовала отладки. Например, в каждом отрывке ИИ норовил вставить «в конце рассказа...» хотя отрывок не конец — пришлось добавить дополнительную инструкцию. Но в целом с задачей справлялся.

Кому интересно, скрипт вот: grelka2ai.php

Рецензий AI наплодил на половину первой группы, после чего и здесь у меня тоже кончился триальный ключ. А жаль, я потом ещё собирался спросить мнение AI о каждом из рассказов. Но у всего в этом мире рано или поздно заканчивается триальный период (в чем каждый из нас обязательно убедится рано или поздно) и придется платить. А у меня на Грелку бюджет точно не заготовлен. Так что если кто желает самостоятельно продолжать эксперименты — скрипты я выложил. Либо регистрируйте свой бесплатный ключ API в «речевых технологиях Яндекса» и на openai.com и присылайте мне для продолжения исследований.

Я так прикинул: размер каждой группы — до 1,5 мегабайт чистого текста UTF-8. Групп нынче 5, это до 7,5 миллионов русских букв, которые, в отличие от английских, для AI плохо понятны, поэтому токеном в русском языке является обычно каждая буква, а не слово. Не очень понимаю, что они считают токенами — входящий вопрос или исходящий ответ или и то, и другое. Но при цене 0.002$ за 1000 токенов GPT3.5-turbo осмыслить и прокомментировать всю Грелку будет стоить предположительно 20$-30$ с пробами и отладкой. Что наверно немного, но у меня точно не запланирован бюджет на такую ерунду.

Так что рецензий AI написал только первые 27 штук на половину самых коротких рассказов самой первой группы (они нумеруются в группах по возрастанию размера). Кто попал в первую половину первой группы, оцените уровень понимания вашего текста. Кому просто интересно — можете почитать оригиналы на сайте Грелки http://www.leningrad.su/makod/texts/k220_competition.htm (я не читал). Вот краткое содержание от AI, в принципе полное погружение и идеальные ощущения чтения первого тура вам гарантированы. Именно так оно обычно и выглядит:

[ ТЕКСТ ПОД КАТОМ: Доступен только в оригинальной заметке на сайте ]


(Читать комментарии)

Добавить комментарий:

Как:
( )анонимно- этот пользователь отключил возможность писать комментарии анонимно
Identity URL: 
имя пользователя:    
Вы должны предварительно войти в LiveJournal.com
 
E-mail для ответов: 
Вы сможете оставлять комментарии, даже если не введете e-mail.
Но вы не сможете получать уведомления об ответах на ваши комментарии!
Внимание: на указанный адрес будет выслано подтверждение.
Имя пользователя:
Пароль:
Тема:
HTML нельзя использовать в теме сообщения
Сообщение:



Обратите внимание! Этот пользователь включил опцию сохранения IP-адресов пишущих комментарии к его дневнику.