Генератор текста
В статье не хватает ссылок на источники (см. рекомендации по поиску). |
Стиль этой статьи неэнциклопедичен или нарушает нормы литературного русского языка. |
Генера́тор те́кста — компьютерная программа, генерирующая тексты, правильные с точки зрения большинства языковых норм, но, как правило, лишённые смысла. Существуют разные виды генераторов текста, различающиеся своими возможностями (например, некоторые из них могут самостоятельно формировать новые слова).
Джонатан Свифт в «Путешествиях Гулливера», пародируя Ars magna Раймунда Луллия, сатирически описал машину из Лагадо, генерирующую тексты.
Типы генераторов
Генерация текста путём его составления из полностью случайных слов чаще всего не применяется: программа выдаёт бессмысленный результат и легко распознаётся анализаторами текстов. Обычно используют генерацию по вручную написанным фразам-шаблонам.
В случаях, когда не важен смысл генерируемого текста, он составляется из путаницы предложений из разных исходных текстов или из частей предложений. Такой метод совместно с шаблонами и синонимизацией используется в чат-ботах и ботах-комментаторах в соцсетях и блогах. Такие боты копируют собеседнику фразы, записанные с других чатов или сайтов. Более продвинутые чат-боты сортируют фразы по ключевым словам, поэтому их ответ более приближен к теме диалога.
Синонимайзеры и генерация фраз по шаблонам
Часто генераторы текстов совмещены с программами-синонимайзерами, которые автоматически меняют слова на синонимы, в целях рерайта и придания уникальности фразам. Слова, которые надо заменять в шаблоне на синонимы, заменяются макросами.
Чем длиннее текст, тем заметнее неестественность в автоподставленных синонимах. Поэтому в текстах «сделанных для людей» (СДЛ) синонимайзеры могут применяться только для создания уникальных коротких текстов: заголовков и анкоров с ключевыми словами, комментариев и абзацев. Синонимайзеры более успешно применяются в английском языке, который, в отличие от русского языка, имеет простую морфологию.
Виды синонимизации:
- Программа-переводчик. Иногда для синонимизации советуют помещать тексты в программу-переводчик, переводить на иной язык, а затем обратно переводить на русский. Однако, результатом будет бредотекст, ибо переводчики тоже плохо поддерживают склонения слов и их правильный порядок в предложениях.
- Генерация по заданному шаблону. Популярен SEO anchor generator, он имеет онлайн-версию с несколькими базами, которые, однако, нельзя редактировать.
- Генерация по шаблону с возможностью подключения базы синонимов. Самые известные генераторы: Generating the web, Article clone easy, и генератор входящий в Allsubmitter (программа для раскрутки сайта ссылками).
- Синонимизация по базе синонимов. Известен синонимайзер SmartRewriter, он позволяет редактировать базы, немного понимает морфологию. Есть синонимайзеры с функцией «разбавления» текста, например, путём добавления прилагательных. Один из таких — Ifritus, расширяющий текст «описательными связями».
- С учётом морфологии. Такие программы редки ввиду своей сложности. Бывают в виде программ, библиотеки функций, онлайн-сервиса, или онлайн-API для программистов. Например, Морфер способен склонять словосочетания, и phpMorphy, pyMorphy склоняют только отдельные слова.
«Мешанка» текста из разных источников
Дорвеи быстро «вылетают» из поисковой выдачи из-за некачественности своих текстов. Поэтому дорвейщики стараются генерировать текст по минимуму. Случайно генерируются только небольшие фразы в разных элементах страницы, подходящие по смыслу. А абзацы текста парсятся целиком с других сайтов такой же тематики, и, возможно синонимизируются, или используется «мешанка».
- Обычно в генерируемом тексте используется «мешанка» предложений, взятых из различных текстов. Источниками могут быть сборки рассказов в несколько мегабайтов текста, или страницы сайтов схожей тематики. Но если источниками являются только 1-3 сайтов, простая онлайн-проверка на плагиат это покажет. Вполне возможно, что такую проверку делают и поисковики, имея базу всех текстов когда-либо выложенных в интернет.
- Также предложения генерёнки могут составляться из частей предложений нескольких источников, разделяясь запятой. Проверка по Advego показывает, что уникальность такой мешанки выше на 30 % и более.
- Некоторые доргены (генераторы дорвеев) собирают текстовые фрагменты, парся сниппеты поисковой выдачи в интернет. Таковы доргены Seodor и SED.
«Умные» генераторы
Ряд компаний развивает более сложную технологию. Создаются синтаксические структуры по частям речи и членам в предложениях, слова в словарях категоризируются по семантике, с дальнейшей автоподстановкой их в предложения. Однако, ввиду крайней сложности и объёма работ, авторских прав на эти разработки, и коммерческой тайны (подобные системы в принципе позволяют создать очень прибыльные коммерческие проекты), вряд ли стоит ожидать появления общающихся роботов и роботов-переводчиков в ближайшие годы.
Применение
На данном уровне развития компьютерных технологий в свободном доступе отсутствуют генераторы текста со сравнительно осмысленным текстом. Генераторы с бессмысленным набором слов или с шаблонными фразами имеют узкую сферу применения.
Разработка и оптимизация сайтов
Генераторы текстов широко используются при разработке и поисковой оптимизации сайтов: для генерации названий, описаний, и содержимого целых сайтов с помощью доргенов (генераторов дорвеев).
Существуют крупные англоязычные сайты, зарабатывающие на размещении рекламы, на которых весь контент пишут не журналисты, а боты — статьи автоматически рерайтятся из других источников. Примеры таких сайтов: Demand Media[англ.] и Associated Content[англ.][1]. Русский язык, в отличие от английского, имеет сложную морфологию, поэтому появление подобных ботов-рерайтеров в рунете сильно осложнено.
Материалы, созданные при помощи генератора текстов и использующиеся в целях поисковой оптимизации, требуют обязательного тщательного отбора по критерию уникальности.[прояснить] Производится данный отбор при помощи специализированного программного обеспечения, имеющего различный алгоритм проверки.[источник не указан 3437 дней]
Виртуальные собеседники
Виртуальные собеседники (чат-боты) — программы, предназначенные имитировать общение в чатах. Они массово применяются для рассылки спама в соцсетях (спам-боты), а также как автоответчики, способные реагировать на множества ключевых слов по разным сценариям.
Поскольку при этом человек не видит своего собеседника, у него может сложиться впечатление, что он переписывается с живым человеком. Тем не менее, ещё ни одному чат-боту не удавалось с успехом пройти тест Тьюринга, а программам, использующим генераторы текста, это сделать ещё сложнее.
Массовая пропаганда и троллинг в соцсетях
В связи с развитием интернет-пропаганды и «кибер-войн» в соцсетях применяются боты для массовой имитации общественного мнения. При создании ботов у них автоматически генерируются имена и интернет-адреса, а при их ответах — текст комментариев, обычно провокационного, пропагандистского, или оскорбительного содержания.
Относительно широкую известность в русскоязычном Интернете получил генератор текста Rareguest, оформленный в виде php-скрипта. Некоторое время он использовался в рамках сатирического интернет-проекта «Гавгав-центр», а затем получил распространение в качестве робота для живых журналов, блогов и т. д. Вот примеры последовательной генерации однотипных сообщений данным роботом:
Все ваши посты — типичное клише лживой инсинуации, которая стремится дискредитировать и осмеять всякого, кто начинает прозревать и открыто говорить о преступлениях преступного режима. Колет глаза держимордам кровавого кремлёвского упыря правда об их бесчеловечии и о фашистской сути кровавого кремлёвского режима! Интересной особенностью данного форума является то, что путинисты в основном занимаются флудом или обсуждением личностей, а топиков по существу проблем России, вроде этого, боятся как черт ладана. Во врунете достаточно простора, где НКВД-фашисты, вроде вас, могут, не отягощаясь правдой и анализом сталино-путинизма, проводить своё время. Потому и считаю я вас, путинистов, моральными выродками. Ведь подобного рода «участники дискуссии» не появляются на подконтрольных кремлю и ястржембскому «чеченских» сайтах врунета. Пути-Пут и его кровожадные подёнщики ответят за всё.
На этих примерах видно, что даже знакомый с обсуждаемой проблематикой читатель может принять сообщения робота за сообщения реального живого человека, пусть и несколько экзальтированного. Выдает робота в этих сообщениях только типовая структура построения предложений и их комбинирования.
Проверка качества рецензирования издательств
Известны случаи, когда генераторы текстов успешно использовались для выявления низкого качества (а иногда и полного отсутствия) рецензирования в научных журналах. Особенно известна в этом плане программа SCIgen.
См. также
Примечания
- ↑ Контент-генераторы по ключевым словам . Хабрахабр (8 июля 2010). Дата обращения: 2 июля 2015. Архивировано 3 июля 2015 года.
Ссылки
- ACL Special Interest Group on Natural Language Generation (SIGGEN) — научная конференция по теме, на сайте есть архив публикаций (англ.)