Мы в Telegram
Добавить новость
Новости сегодня

Новости от TheMoneytizer

Доработать скрипт обработки текста (Python, Django)

Eсть проект - инструмент для SEO задач.
На данный момент он находится в, мягко говоря, сыром состоянии. Его требуется доработать и создать новый функционал.
Что есть на данный момент:
https://kradslab.com/ - здесь находится интерфейс, сделанный на Django для самого скрипта (работает, если зарегистрироваться). То, что открывается по доменному имени работает на Django. Gunicorn + Nginx. Очередь задач на Celery.
Назначение скрипта - создание ссылок в загружаемом посредством xlsx файла, контенте страниц. Ссылки создаются на основе списка ключевых слов и URL, также загружаемых из xlsx файлов.
Скрипт лемматизирует и текст и ключевые слова, находит совпадения и, если в контент не было URL для ключевого слова, создает ссылку с данным ключевым словом.
Результатом является docx файл, с проставленными ссылками.

В настоящее время скрипт работает, но требует следующих доработок:
  1. Cейчас скрипт принимает на вход только xlsx файлы, в которых есть ограничения по длине контента в ячейке. Требуется добавить возможность подавать на вход данные в файлах csv автоматически определяя разделитель и кодировку файла. Это касается как файла с ключевыми словами, так и файла с контентом.
  2. В результате работы скрипта должен создаваться не только файл в docx формате, а также в xlsx или в csv.
  3. Добавить возможность приоритезации ключевых слов. Сейчас, если в файле с ключевыми словами для одного URL указано несколько ключевых фраз, то сначала скрипт ищет наиболее длинные ключевые фразы.
    Требуется добавить возможность указать приоритет для каждого ключевого слова (числовое значение, целое число).
    Приоритет должен указываться в отдельном столбце в файле с ключевыми фразами.
    Данный столбец должен быть опциональным. Т.е. его наличие не должно быть обязательным.
    Если для каких-то ключевых фраз с одним и тем же URL указаны одинаковые приоритеты, то в таком случае должен осуществляться поиск наиболее длинных среди них.
    Если для каких-то фраз указан приоритет, а для каких-то нет, то для тех, где он не указан следует считать, что приоритет 0.
  4. Добавить возможность использования перестановок слов.
    Если опция включена, скрипт должен проверять все возможные комбинации слов из ключевых фраз.
    Например, если в ключевых фразах есть "молоко купить", то скрипт должен найти как фразу "молоко купить", так и "купить молоко".
    При этом в первую очередь должны всё равно искаться слова без перестановок, а затем уже с перестановками.
  5. Генерация Word файла без HTML разметки. При генерации Word файла должна удаляться лишняя HTML разметка.
    Лишней считаем ту, которая не оказывает влияния на внешний вид документа. Остальная разметка должна быть преобразована.
    Таким образом, например, все теги h должны быть преобразованы в заголовки с соответствующими размерами шрифтов.
    Вот список того, что должно преобразовываться:
    h1-h6
    a (cсылки - уже сделано)
    p
    br
    table (включая tr, th, td)
    thead
    tfoot
    ul, ol (включая li)
    dl, dt, ddОстальные теги просто удаляем (саму разметку).
    Существует исключение: внутри некоторых ссылок могут быть картинки. Если возможно, теги img не удалять полностью, а оставлять от них только тег и атрибут alt .

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Более 10 тысяч гектаров земли расчистили от борщевика в Подмосковье с начала сезона

В чем проблемы со страгическим договором между Россией и Ираном

В Ульяновске открылась выставка «Лермонтов: судьба поэта-воина»

Веб-казино с лицензионными слотами: как найти честный проект?

Музыкальные новости

«Локомотив» готов рассмотреть продажу Баринова, футболистом интересуются клубы Испании, Франции и Турции

Сыграть свою лучшую игру. Денис Мацуев рассказал, где искать гениев

Свыше половины российских работодателей поощряют трудоголизм

«Первый Бит» доработал логистические процессы производителя пищевой упаковки «Пище-Поли-Пласт»

Новости России

В чем проблемы со страгическим договором между Россией и Ираном

Что случилось к этому часу: главные новости дня к 16:00 12 июня

Зампред правительства Мурашов поздравил жителей Подмосковья с Днем России

Праздничная иллюминация ко Дню России украсит телебашню в Нижнем Новгороде

Экология в России и мире

Пегас сделал важное заявление о будущих турах на предстоящий зимний сезон

Chloé, коллекция Resort 2025

Торжественная церемония закрытия VII Международного Фестиваля театральных школ стран БРИКС+ на ВДНХ

Roberto Cavalli, коллекция Resort 2025

Спорт в России и мире

Самсонова вышла во второй круг турнира в Хертогенбосе

Испанец Карлос Алькарас выиграл Открытый чемпионат Франции по теннису

Сафиуллин не смог пробиться во второй круг турнира ATP в Штутгарте

Дзюба заявил, что был бы теннисистом уровня Сафина

Moscow.media

Парадоксы двойного стандарта

Северные ночи...

Российские учителя смогут проверять домашние задания с помощью ИИ

Вечерело...







Топ новостей на этот час

Rss.plus





СМИ24.net — правдивые новости, непрерывно 24/7 на русском языке с ежеминутным обновлением *