Проверяем доступность услуги Similarity Check


Уважаемые коллеги, в одном из наших предыдущих материалов мы подробно рассказывали об услуге Similarity Check, предоставляемой сообществом Crossref и предназначенной для проверки текстов на предмет плагиата с помощью сервиса iThenticate.

Здесь мы расскажем о том, как можно проверить доступность этой услуги для конкретного префикса DOI (организации-издателя или депозитора метаданных), а также обнаружить и устранить пробелы в метаданных.

Напомним, что услугу Similarity Check может подключить любой член сообщества Crossref, который имеет зарегистрированный отдельный уникальный издательский DOI префикс от Crossref, присваивает DOI научным статьям, отправляет метаданные научных статей в Crossref, а также активно публикует в открытом доступе содержимое научных статей

При этом есть ряд требований к подателю заявки на включение услуги: 

  1. Статьи научного журнала должны быть доступными в сети Интернет по прямым гиперссылкам, т.е. каждая статья должна иметь отдельный URL.
  2. Статьи научного журнала должны размещаться и быть доступными для чтения в текстовом виде (страницы не должны быть в виде картинок или скриншотов) и иметь формат PDF или HTML.
  3. Каждая статья должна иметь идентификатор DOI, а в Crossref должен быть отправлен набор метаданных, который включает прямую, актуальную гиперссылку на полный текст статьи.
  4. Не менее 90% всех статей издателя, которые имеют DOI и метаданные которых отправляются в Crossref, должны включать ссылку на полнотекстовый вариант статьи. Важно отметить, что учитываются статьи не отдельного научного журнала, но все статьи во всех журналах издателя.

Итак, нам нужно разобраться, как проверить доступность услуги Similarity Check для отдельного издателя (или отдельного DOI префикса), т.е. чтобы 90% всех статей с doi имели в метаданных ссылки на полнотексты PDF или HTML.

Для этого нужно знать точное название Вашей организации, за которой закреплен префикс DOI. Если Вы этого не знаете, то нужно перейти на страницу со списком всех депозиторов Crossref, нажать сочетание клавиш Ctrl + F5, ввести в строку поиска префикс DOI и быстро получить название организации…

Попробуем отыскать название организации по префиксу 10.31767… получаем National Academy of Statistics Accounting and Audit

Далее переходим на страницу Checking your eligibility и в поле Member Name вводим точное название организации, на которую зарегистрирован DOI префикс. Из результатов поиска выбираем правильный вариант…

Некоторое время система будет обрабатывать Ваш запрос, пожалуйста, оставайтесь на сайте. После этого Вы увидите результат. На скрине ниже видно, что за все время по выбранному нами в качестве примера префиксу 10.31767 было отправлено метаданные с doi для 276 статей, и все эти метаданные содержат ссылки на полнотекстовые варианты статей, которые доступны в сети Интернет по прямой ссылке… Мы имеем 100%.

Все хорошо. Вы можете подать заявку на подключение сервиса Similarity Check. Для этого нужно нажать apply here и перейти к заполнению формы.

Обзор формы на подключение услуги Similarity Check смотрите в отдельном материале.


Однако, не всегда мы имеем 100% результат. В процессе работы с метаданными некоторые ссылки на полнотексты статей могут быть утрачены по разным причинам. Давайте разберем пример, когда есть незначительные пробелы…

За основу возьмет депозитора Kharkiv National Medical University и его издательский DOI префикс 10.35339. Опять переходим на страницу Checking your eligibility, вводим данные и получаем результат 99.03%. Т.е. из 207-ми отправленных статей в 2-х потерялась гиперссылка на полный текст.

Чтобы проверить и устранить пробел в метаданных, нужно нажать кнопку Generate CSV, после этого на Ваш ПК будет загружен файл в формате *csv, в котором Вы найдете список проблемных doi.

Файл нужно открыть в любом табличном редакторе типа Excel…

Переходим по DOI https://doi.org/10.35339/ecd.4.3.63-67 на сайт журнала, где были размещены статьи. Смотрим страницу «Архив». Сайт построен на платформе Open Journal Systems (OJS). Мы видим, что при формировании архива и добавлении статей был просто пропущен один PDF файл… соответственно при экспорте метаданных этой статьи в Crossref платформой OJS не было добавлено в xml файл значение «iParadigms» с прямой ссылкой на эту статью.

Чтобы исправить ситуацию, нужно подгрузить PDF файл к статье в OJS и еще раз обновить DOI для этой статьи.

Если Вы не используете платформу Open Journal Systems (OJS), которая автоматически генерирует метаданные научной статьи и отправляет их в Crossref, то ошибку можно устранить или с помощью стандартного менеджера метаданных Crossref или с помощью ручного добавления тегов, в которые будет включена ссылка на полный текст статьи.

При этом ссылка на полный текст статьи, как часть метаданных в xml файле, должна быть включена в блок collection property и иметь тег item crawler iParadigms. Приводим пример от Crossref:

<doi_data>
<doi>10.5555/sampledoi</doi>
<resource>http://www.yoururl.org/article1_.html</resource>
<collection property="crawler-based">
<item crawler="iParadigms">
<resource>http://www.yoururl.org/article1_.html</resource>
</item>
</collection>
</doi_data>

В тег doi вписываем Ваш префикс, а в тег resource вписываем гиперссылку на полный текст статьи и отправляем любым удобным способом в Crossref.


И напоследок давайте посмотрим на результаты проверки сервиса Checking your eligibility, которые не удовлетворяют требованиям. На скрине ниже мы видим, что всего по префиксу было отправлено метаданные 5744 статей и только 4356 из них содержат ссылки на полнотексты. Это 75.84 % … т.е. ниже допустимых минимальных 90%.

В таком случае вместо перехода на страницу заполнения формы для подключения услуги Similarity Check Вы увидите сообщение о том, что на данный момент префикс (издатель) не соответствует требованиям.

Ниже Вам предложат сделать то, о чем мы уже писали, т.е. выгрузить на ПК csv файл со списком проблемных DOI, ознакомиться с ними, исправить метаданные и отправить в Crossref. Файл csv содержит только первые 10 тысяч doi. Если у Вас их больше, то нужно обращаться на почту support@crossref.org, и Вам предоставят полный список.


Причины, по которым Crossref не находит ссылки на полнотексты статей, могут быть разные. Попробуем привести лишь некоторые из них:

  • в файл xml с метаданными статьи при ручном формировании не был включен правильный блок с тегом iParadigms <resource>
  • в метаданных был указан путь URL только на индексную страницу статьи с ее рефератом, но не на отдельный PDF или HTML вариант этой статьи с полным ее текстом
  • доступ к файлам с полными текстами статей заблокирован для поисковиков в файле robots.txt или другим способом для чтения на хостинге
  • файлы статей размещены в нечитаемых форматах (отличных от PDF или HTML), отображаются на сайтах с помощью различных flash модулей или в нечитаемых ячейках iframe и пр.
  • файлы статей размещены в нечитаемом виде (например, отсканированный вариант PDF в картинках или вариант с битыми строками при верстке в 2 столбца)
  • после первичной отправки метаданных в Crossref спустя какое-то время сайт журнала или статьи этого сайта были перенесены на другой ресурс или адрес (домен или поддомен или директорию), и пути URL к статьям были изменены (т.е. у Crossref находятся не самые актуальные URL полнотекстов статей)
  • репозитарий, на котором размещались полнотексты статей в PDF или HTML (пути к которым были отправлены в метаданных в Crossref) перестал быть доступен, был удален
  • после первичной отправки метаданных в Crossref спустя какое-то время в URL был изменен протокол c http на https или обратно…

… и другие причины.

После устранения пробелов в метаданных нужно повторно проверить префикс на предмет доступности услуги Similarity Check.


Мы надеемся, что материал был для Вас полезен. С уважением. Участники проекта OSU.


Теги: , , , , , ,

Дата публикации материала: 22.11.2020

Трекбэк с Вашего сайта.

Поделиться: