Семинар Математическое моделирование, 2022-11-10, Гостев И. М.
Job management in large computing systems based on AI elements
Ivan M. Gostev
Dr. tech. sciences, leading researcher IPTP RAS
Managing the execution of tasks in a large computing system of special purpose is a complex problem associated with the need to distribute tasks among computing nodes in such a way that a number of conditions are met:
- all tasks were carried out within the specified time of completion (ensuring directive deadlines);
- it would be possible to execute one task in parallel on several computers (for example, if subtasks are independent of data);
- there are many input streams of tasks that can have different laws of their arrival (uniform, exponential, Poisson, etc.);
- The efficiency of such a complex should be maximum. That is, all calculators must be loaded at 100%;
- to improve the efficiency of the system, if a solution to the problem is found in one of the subtasks, the execution of all the rest should be stopped;
- in the absence of a solution to a certain task under given conditions, it should automatically restart with changed initial conditions;
- if one of the calculators fails when solving some subtask, it restarts again.
Obviously, the satisfaction of such conditions with a continuous flow of tasks and unpredictable laws of their arrival becomes very difficult. The use of such well-known schedulers as Shortest-Job-First (SJF), Shortest Remaining Time (SRT), Round Robin (RR), Multi-Level Feedback Queue (MLFQ), etc. becomes inefficient for various reasons explored earlier.
The report considers a simulation model of a system that satisfies the set conditions on the base of the queuing theory.
Управление заданиями в больших вычислительных системах на основе элементов ИИ
Гостев И. М.
докт. техн. наук, в.н.с. ИППИ РАН
Управление выполнением задач в большой вычислительной системе специального назначения представляет собой сложную проблему, связанную с необходимостью распределения задач по вычислительным узлам так, чтобы выполнялись ряд условий:
- все задачи выполнялись в рамках заданного времени выполнения (обеспечение директивных сроков выполнения);
- существовала бы возможность выполнения одной задачи параллельно на нескольких вычислителях (например, при независимости подзадач по данным);
- существует множество входных потоков задач, которые могут иметь различные законы их поступления (равномерный, экспоненциальный, пуассоновский и т.д.);
- эффективность работы такого комплекса должна быть максимальной. То есть все вычислители должны быть загружены на 100%;
- для повышения эффективности работы системы, в случае нахождения решения задачи в одной из подзадач, выполнение всех остальные должно быть прекращено;
- в случае отсутствия решения некоторой задачи при заданных условиях, она должна автоматически перезапускаться с изменёнными начальными условиями;
- при отказе одного из вычислителей при решении некоторой подзадачи, она повторно перезапускается.
Очевидно, что удовлетворение таких условий при непрерывном потоке задач и непредсказуемых законов их поступления - становится весьма сложной. Использование таких хорошо известных планировщиков, как Shortest-Job-First (SJF), Shortest Remaining Time (SRT), Round Robin (RR), Multi-Level Feedback Queue (MLFQ) и др. становится неэффективным по разным причинам, исследованным ранее.
В докладе рассматривается имитационная модель системы, удовлетворяющая поставленным условиям на основе теории массового обслуживания.
33 views
1856
672
1 month ago 00:16:58 1
И.Н. Острецов: Спор в лицо с физиками-ядерщиками. Термоядерный синтез-туфта научная? Кто прав?
3 months ago 05:01:35 1
[Допсем] Математическая статистика. Подготовка к первой контрольной