FAS Research Computing - அறிவிப்பு வரலாறு

பகுதி செயல்திறன் குறைவை எதிர்கொள்கிறது

Status page for the Harvard FAS Research Computing cluster and other resources.

Cluster Utilization (VPN and FASRC login required): Cannon | FASSE


Please scroll down to see details on any Incidents or maintenance notices.
Monthly maintenance occurs on the first Monday of the month (except holidays).

GETTING HELP
Documentation: https://docs.rc.fas.harvard.edu | Account Portal https://portal.rc.fas.harvard.edu
Email: rchelp@rc.fas.harvard.edu | Support Hours


The colors shown in the bars below were chosen to increase visibility for color-blind visitors.
For higher contrast, switch to light mode at the bottom of this page if the background is dark and colors are muted.

செயல்திறன் குறைந்துள்ளது

SLURM Scheduler - Cannon - செயல்திறன் குறைந்துள்ளது

Cannon Compute Cluster (Holyoke) - செயல்திறன் குறைந்துள்ளது

Boston Compute Nodes - செயல்திறன் குறைந்துள்ளது

GPU nodes (Holyoke) - செயல்திறன் குறைந்துள்ளது

seas_compute - செயல்திறன் குறைந்துள்ளது

இயங்குகிறது

SLURM Scheduler - FASSE - இயங்குகிறது

FASSE Compute Cluster (Holyoke) - இயங்குகிறது

இயங்குகிறது

Kempner Cluster CPU - இயங்குகிறது

Kempner Cluster GPU - இயங்குகிறது

இயங்குகிறது

FASSE login nodes - இயங்குகிறது

இயங்குகிறது

Cannon Open OnDemand - இயங்குகிறது

FASSE Open OnDemand - இயங்குகிறது

இயங்குகிறது

Netscratch (Global Scratch) - இயங்குகிறது

Home Directory Storage - Boston - இயங்குகிறது

Tape - (Tier 3) - இயங்குகிறது

Holylabs - இயங்குகிறது

Isilon Storage Holyoke (Tier 1) - இயங்குகிறது

Holystore01 (Tier 0) - இயங்குகிறது

HolyLFS04 (Tier 0) - இயங்குகிறது

HolyLFS05 (Tier 0) - இயங்குகிறது

HolyLFS06 (Tier 0) - இயங்குகிறது

Holyoke Tier 2 NFS (new) - இயங்குகிறது

Holyoke Specialty Storage - இயங்குகிறது

holECS - இயங்குகிறது

Isilon Storage Boston (Tier 1) - இயங்குகிறது

BosLFS02 (Tier 0) - இயங்குகிறது

Boston Tier 2 NFS (new) - இயங்குகிறது

CEPH Storage Boston (Tier 2) - இயங்குகிறது

Boston Specialty Storage - இயங்குகிறது

bosECS - இயங்குகிறது

Samba Cluster - இயங்குகிறது

Globus Data Transfer - இயங்குகிறது

அறிவிப்பு வரலாறு

டிச. 2024

Cluster Partially Degraded
  • தீர்க்கப்பட்டது
    தீர்க்கப்பட்டது
    Jobs have cleared overnight and a fix for the high load appears to be working. We will monitor for any recurrence, but all appears well at this time.
  • விசாரிக்கப்படுகிறது
    விசாரிக்கப்படுகிறது

    Low priority jobs are not getting scheduled despite being at the top of the queue. We are currently investigating this incident and have reached out to SchedMD regarding this.

    See https://support.schedmd.com/show_bug.cgi?id=21627 

FASRC monthly maintenance - Monday December 2nd, 2024 7am-11am
  • முடிந்தது
    டிசம்பர் 02, 2024 இல் பிற்பகல் 4:00
    முடிந்தது
    டிசம்பர் 02, 2024 இல் பிற்பகல் 4:00
    Maintenance has completed successfully
  • புதுப்பிப்பு
    டிசம்பர் 02, 2024 இல் பிற்பகல் 12:52
    புதுப்பிப்பு
    டிசம்பர் 02, 2024 இல் பிற்பகல் 12:52

    Due to an urgent network issue which requires a restart of some network hardware, all jobs will need to be paused.

    Interactive jobs and the ability to write to some storage may be interrupted.

  • முன்னேற்றத்தில் உள்ளது
    டிசம்பர் 02, 2024 இல் பிற்பகல் 12:00
    முன்னேற்றத்தில் உள்ளது
    டிசம்பர் 02, 2024 இல் பிற்பகல் 12:00
    Maintenance is now in progress
  • திட்டமிடப்பட்டது
    டிசம்பர் 02, 2024 இல் பிற்பகல் 12:00
    திட்டமிடப்பட்டது
    டிசம்பர் 02, 2024 இல் பிற்பகல் 12:00

    FASRC monthly maintenance will occur Monday December 2nd, 2024 from 7am-11am

    IMPORTANT NOTICES

    • holyscratch01 will be set to read-only during this maintenance and will be decommissioned February 1, 2025. Please move any needed scratch data to netscratch and begin using it instead if you have not done so already. The global $SCRATCH variable will be changed to /n/netscratch

    • FASRC will be switching to the Harvard ServiceNow ticket system on Dec. 2nd. Our email addresses remain the same and no action is required on your part.
      Please do not re-open old/closed tickets after Dec. 2nd and instead create a new ticket.

    • Cannon cluster: serial_requeue and gpu_requeue will be set to allow MPI/multinode jobs. Such jobs need to be able to handle preemption/being requeued. 

    Training: Upcoming training from FASRC and other sources can be found on our Training Calendar. at https://www.rc.fas.harvard.edu/upcoming-training/

    Status Page: You can subscribe to our status to receive notifications of maintenance, incidents, and their resolution at https://status.rc.fas.harvard.edu/ (click Get Updates for options).

    Upcoming holidays: Thanksgiving Nov. 28th and 29th. Winter break Dec. 23rd through January 1st 

    MAINTENANCE TASKS
    Cannon cluster will be paused during this maintenance?: NO
    FASSE cluster will be paused during this maintenance?: NO

    • Set /n/holyscratch01 scratch filesystem to read-only

      • Audience: All cluster users

      • Impact: Please adoptthe new scratch filesystem /n/netscratch prior to Dec. 2nd. The $SCRATCH variable will move to /n/netscratch during this maintenance
        Data on holyscratch01 will still be readable, but not writable, and will be fully decommissioned on Feb. 1, 2025.

    • Switch ticketing system to ServiceNow. Our email addresses remain the same.

      • Audience: All FASRC users

      • Impact: All new tickets will go to Harvard'sServiceNow,our email remains the same. Existing tickets will get moved any time someone replies.

      • NOTE: From Dec. 2nd on, please do not re-open any old tickets. Create a new one instead by emailing rchelp@rc.fas.harvard.edu

    • Login node reboots

      • Audience: Anyone logged into a FASRC Cannon or FASSE login node

      • Impact: Login nodes will rebooted during this maintenance window

    • Scratch cleanup ( https://docs.rc.fas.harvard.edu/kb/policy-scratch/ )

      • Audience: Cluster users

      • Impact: Files older than 90 days will be removed. Please note that retention cleanup can and does run at any time, not just during the maintenance window.

    Thank you,
    FAS Research Computing
    https://docs.rc.fas.harvard.edu/
    https://www.rc.fas.harvard.edu/upcoming-training/

நவ. 2024

Netscratch - some directories stalled/unavailable
  • தீர்க்கப்பட்டது
    தீர்க்கப்பட்டது
    Netscratch is working normally. The vendor has collected logs and is determining next steps for prevention.
  • அடையாளம் காணப்பட்டது
    அடையாளம் காணப்பட்டது

    We are seeing a recurrence of this issue. We are working to determine the cause and resolution.

  • தீர்க்கப்பட்டது
    தீர்க்கப்பட்டது
    The instability has been identified and resolved. Netscratch has returned to normal, full operaiton.
  • விசாரிக்கப்படுகிறது
    விசாரிக்கப்படுகிறது
    We have reports that some directories in netscratch are unavailable or intermittent. We are working with Vast to determine the cause. This is a new filesystem which is under heavy load for cluster use as well as migration from holyscratch01. We appreciate your understanding of these teething pains and will update you as soon as we have more details or resolution.

அக். 2024

அக். 2024 வரை டிச. 2024

அடுத்து