FAS Research Computing - அறிவிப்பு வரலாறு

பகுதி செயல்திறன் குறைவை எதிர்கொள்கிறது

Status page for the Harvard FAS Research Computing cluster and other resources.

Cluster Utilization (VPN and FASRC login required): Cannon | FASSE


Please scroll down to see details on any Incidents or maintenance notices.
Monthly maintenance occurs on the first Monday of the month (except holidays).

GETTING HELP
Documentation: https://docs.rc.fas.harvard.edu | Account Portal https://portal.rc.fas.harvard.edu
Email: rchelp@rc.fas.harvard.edu | Support Hours


The colors shown in the bars below were chosen to increase visibility for color-blind visitors.
For higher contrast, switch to light mode at the bottom of this page if the background is dark and colors are muted.

செயல்திறன் குறைந்துள்ளது

SLURM Scheduler - Cannon - செயல்திறன் குறைந்துள்ளது

Cannon Compute Cluster (Holyoke) - செயல்திறன் குறைந்துள்ளது

Boston Compute Nodes - செயல்திறன் குறைந்துள்ளது

GPU nodes (Holyoke) - செயல்திறன் குறைந்துள்ளது

seas_compute - செயல்திறன் குறைந்துள்ளது

இயங்குகிறது

SLURM Scheduler - FASSE - இயங்குகிறது

FASSE Compute Cluster (Holyoke) - இயங்குகிறது

இயங்குகிறது

Kempner Cluster CPU - இயங்குகிறது

Kempner Cluster GPU - இயங்குகிறது

இயங்குகிறது

FASSE login nodes - இயங்குகிறது

இயங்குகிறது

Cannon Open OnDemand/VDI - இயங்குகிறது

FASSE Open OnDemand/VDI - இயங்குகிறது

இயங்குகிறது

Netscratch (Global Scratch) - இயங்குகிறது

Home Directory Storage - Boston - இயங்குகிறது

Tape - (Tier 3) - இயங்குகிறது

Holylabs - இயங்குகிறது

Isilon Storage Holyoke (Tier 1) - இயங்குகிறது

Holystore01 (Tier 0) - இயங்குகிறது

HolyLFS04 (Tier 0) - இயங்குகிறது

HolyLFS05 (Tier 0) - இயங்குகிறது

HolyLFS06 (Tier 0) - இயங்குகிறது

Holyoke Tier 2 NFS (new) - இயங்குகிறது

Holyoke Specialty Storage - இயங்குகிறது

holECS - இயங்குகிறது

Isilon Storage Boston (Tier 1) - இயங்குகிறது

BosLFS02 (Tier 0) - இயங்குகிறது

Boston Tier 2 NFS (new) - இயங்குகிறது

CEPH Storage Boston (Tier 2) - இயங்குகிறது

Boston Specialty Storage - இயங்குகிறது

bosECS - இயங்குகிறது

Samba Cluster - இயங்குகிறது

Globus Data Transfer - இயங்குகிறது

அறிவிப்பு வரலாறு

ஜூன் 2026

2026 MGHPCC power downtime June 15-18, 2026
  • முடிந்தது
    ஜூன் 18, 2026 இல் பிற்பகல் 9:15
    முடிந்தது
    ஜூன் 18, 2026 இல் பிற்பகல் 9:15

    The yearly power downtime at our Holyoke data center, MGHPCC, has completed.

    The clusters and storage are back online and login nodes and OOD nodes are now available.

    If you have an issue/need help, please send a ticket to rchelp@rc.fas.harvard.edu with details.

    IMPORTANT NOTE: Tomorrow, June 19th is a university holiday. FASRC staff will return Monday to address any lingering issues and any new tickets.

  • புதுப்பிப்பு
    ஜூன் 18, 2026 இல் பிற்பகல் 8:45
    புதுப்பிப்பு
    ஜூன் 18, 2026 இல் பிற்பகல் 8:45

    Power-up is nearly complete, but a delay earlier in the day has us slightly behind.

    New ETA is 6PM.

  • புதுப்பிப்பு
    ஜூன் 18, 2026 இல் பிற்பகல் 12:16
    புதுப்பிப்பு
    ஜூன் 18, 2026 இல் பிற்பகல் 12:16

    MGHPCC has completed their maintenance and restored power to the facility.

    FASRC will now begin the power-up process. Please be aware that this takes several hours.

    We will update this status once complete.

    NOTE: A reminder that tomorrow (Friday) is a university holiday.

  • முன்னேற்றத்தில் உள்ளது
    ஜூன் 15, 2026 இல் பிற்பகல் 1:00
    முன்னேற்றத்தில் உள்ளது
    ஜூன் 15, 2026 இல் பிற்பகல் 1:00
    Maintenance is now in progress
  • திட்டமிடப்பட்டது
    ஜூன் 15, 2026 இல் பிற்பகல் 1:00
    திட்டமிடப்பட்டது
    ஜூன் 15, 2026 இல் பிற்பகல் 1:00

    The yearly power downtime at our Holyoke data center, MGHPCC, has been scheduled by the facility. This year's power downtime will take place on Tuesday June  15th - 18th, 2025.  There will be no June monthly maintenance as a result.

    Since the facility will be powered down for two days this year, we will not be performing the usual maintenance tasks. 
    That said, networking and other key infrastructure will be doing maintenance.

    IMPORTANT NOTE: FASRC storage at both Holyoke and Boston will be affected and should not be expected to be available throughout the downtime. Please plan ahead accordingly.

    • Monday June 15th -  Power-down begins at 9AM

    • Tuesday June 16th - Power out at MGHPCC

    • Wednesday June 17th - Power out at MGHPCC

    • Thursday June 18th - Expected return to full service by 5PM

    • Friday June 19th - Please note that June 19th is a university holiday

     

    Monday June 15th -  Power-down begins at 9AM
Tuesday June 16th - Power out at MGHPCC
Wednesday June 17th - Power out at MGHPCC
Thursday June 18th - Expected return to full service by 5PM

    For more detailed information and follow-up, please see:
    https://www.rc.fas.harvard.edu/mghpcc-yearly-shutdown or this Status Page

மே 2026

Cannon cluster down
  • தீர்க்கப்பட்டது
    தீர்க்கப்பட்டது

    Slurm crashed on 4:30p on Friday due to a user running a large sacct query against the Slurm database. This caused the database host to run out of memory and crash the scheduler. To prevent this from reoccurring we are reducing the time range that users are permitted to query at one time to 7 days. Thus if you need to cover a month you would need to query in four 7 day increments.

    We do ask users to be judicious in their querying of the Slurm. Only ask for those fields that you require. Please also ensure any AI agents you have running limit their queries appropriately.

  • அடையாளம் காணப்பட்டது
    அடையாளம் காணப்பட்டது

    To temporarily stabilize the situation, we have reduced the maximum query time for sacct and other Slurm commands to be 1 day. We have filed a ticket with SchedMD to further analyze the issue.

    The cluster is back up and the scheduler is accepting new jobs.

    We will continue to monitor for emergencies over the weekend, and resume in-depth troubleshooting on Monday.

  • விசாரிக்கப்படுகிறது
    விசாரிக்கப்படுகிறது

    The Slurm scheduler is experiencing an error which is impacting jobs. The Cannon cluster will be inaccessible while we troubleshoot.

    We are currently investigating this incident.

ஏப். 2026

Login and OOD node access restricted due to serious security issue - No ETA
  • தீர்க்கப்பட்டது
    தீர்க்கப்பட்டது

    The cluster has been rebooted and all nodes, including login and OOD, have been patched.

    The scheduler is re-opened and jobs which were preempted/requeued have priority for re-scheduling.

    Some non-standard, lab-owned nodes may still require patching. The owners of these machines may be contacted about this.

    Thank you for your patience. This is a global issue and is being addressed at centers everywhere.

  • புதுப்பிப்பு
    புதுப்பிப்பு

    To mitigate this exploit we will need to restart -all nodes- on the cluster.

    This will begin at 1PM and run until all nodes have restarted (no ETA).

    This will mean any un-finished jobs will be terminated. There is no way to avoid this.

    We will then be validating the fix before re-opening the login. OOD nodes, and scheduler.

    Next steps and updates will be posted here.

  • புதுப்பிப்பு
    புதுப்பிப்பு

    We are developing a plan of attack to mitigate this exploit. Please know that this is a very serious issue and so we are treating it as such. Thank you for your understanding.

    We are currently awaiting further information from the Redhat/Fedora/Rocky community but building a plan in the meantime with the information we have. More details to follow as we can share them.

    If you need to access storage (except scratch and home directories), Globus is still online and available. But again, login nodes and OOD are not available.

  • அடையாளம் காணப்பட்டது
    அடையாளம் காணப்பட்டது

    Due to a serious in-the-wild exploit which can compromise Fedora-based Linux distributions including Rocky, which is used on the cluster, we need to restrict access. All login and OOD nodes are shut down until a fix can be put in place. Jobs running on the cluster will continue running.

    No ETA, There is not fix at this time. We will update our status page in the morning once we have more information or a fix to roll out.

    This is a serious exploit and we do not take this measure lightly. Please follow this status page for updates and eventual resolution.

Website security maintenance (www.rc and docs.rc) 4-28-26 1pm
  • முடிந்தது
    ஏப்ரல் 28, 2026 இல் பிற்பகல் 5:16
    முடிந்தது
    ஏப்ரல் 28, 2026 இல் பிற்பகல் 5:16

    Website maintenance has completed successfully.

  • முன்னேற்றத்தில் உள்ளது
    ஏப்ரல் 28, 2026 இல் பிற்பகல் 5:00
    முன்னேற்றத்தில் உள்ளது
    ஏப்ரல் 28, 2026 இல் பிற்பகல் 5:00
    Maintenance is now in progress
  • திட்டமிடப்பட்டது
    ஏப்ரல் 28, 2026 இல் பிற்பகல் 5:00
    திட்டமிடப்பட்டது
    ஏப்ரல் 28, 2026 இல் பிற்பகல் 5:00

    Security updates are required for www.rc.fas.harvard.edu and docs.rc.fas.harvard.edu
    This work will take place today between 1pm and 2pm
    Both sites will be down for very short periods during the updates.

ஏப். 2026 வரை ஜூன் 2026

அடுத்து