ジョブ
>
Tokyo

    Senior Site Reliability Engineer - Tokyo, 日本 - ExaWizards

    ExaWizards
    ExaWizards Tokyo, 日本

    1週間前

    Default job background
    フルタイム
    説明

    【仕事内容】

    As a senior Site Reliability Engineer, you will be responsible for developing solutions, implementing requirements, assisting in creating key processes and procedures, that facilitate product planning, execution and delivery. We aim to solve society's issues with AI, so our mission is to solve the Engineering Department's issues

    1. Lead the design, implementation, and management of scalable and reliable infrastructure solutions in public cloud environments (e.g., AWS).
    2. Lead the development and maintenance of Kubernetes clusters, ensuring optimal performance, availability, and security.
    3. Collaborate with development teams to provide expertise in designing architecture, act as a trusted advisor for development teams, provide consultations on infrastructure-related matters and guide them toward effective and scalable solutions.
    4. Monitor system performance, troubleshoot complex issues, and implement proactive measures to ensure high availability and reliability.
    5. Lead incident response and resolution, conducting post-mortem analyses to identify areas for improvement.
    6. Lead the professional development initiatives within the team by mentoring junior members, conducting comprehensive code reviews to uphold quality and best practices, and orchestrating training and workshops to enhance overall skill sets.

    シニアSREとして、製品の企画、実行、およびデリバリーを円滑にするための主要なプロセスと手順の開発、要件の実装に責任を持ちます。AIを使用して社会の課題を解決することを目指しているため、エンジニアリング部門の問題を解決する使命を担います

    1. AWSなどのパブリッククラウド環境でスケーラブルで信頼性のあるインフラソリューションの設計、実装、および管理をリードします。
    2. Kubernetesクラスターの開発とメンテナンスをリードし、最適なパフォーマンス、可用性、およびセキュリティを確保します。
    3. 開発チームと協力してアーキテクチャの設計に専門知識を提供し、開発チームに対して信頼できるアドバイザーとして機能し、インフラに関連する問題に対するコンサルテーションを行い、効果的かつスケーラブルなソリューションに導きます。
    4. システムのパフォーマンスを監視し、複雑な問題のトラブルシューティングを行い、高い可用性と信頼性を確保するための積極的な対策を実施します。
    5. インシデントの対応と解決をリードし、事後分析を実施して改善の余地を特定します。
    6. チーム内のプロフェッショナルな成長イニシアチブをリードし、ジュニアメンバーへのメンタリング、コードの総合的なレビューによる品質とベストプラクティスの維持、全体的なスキルセットの向上を図るためのトレーニングとワークショップを主催します。

    【必須要件】

    • Extensive expertise in at least one cloud platform (i.e. AWS, Azure, GCP, etc...) and experience in designing and leading the management of scalable cloud-based infrastructure
    • Strong expertise in infrastructure-as-code solutions such as Terraform
    • Strong operational expertise in containerization technologies, especially Kubernetes
    • In-depth knowledge of source control, CI/CD, infrastructure automation, orchestration, deployment automation and configuration management
    • Solid understanding of networking and security best practices
    • Excellent problem-solving skills and the ability to lead collaboratively in a team-oriented environment.
    • While our team is mostly English-speaking, you should be comfortable enough talking in Japanese with other internal stakeholder
    • 少なくとも1つのクラウドプラットフォーム(例:AWS、Azure、GCPなど)における幅広い専門知識と、スケーラブルなクラウドベースのインフラストラクチャの設計および管理のリーダーシップ経験
    • Terraformなどのインフラストラクチャのコード化ソリューションにおける強力な専門知識
    • 特にKubernetesにおける強力な運用の専門知識
    • ソースコントロール、CI/CD、インフラストラクチャの自動化、オーケストレーション、デプロイメントの自動化、および構成管理に関する深い知識
    • ネットワーキングおよびセキュリティのベストプラクティスに対する確かな理解
    • 優れた問題解決能力およびチーム指向の環境で協力的にリーダーシップを発揮できる能力
    • チーム内言語は主に英語となりますが、社内関係部門と日本語でコミュニケーションをとることが求められます。

    【歓迎要件】

    • AWS Solutions Architect certifications or knowledge on par with those
    • Certified Kubernetes Administrator or knowledge on par with those
    • Familiar with scripting languages (Shell, Python, Golang)
    • Familiar with extended infrastructure-related tooling such as Ansible or Chef
    • Experience in working with large software systems developed on Unix/Linux
    • Experience of working with monitoring and metrics systems (e.g Grafana, Datadog, etc.)
    • Experience in leading teams through incident response and post-mortem analysis
    • Experience in working closely together with development, product and business teams
    • Bi-lingual (business English level& Japanese daily conversation level or English daily conversation level & Japanese native level)
    • AWS Solutions Architectの認定資格 または同等の知識
    • Certified Kubernetes Administratorの認定資格 また同等の知識
    • Shell, Python, Golang などのプログラミング言語の経験
    • Ansible, Chefなどの拡張インフラ関連ツールの経験
    • Unix/Linux上で開発された大規模なソフトウェアシステムの運用経験
    • モニタリングおよびメトリクスシステム(例:Grafana、Datadogなど)の管理運用経験
    • インシデント対応と事後分析を通じてチームをリードした経験
    • Engineering, Product, Businessチームなどと連携しながら業務を進めた経験
    • バイリンガル(ビジネス英語レベル&日本語の日常会話レベル または 英語の日常会話レベル&日本語のネイティブレベル)

    【求める人物像】

    • You are comfortable at explaining complex recommendations to engineering and infrastructure teams, while discussing technical trade-offs in product development with other work colleagues.
    • You are highly resourceful, analytical, and have a combination of focus, flexibility, self-motivation, and integrity.
    • Our team values communication with candor (openness, frankness, honesty) and the 4 Agile Values to ensure everybody can grow and progress together as well as support the company's CREDO and values, and you are comfortable to work in such an environment.
    • Engineering, Infrastructureチームなどとプロダクト開発における技術的課題を議論しながら、複雑な提案を分かりやすく説明できる方
    • 柔軟性, 論理的思考, 自発性, 誠実さを持っている方
    • 私たちのチームは、会社の理念やバリューに貢献しながら、チーム全員が切磋琢磨し成長していくため、オープンで率直なコミュケーションとアジャイルの価値観を重視しています。とても働きやすい環境です。


  • SORACOM Tokyo, 日本 フルタイム

    ソラコムの Customer Reliability Engineer は、SORACOM をご利用のお客様に対し、チケットシステムを介した対話による直接的な支援と、セルフサービスに向けたコンテンツの拡充による間接的な支援の両面を提供します。そして常に Customer Centric な視点からお客様の課題を理解し、解決までお客様と向きあい、お客様の IoT ビジネスの成功をサポートします。 お客様の真のニーズに寄り添うために、ソラコムの各サービスの基本的な使い方の解説から、AWS などのクラウドと連携した閉域網の構築、リファレンスデバイスをもちいた開 ...


  • Mercari, inc. Minato City, 日本 フルタイム

    This job requires Japanese language ability. JD is available in Japanese only. 本ポジションは英文JDの用意がありません。 · はじめに · あらゆる価値を循環させ、あらゆる人の可能性を広げる · 「地球資源が限られているなか、より豊かな社会をつくるために何ができるか」。2013年、創業者の山田進太郎が世界一周の旅で抱いた課題意識から、フリマアプリ「メルカリ」は生まれました。私たちは、物理的なモノやお金に限らずあらゆる価値を循環させることで、誰もがやりたいことを実現し、人や社会 ...


  • (株)アークエッジ・スペース 東京都, 日本

    超小型人工衛星の運用ソフトウェアの技術開発を担当いただきます。宇宙は技術の総合格闘技とも言われており、モノづくりに携わってきた方はもちろん、それ以外の方であっても十分に技術力が活かせる環境です。 · 当社の超小型衛星は小さいものだとペットボトルほどのサイズで、その中に精密技術が結集されております。今まで培われたご経験を活かし、技術力で宇宙に挑戦する仲間を探しております。組織としてまだまだ発展途上ですが、仕組みをつくるところから、ともに汗を流し、事業成長に貢献いただける方を募集いたします。 ...


  • Rakuten Tokyo, 日本 フルタイム

    Description · : Business Overview · Payment system using credit card, electronic money and web application is social infrastructure. Rakuten Card Co., Ltd. which is the biggest credit card company in Japan keeps growing as the leading company. · Department Overview · The miss ...


  • Synspective Tokyo, 日本 フルタイム

    · The Solutions Development Department at Synspective is responsible for developing models and algorithms which produce insights using multiple sources of data, including our own satellite data. To do this, we develop an analytics platform to produce geoscience insights efficien ...


  • Ahead Group Tokyo, 日本

    Ahead Consulting is seeking a Site Reliability Engineer to join one of our Global E-Commerce clients to handle: · Responsibilities: · Lead the onboarding of new large-scale services (> 3,000 BMaaS nodes) to the Search Platform · Design and maintain the search service, including c ...


  • TEKsystems Tokyo, 日本

    Job Summary · We are looking for a SRE experience in using Terraform and Elastic Kubernetes Service. Our client is one of the largest global insurance companies in the world located in Tokyo. · TerraformとElastic Kubernetes Serviceを使用したSRE経験を募集しています。クライアントは東京にある世界最大級のグローバル保険会社です。 ...


  • TEKsystems Tokyo, 日本

    Job Summary · We are looking for a SRE . Our client is one of the largest global insurance companies in the world located in Tokyo. · Job Description: · Reviews artifacts and CI/CD pipeline to ensure compliance and efficiency. · Leads team by example, supports their development ...


  • Guidewire Tokyo, 日本 フルタイム

    Required Skills & Experience · Bachelor's Degree in Computer Science or related field · Familiarity with the Agile software development lifecycle · Background with Linux systems administration and strong scripting skills in Bash, Python, Go, etc. · Experience in AWS Cloud Platfor ...


  • Nutanix Tokyo, 日本

    The Opportunity · We ensure the success of our groundbreaking technology through cluster health monitoring, quick response time, and unparalleled customer intimacy. We are top-notch engineers from leading virtualization, computing, and networking companies with the ability to ha ...


  • TEKsystems Tokyo, 日本

    Job Summary · We are looking for a SRE . Our client is one of the largest global insurance companies in the world located in Tokyo. · Job Description: · Communicate with project team and analyze AKS environment · Opening firewall request · Setting up environment in Azure · Req ...


  • キャディ(株) Tokyo, 日本

    本チームは、プロダクトの機能開発と信頼性のバランスを保ち、ユーザーに最大の価値を提供することを目指しています。SREチームは主にGoogleが提唱するプラクティスを参考にし、以下のような活動を行っています。 · 【詳細】■Metrics & Monitoring:SLO の実装、運用。オブザーバビリティの導入推進■Capacity Planning:サービスの成長に伴う負荷の予測設計、負荷テストの設計や実施、インフラ整備による図面処理能力の適正化■Change Management:漸進的デリバリーなどの普及を含めたリリースエンジニアリング■Emerge ...


  • Rakuten Tokyo, 日本 フルタイム

    Description · : Business Overview The Technology Platforms Division (TPD) is responsible for building and operating the infrastructure and ecosystem platforms which power the Rakuten Group. Our mission is to provide our Rakuten Cloud and Ecosystem Platforms which will deliver Co ...


  • TEKsystems Tokyo, 日本

    Job Summary · Site Reliability Engineer (SRE) · Why Open? Our client is expanding to support an ambitious project, a groundbreaking initiative that aims to redefine urban living through technology and innovation. They are on a mission to finish and release the project by 2025, a ...


  • Rakuten Tokyo, 日本 フルタイム

    Description · : Business Overview Rakuten Group Inc. has 70+ services. RakutenGroup Inc. has created one of the world's most unique and robust ecosystems by linking these various services through a common membership and loyalty program. · Department Overview · CPED (Cloud Pla ...


  • Renesas Electronics Tokyo, 日本 フルタイム

    Job Description · Overview · We are seeking a skilled and experienced Site Reliability Engineer to join our team. In this role, you will be part of the AI & Cloud Engineering (ACE) Division and AI Workbench team. Our AI Workbench is a cloud-based environment to accelerate Automo ...


  • UNLOCK DESIGN Tokyo, 日本 フルタイム

    We are Unlock Design, a recruitment agency based in Japan, and the job description below is an opportunity with one of our forward-thinking client companies. We aim to ensure a trustworthy and considerate experience for our candidates, emphasizing their privacy and long-term care ...


  • Rakuten Tokyo, 日本 フルタイム

    Description · : Department Overview · The Leisure Product Department (LPD) is handling a lineup of lifestyle and leisure related services, some of them being category leaders in the Japanese market. We aim at growing globally and becoming world leaders through innovation and t ...


  • キャディ(株) Tokyo, 日本

    MLOps Engineerは、Machine Learning Engineerと協業し、機械学習、データサイエンスのモデルを継続的にサービスに対して提供できる、基盤の構築、保守、運用を行います。 · ■機械学習のモデルの推論を行うAPIおよびBatchの動作環境、CI/CDを用いたデプロイ環境の構築 ■本番環境での監視、パフォーマンスチューニングを含むSite ■Reliability向上のための実装 ■VertexやArgo Workflow上での機械学習処理パイプラインの開発、整備、運用 ■推論・学習プラットフォームのコストの最適化 ■モデリング ...

  • SORACOM

    Project Manager

    5日前


    SORACOM Tokyo, 日本

    ソラコムのプロジェクトマネージャーのミッションは、お客様に継続的に価値を提供するために、プロジェクトのリスクを最小限に抑えつつ価値とスピードを向上させることです。チームが調和のとれた状態で機能し成長できる環境を作り出します。 · グローバルでビジネスを提供しているソラコムでは、対象とする国の市場や法規制、競合他社などの特性に基づくさまざまなニーズがあります。これらのニーズに応えるために、ソラコム海外拠点のメンバーを含む社内外のステークホルダーと密に連携しながらプラットフォームへ実装するプロジェクトを率います。新サービスや機能拡張のプロジェクトについて、多 ...